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Plot 3D de points mesurés dans le temps (splines 3D)..................................................... 996 

Plot 3D-de VeCteUTS::128 mit nent rte tee lee ttmertate eee ctétn lisent cime flag etes til ciel 998 
Exemple 148 Diagramme à bulles: nt Rata e 999 

Diagrammes à bulles imbriquées sisi 999 

Diägrammes à bullés 2D rte men nent nr 1000 

Diagramimes.à bulles. 3D::;x esse him Dont tr be tn mntnei ei lMi lents ie fete 1006 

Diagramme de Rosling (bulles animées)... 1007 
Exemple 149.: Intervalles de distributions par densité de noyaux (kernel smoothing).. 1010 

Probabilité cumulée d'un intervalle d'une distribution estimée par noyaux 1014 
Exemple 150.: Diagrammes combinés à lattes (facettes)... 1015 
Exemples: Diaprammes dé ur: Une OR tes en eus 1021 

Flux parallèles (diagrammes de Sankey/Alluvial) 1021 
FHÉONS" dESBRAPESS SE M ai eaet 1027 

Exemple 1.: Graphe de matrice d'adjacence................................... ss 1027 
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Exemple 2.: Graphe de matrice d'adjacence et poids des sommets selon algorithme du Google 


Page Rank sr nine die net le ct ner tonne nt nes unten at dé 1030 
Exemple 3.: Graphe de migration... ss 1033 
Exemple 4.: Réseaux de relations... ss 1036 
Exemple 5.: Réseaux de relations dynamique... 1043 
Exemple 151.: Carte dé chaleur (heatmap) sinistres 1046 
Exemple 152.: Diagramme ternaire (plans de mélange) 1056 
ExXeMDIes SPACE IES en en eines Viune 1058 
Fractale:de Mandelbrôt:::5.s2misssun nn Mint hnte dan ciment 1058 
Fractale:de Feivenbaum.. #22. ne nes le nt net tn ni ri entire 1061 
Exemples 154.: Géostatistiques & Topographie (sciences de l'information géographique) 
Re nd ne ten sn nee a es dde mOn enr dr tres nn ne men tete Ne ne US 1063 
Fopôosraphé sien its mia te te ent tanies Ant nee er rt tn enr 1063 
Statistiques au niveau mondial (package rworldmap) avec projection cylindrique 1077 
Statistiques au niveau mondial (package ggplot) avec projection cylindrique... 1084 
Statistiques au niveau mondial (package plot3D) avec projection cylindrique... 1087 
Statistiques au niveau mondial sans projection... 1091 
AVec-lé package: MApMAtE sels eh A nee re henri rar de 1091 
AVec:lé packäse:rwWoridMap:.s:582 brins nn nt rit nn datnne fnnhnde 1096 
Points au niveau mondial (package ggOceanMaps) avec projection orthogonale 1098 
Statistiques au niveau Européen régional... ss 1099 
Package dédié pour la Suisse: RSwissMaps ss 1104 
Géostatistiques planes ponctuelles (package maps)...’ 1107 
Géostatistiques planes avec gradients (packages agfig et maps)... 1115 
Utilisation du format NetCDF avec projection cylindrique localisée 1117 
Google maps/Open maps (package ggmap) ss 1121 
Pävage-de'sphère et Statistiques 2 moretramegin Duihimesni etienne lens de einen 1148 
Topographie Marine ….................................... AS nant inner 1152 
Carosrinmes ; 5eme Rd El 1154 
Cartogrammes CONTISUS..rinrnrenrtre ip unmenrsne ne ei en ere ne ler een einen en etes tn nine Vino 1154 
Cartogrammes non-CONTIZUS eee eee 1158 
Cartogrammes de Dorling ss ssssessessesseseneeneenennensnsne 1158 
Diaorammes.dé: Vorono... ss me en tie he nr A At nl ere eee ntm nil 1160 
Chemins (analyse qualitative de flux)... ss 1163 
Trajet optimal (des moindres distances)... 1168 
Exémples-1535 Calendriers de densité en ne Re ee ee 1170 
Exémplés 156: Exports.dé-2TaphiQués ani than tenta he he ris leteses 1174 
Exporter un graphique en tant qu'image ou pdf... ss 1174 
Export de graphiques ggplot en format web interactif... 1177 
12. Probabilités et fonctions de distributions de probabilités... 1181 
Exemple 157.: Loi discrète personnalisée ss 1184 
Exemple 158: Marché Aléaléirés Re ce Re ee tn 1186 
Exemple 159 "LOL Normale. teen ee Ce RM nn One 1190 
Loi Normale avec fréquences: anna tt nn mn dr nina teie 1193 
Loi:-Normale‘avec double'afe::.sser dent inner nt innnsnrnss 1198 
Loi Normale avec distribution et répartition des fréquences... 1199 
Convolution de deux lois Normales sise 1200 
LOrNôrmale biVariée.:.5sur nissan anne ni rate tien tienne 1201 
Ellipse de confiance (Youden Plot).................... ses 1204 
Loi Normale trivariéeisssss met teurs Mr nn ne nn ner at nt En 1208 
Exémple:160;: Lot Uniformie (Continue): Re 1210 
Exémple 161.5 1061 GéOomMÉTIQUe tr hiianmiannominienibnntd nina 1212 
Exemple 162:: Lot Binomialesushiisiniai itunes 1215 
Exemple 163:%Æ01 BinGmialé MéSAVÉ. nn trandn its ti at in eat 1219 


R Statistical Software 8/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Exemple 164 LOTO POISSONS SR ee nr nt ue 1221 
Exemple 165: LOL ÉD DÉESÉOMÉNTIQUE 22 Hasta ln nt Re SR ns Te tn ee 1223 
Exemple 166:: Loi Multinomialé:.ssusssssssiastianuntn nimes 1225 
Exemple 67 Lor ÉXponentiellés.sss rss RS NE Nes 1226 
ÉXEMDIE. POS SL OL OUR. SAR Re dec 1228 
Exemple 169: Loï de Student 3iusinrsiirani auinnininiitertsnasse 1230 
Exemple 170: LOLGe Fisher Se ni AS et te tt nt nd 1231 
Exemple LL LorLos- Normale. nee SR SE MSA Nue 1232 
Exemple LEO Le WeIbUIE Sans Sn nn nt ele éenetes 1233 
Exemple 1735" LOL CAR Res a at ne Ge nd Vet 1234 
Exemple 174: Loi Bétdssisiniinsinaninirurininnmaninneniteialresiiensses 1235 
Exéinple 175 LOL ITA IAE Se Re RSA Ce EE CAS 1238 
Exemple 176.: Petite compilation pour comparaisons 1239 
Exemple 177.: Diagramme quantile-quantile Normal (q-q plot) 1241 
Exemple 178.: Loi faibles des grandes nombres vs loi forte des grands nombres 1246 
Exemple 179: Thécrème central Hmité 252 senior interest 1248 
Exemple 180.: Divergence de Kullback-Leibler et distance de Wasserstein 1250 
13. Statistiques pArAMÉTTIQUES. serrer see osoconreressececsecersececsceeenecsnee 1253 
PÉTADOBIÉE RSS SUR SC ent 1254 
Exemple 181.: Tests de Normalité (ou d'adéquations en général) 1255 
Test d'adéquation d'Anderson-Darling (ie Agostino-Stephens) 1255 
Test de Normalité de Shapiro-Wilk.............................. ss 1258 
Puissance du test d'Anderson-Darling ou Shapiro-Wilk (ou autre)... 1260 
Test d'adéquation d'une loi de Poisson (ou binomiale) par la méthode de minimisation du Khi-2 
Rnrin init ininninnnind nenn n n en n en ne ei fines 1268 
Test d'adéquation d'une loi de Poisson (ou binomiale) par la méthode du maximum de 
VraSemblan eue ac Xe SN a As de 1270 
Exemple 182: Tests des Valeurs Abérrantesiss see RO et 1271 
Valeurs aberrantes avec les centiles ss 1271 
Valeurs aberrantes avec les centiles des Box-Plot 1272 
Valeurs aberrantes avec les centiles des bagplots (cas 2D)...................... 1274 
Test de Grubbs (test des valeurs aberrantes de Grubbs)..…................................................ 1275 
Test de Dixon (test des valeurs aberrantes/outliers de Dixon)... 1277 
Test a-Poisson des valeurs aberrantes/outliers dans une table de contingence 1278 
Exemple 183.: Transformations de variables 1279 
Transformation de Box-Cox..…..................... ss sisssssssssesneeeeenseeesseeseenes 1279 
Transformations de Johnson (Yeo-Johnson) ss 1282 
Exemple 184.: Puissance d'un test Z à 1 échantillon en bilatéral... 1286 
Exemple 185.: Taille d'échantillon (effectif) d'un test Z en bilatéral 1287 
Exemple 186.: Intervalle de confiance de la moyenne (test Z à un 1 échantillon)... 1289 
Exemple 187.: Test Z de différence de la moyenne (test Z à un 1 échantillon) en unilatéral 
BAUCHÉ: sitio ardt naine ei ie 1290 
Exemple 188.: Test Z de différence de la moyenne à deux échantillons en bilatéral... 1292 
Exemple 189.;Test Z par MOnte-Carlo:.s tt dan tente eee 1294 
Exemple 190.: Intervalle de confiance de Student de la moyenne géométrique 1295 
Exemple 191.: Intervalle de confiance de la moyenne (test t à un 1 échantillon) 1296 
Exemple 192.: Test t-Student bilatéral d'un échantillon... 1299 
Exemple 193.: Puissance d'un test t à 1 échantillon en bilatéral 1300 
Exemple 194.: Résolution du test t à 1 échantillon en bilatéral 1301 
Exemple 195.: Taille d'échantillon (effectif) d'un test t à 1 échantillon en bilatéral ……. 1303 
Exemple 196.: Test t-Student pour données appariées (deux échantillons) 1304 
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Exemple 197.: 


Test t-Student homoscédastique bilatéral d'égalité de la moyenne (deux 


échantillons): M TS RL ne D En seine dust n ee 1308 
Exemple 198.: Test t-Student hétéroscédastique bilatéral d'égalité de la moyenne (test de 
AA ICE) à) NRA ESER ENREE RRR 1309 
Exemple 199.: Graphique de Gardner-Altman pour test de Student des moyennes appariées 
OR DON ne den ne  N de a nt ten sc ae 1312 
Exemple 200.: Two one-sided test (TOST) de Student... 1314 
Exemple 201.: Test du ratio des moyennes de Fieller 1317 
Exemple 202.: Comparaison de proportions sur une même population (test binomial exact) 
sn M ne M dt RS TA SR ER dns ne M an Mn te nee à 1318 
Exemple 203.: Intervalle de confiance de la proportion... 1319 
Exemple 204.: Comparaison de proportions sur 2 échantillons indépendants 1321 
Exemple 205.: Taille d'échantillon (effectif) d'un test p (proportion) à 1 échantillon en 
bilatéral in ne nes en in en nn tt gta ira tetet is 1323 
Exemple 206.: Taille d'échantillon (effectif) d'un test p (proportion) à 2 échantillons en 
[EDR Le 51 PS SR EN RC RER ARR te Re Eee RIRES 1325 
Exemple 207.: Test de k-proportions (test du khi-deux) 1327 
Exemple 208.: Test de Poisson à un échantillon unilatéral/bilatéral 1328 
Exemple 209.: Test de Poisson de la différence de deux moyenne... 1330 
Exemple 210.: Intervalle de confiance de l'écart-type (test du kh1-2 de la variance)... 1332 
Exemple 211.: Test de Fisher d'égalité des variances 1333 
Exemple 212.: Test de Levene et de Brown-Forsythe d'égalité de deux variances.…..……. 1334 
Exemple 213.: Robustesse de tests statistiques 1337 
Exemple 214: ANOVA (Analyses de la Variance) 1339 
Exemple 1.: ANOVA à un facteur fixe (ANOVA-I canonique) empilé.…...........................…. 1340 
Exemple 2.: ANOVA à un facteur fixe (ANOV&1 canonique) désempilé 1345 
Exemple 3.: ANOVA à deux facteurs fixes (AN OVA:2 canonique) sans répétitions avec ou sans 
IMÉTACUONS seen mel te ae Nan lan nr nn ide de el net ad Rats 1348 
Exemple 4.: ANOVA à deux facteurs fixes (ANOVA:-2 canonique) avec répétitions (réplications) 
ävec:oÙ'Sans interactions: site th nn MONTRE nn at Mat nest 1357 
Exemple 5.: ANOVA à deux facteurs fixes (ANOVA:-2 canonique) avec répétitions (réplications) 
dé pe LIPet LE na RE RS UE nl ner dame nne ne eee r serie 1363 
Exemple 6.: ANOVA à deux facteurs fixes (ANOVA:-2 canonique) avec répétitions (réplications) 
de type I non-balancée avec moyenne par moindres carrées... 1366 
Exemple 7.: Comparaisons multiples du test de Student avec correction de Bonferroni….….…. 1369 
Exemple 8.: Test post hoc de Fisher (Least Significant Difference)... 1373 
Exemple 9.: Test post hoc de (l'étendue) de Tukey HSD................................. 1375 
Exemple 10.: Test post hoc de Dunnett….…..................................... ss 1377 
Exemple 11.: Test de Levene et Bartlett d'égalité des variances d'une ANOVA canonique …. 1380 
Exemple 12.: ANOVA Imbriquée (emboîtée)/Hiérarchique complète... 1382 
Exémplé. 13." ANOVA: Carré Latin: speed mes nr tentée the eirante 1385 
Exemple:14:ANOVA:Gréco-Latin..:.8 ment smilies dessein anses 1389 
Exemple 15.: ANCOVA (Analyse de la Covariance) dixit régression hiérarchique modérée. 1393 
Exemple 16" MANOV Ah nl tt ner nt cebirarbnt rt tete n eee cgentl bi rate Pt Motlet cette ne) 1397 
Exemple 17.: ANOVA par permutatiOn seen 1400 
Exemple 215: Test dé Hüsmer-Lemeshow (ML): nie aitnn uses 1401 
Exemple 216.: ACP (Analyses en Composantes Principales) paramétrique.…….........….. 1406 


ACP (Analyses en Composantes Principales) paramétrique vs SVD (Décomposition en Valeurs 


SIDOULÈTES es st en Mere eee en het dt A a A Pen dre ee ie EtR En 1413 
Exemple 217.: Analyse en Composantes Indépendantes (CA) WP... 1415 
Exemple 218.: Analyse factorielle exploratoire (AFE) 1419 

AFE avec méthode ACP sans rotation! ss 1420 
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AFE avec méthode ACP et rotation VariMax!...................... ss 1421 
AFC Analyse Factorielle des Correspondances ss 1422 

Exemple 219.: Analyse factorielle des correspondances... 1432 
Exemple 220.: Copulas Gaussiens et Student bivariés 1436 
Exemple 221.: Reporter les conclusions et analyses automatiquement 1442 
14. Statistiques robustes et non parAMÉTTIQUES sssssoessesessesenee 1445 
Exemple 222.: M-estimateurs et pseudomédiane (estimateur de Hodges-Lehmann) 1446 
Exemple 223; Testdée Yuüen-Welch testés usa rite ed 1447 
Exemple 224.: Test d'ajustement de Kolmogorov-Smirnov.…....................... 1450 
Casa: l'échañüllon::i; 4er entend tn rl ele net OUR ne tetes 1450 
Casa 2.échantllons::55 ss in liens hein anne in en nn ee at ner ste de 1453 
Exemple 225.: Meilleur ajustement au sens de la maximisation de la log-vraisemblance 
re TR ne Nr ne tr en Ne aan 1455 
Exemple 226.: Test d'ajustement (indépendance) du Kkh1-2..................................... 1458 
Exemple 227.: Test d'indépendance du Khi-deux d'une table de contingence (C2CFA). 1460 
Exémpié228 5 TÉSTExACEUE ISA su nn st ne A ea tete 1462 
Exemple 2295 Testde NIONémarS Rs nan nent tele este 1468 
Exemple 230.: Test d'ajustement du khi-deux avec correction de Yates 1471 
Exemple 231.: G-Test d'ajustement sans correction de Yates... 1473 
Exemple 232.: Coefficient de corrélation de Spearmann 1474 
Exemplé235;:MESUTES d'ASSOCIAUONS. SN Meet Sie nie ptet 1475 
Coefficient de corrélation de concordances des rangs de Kendall-tau 1475 
Kappaide Côlien::;inseses ts un ane Medias tin nt et en ne anis 1478 
V de Cramér (mesure d'association) et coefficient de corrélation phi de Pearson 1480 
Étude de la cohérence avec l'alpha de Cronbach............................... ss 1482 
Etude de la cohérence avec le coefficient de Goodman-Kruskal Ur men annee 1483 
Etude de la cohérence avec le coefficient Lampbäa TU SR CR ITS 1484 
Étude de la cohérence avec le coefficient de Goodman-Kruskal gamma (et autres) 1488 
Exemple 234.: Test de la somme des rangs signés de Wilcoxon pour 2 échantillons appariés 
En nn db Rd Ce EAU es 1491 
Exemple 235.: Intervalle de confiance de la médiane (via test du signe à 1 échantillon) 1493 
Exemple 236.: Test du signe binomial (dixit: test de la médiane pour 2 échantillons 
ADDATE SEL Re et ce ee A Ut 1494 
Exemple 237.: Test de Mood (test des médianes) 1496 
Exemple 238.: Test de la somme des rangs signés de Wilcoxon pour 1 échantillon 1497 
Exemple 239.: Test de la somme des rangs de (Wilcoxon)Mann-Withney pour deux 
échantillons mdépendants.s5.82 ant Daato a Un ae arte tt 1498 
Exemple 240.: Test de la somme des rangs signés de Wilcoxon pour 2 échantillons appariés 
A 1500 
Exemple 241.: Test de Mantel-Haenszel-Cochran 1501 
Exemple 242.: Test de Friedman (ANOVA canonique non paramétrique par les rangs) 1503 
Exemple 243.: Test de Kruskal-Wallis (ANOVA canonique à 1 facteur non paramétrique) 
Rs ner ere el ete tn net nt de 1504 
Exemple 244.: Test de Cochran-Armitage (test du ch1-2 pour tendances dans les 
DIODOTHONS RAR Sn Se RS tn NE Re an ae te 1506 
ÉxempI DAS TG nee Ce en er me er: 1509 
Exemple 246.: ACP (Analyses en Composantes Principales) non-paramétrique 1510 
15. Régressions (paramétriques et non pArAMÉTTIQUES) rss se 1513 
Exemple 247.: Régression linéaire univariée par moindres carrés ordinaires (modèle 
LB ÉLUS CO 1 PR 1514 
Effet de levier (leverage) et distance de Cook... ss 1535 
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Résidus, résidus standardisés et résidus studentisés 1537 
Analyse des Influenceurs: aussi Mere ame ete ntehlet ue mise di eut 1539 
Analyse-delapertormance::s:e. dense nr AR td ele PIS 1544 
Exemple 248.: Régression linéaire univariée par moindres carrés ordinaires forcée à 
l'origine ssl initie in indienne 1545 
Exemple 249.: Régression linéaire univariée par moindres carrés ordinaires avec M- 
ÉSUIMALOUES nt an One Ron ne nu an ne nl a ti es 1548 
Exemple 250.: Régression par densité de noyaux ss 1551 
Exemple 251.: ANOVA de la régression linéaire (bivariée) à facteurs fixes... 1555 
Exemple 252.: Régression quantile linéaire (globale)... 1558 
Exemple 253.: Estimateur de Theil-Sen (régression médiane) 1564 
Exemple 254.: Régression linéaire univariée par moindres carrés ordinaires (modèle 
Gaussien) avec plot 2D/3D du modèle sous-jacent... 1567 
Exemple 255.: Régression non linéaire univariée par moindres carrés ordinaires (modèle 
(GaUSSIÈN) sr en ne ed te TR NE Rn. 1571 
Exemple 256.: Coefficient de corrélation de Pearson et test associé 1574 
Exemple 257.: Coefficient de corrélation bisérial ponctuel 1576 
Exemple 258.: Coefficient de corrélation de Spearman (Spearman rho) 1578 
Exemple 259.: Régression linéaire multiple (avec ou sans interactions)... 1579 
Matrice des variances-covariances du modèle ss 1590 
Importance relative des variables explicatives... 1591 
Facteur d'Inflation de la Variance (VIF) sise 1594 
Erreur d'ajustement (lack-of-fit) sise 1598 
Analyse de la sensibilité par coefficients de régression standardisés.….…...........................… 1601 
"Régression" pas à pas ascendante ou descendante... 1603 
Première méthode (descendante package MASS).......................................... 1603 
Première méthode (ascendante package MASS)..N PER OS REP DEE EDR EEE EEE EEE PER MRC DEET IS TIR EE 1605 
Deuxième méthode (descendante sans packageR® RE PRE CRETE PRE EE PE EPP PE SERRE EE EE TTE EEE TE DE 1606 
Deuxième méthode (ascendante sans package)... 1607 
Troisième méthode (ascendante sans package)... 1608 
Quatrième méthode (meilleur sous ensemble sur R? ou C, de Mallows avec package leaps) 1609 
Quatrième méthode (meilleur sous ensemble sur R?, C, de Mallows, AIC et BIC avec package biology) 
ER TL ERP PP EU TON OR DEEE TE OR TRE RO DUT DER PER ETES EE EU 1611 
Analyse-perturbationnelle. 4er et en es An EE Mn niet A ten nl 1612 
Recherche automatique de la meilleure régression polynomiale .…........................................ 1614 
Exemple 260.: Régression linéaire uni ou multivariée non-négative (NNLS).............. 1615 
Exemple 261.: Régression linéaire uni ou multivariée contrainte... 1617 
Exemple 262.: Résression polynomiale tennis icnnsinimlnnlntees 1618 
Intérpolauon dé Lagrange: ::sfrdininsntntns NOR nt At nn idem te nn: 1621 
Exemple 203: Répression DORdÉTÉS diese nes Sainte entanetsieets 1622 
Exemple 264.: Régression non linéaire générale... 1628 
Exemple 265.: Régression linéaire/polynomiale 3D 1630 
Exemple 266.: Régression régularisée ridge (L2)....................................... 1637 
AVec lé package MASS ist late niet Mit Nenes Midi ei n Sarst es 1637 
AVéc:lé packaveé ridgé sitio tient tien fie 26h Ne nf fm en Te 4 tn des 1644 
Avecle.packäse:slmnet:ssnas ts ua he Mt nee ee ae tree 1646 
Forçape à l'Oribine.seaietes nent a rase A A enr tt ee 1649 
Coéfficiénts non-néBatis is de dileuse sn Mere Mediranne Een Narnia ANR Dee 1649 
Exémplé 267" Résression LASSO (Li) ne as nr en ne ae 1651 
Exemple 268: Révression Plastic Net): fente tra 1654 
Exemple 269.: Résression ISotonique sssssscniiiannensnitesnnlintienenensiensenes 1660 
Exemple 270.: Support Veclor Régression.sis sentimentale 1662 
Exemple 271.: Analyse de la corrélation canonique 1664 
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Exemple 272.: Régressions logistiques (logit et probit)....................... 1675 
Régression binomiale (binaire/scoring) logit ss 1676 
Courbe ROC et Matrice de Confusion sise 1682 
Tests d'adéquations du ratio des vraisemblances, du khi-2 de Pearson et de Hosmer-Lemeshow …….. 1686 
Régression binomiale (binaire/scoring) probit ss 1689 
Odds ratio'et Risque Reélatif::2535s tirent tn indienne inianhinentss 1695 
Régression multinomiale (nominale) ss 1701 
RésresSion: Ordinalé ete manne ne Monnet ann nn unes t 1705 
Exemple 273.: Régression orthogonale (régression de Deming) 1722 
Exemple 274.: Régressions linéaires généralisées (GLM) 1725 
Régression de Poisson log-linéaire (régression des événements rares)... 1725 
Régression GLM Négative binomiale (NB-2) ss 1728 
Recherche automatique de la meilleure régression de Poisson... 1734 
Exemple 275.: Régressions linéaires généralisées mixtes/longitudinales (GLMM) 1736 
Equivalence entre le test de Student et le le test de student de l'effet fixe 1752 
Exemple 276.: Régression en composantes principales 1755 
Exemple 277.: Régression (linéaire) par moindres carrés partiels (régression linéaire PLS 
uniVariées PESTE A nd lotir letter to meet as ti ann ets 1766 
Exemple 278.: Modélisation par équations structurelles (SEM)... 1768 
Exemple 279:-Révression BGotStrapis sus be sut antennes ttes 1778 
Exemple. 280.: Résression JackKmifesissssssiert aus names 1779 
Exemple 281.: Modélisation Dose-Réponse ss 1780 
16: - Interpolauôns ss siens sn needs 7 00 
Exemple 282.: Interpolation par polynômes de Lagrange... 1790 
Exemple 283.: Interpolation par splines (basis + natural splines) 1792 
N-splines (natural), B-splines (basis), RC-splines (restricted cubic) 1795 
Exemple 284.: Interpolation locale par pondérätion (LOESS haine ee 1797 
Exemple 285.: Interpolation Multivariate Adaptive Regression Splines (MARS) 1801 


175. " SONDABES ss stiesnnianimimmanesensasnnenanansusnnrssst 1004 


18. Fiabilité/Survie 000000000000 000000000000000000000000000000000000000000000000000000000000000000000000 1809 
Exemple 286.: Analyse de données censurées selon modèle non paramétrique de Kaplan- 


115 (53 (2) CREER EE RER RSR RSR 1809 
Index de concordance de Harrell......................................... ss 1816 
Exemple 287.: Ajustement de Weibull pour données censurées à droite... 1818 
Exemple 288.: Régression à modèle de hasard proportionnel de Cox 1823 
Exemple 289.: Comparaisons des courbes de Survie de Kaplan-Meier, Cox, Aalens, 
paramètriques (exponentiel et Weibull) et par forêts aléatoires 1825 
Modèle:de Kaplan Meier. 25. mieee tal sieste amet einen nt re ne eutite 1826 
Modèle à hasards proportionnels de Cox sens 1828 
Modèle de résréssaionidé Aâñlen:i stimuli mhrin liissnneliiéete séiafsie tels ll 1829 
Modèle paramétrique exponentiels et Weibull................................. ss 1830 
ATDrES dé SUTVICS su nl et entre ns ennemi en ends 1832 
Comparasons KNL'COX EURE 55m nee tres tan tn nette 1835 
19: Plans d'éKpérienté.,ss ennemies 1030 
Exemples 290.: Générer un plan factoriel complet (sans package)... 1836 
Exemples 291.: Constructions de plans d'expériences 1837 
Plaäns:factonels.::sss nie nan ir nm Mn ne mn te le Eire He 1839 
Plan:factoriel complet général.::2 sets dessine seb en step one tdi fine het tte 1839 
Analyse cONJOINte 5405 Boerrttte ini re tint et der te ne ans r net etre tete st tante beat ati nes 1840 
Plan factoriel (à deux niveaux) fractionnaire sise 1843 
Plan factoriel (à deux niveaux) de screening (résolution IT)... 1846 
Plan factoriel de Plackett-Burman ses 1852 
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Plan factorièl.de Taguchli ss shine fini on te nes es tests 1853 
Plan de criblage définitif (definitive screening design)... 1856 
Analyse et comparaison d'un plan d'expérience identique en factoriel complet général et factoriel à 2 
MIVÉAUX ne en ln ren ren Lea EE en Eee 0ne set 1857 
Plans de surfaces (quadratiques) sens 1863 
Plans COMposltes ÉÉMITÉS Lars nl tn Sen DE ane nt Mer nie ten tt UE 1863 
Analyse-d'un'plan Composite; CÉRITÉ sien int innntnlin RE nt ner nb 1865 
Plans:de-mélanges::2..28..3snesthn Mie mine ae te nt nie nt ent ne 1877 
Plan de mélange centré du simplexe ........................................ ss 1877 
20. Ingénierie de la qualité (Six Sigma/SPC).ssssssssssssessese 1883 
Exemple 292.: Rendement Global Combiné et DPU/DPMO............ 1883 
Exemple 293.: Fonction de coût de perte de qualité de Taguchi................................….. 1886 
Exemple 294.: Analyse de capabilité de données non-groupées 1889 
Exemple 295.: Analyse SixPack de données groupées (+ analyse capabilités + intervalles de 
contiance.dés CApabiltés) rm ee RU ads edit add qu 1890 
Exemple 296.: Constantes de Hartley et autres constantes des cartes de contrôle... 1899 
Exemple 297.: Carte de contrôle par attributs p (proportion)... 1902 
Exemple 298.: Carte de contrôle par attributs de type np (fréquences) 1904 
Exemple 299.: Carte de contrôle par attributs de type €... ss 1906 
Exemple 300.: Carte de contrôle par attributs de type u 1908 
Exemple 301.: Carte de contrôle par mesures X barre-S simple... 1910 
Courbe: d'efficacité... imminent arr atet nu anteé latteeilouer 1912 
Exemple 302.: Carte de contrôle par mesures S barre-S simple .…................................. 1913 
Exemple 303.: Carte de contrôle par mesures R barre-R simple... 1915 
Exemple 304.: Carte de contrôle EWMA avec échantillons 1917 
Exémplé 305: Carte dé controle CUSUÜUME rire ni ane it née 1919 
Exemple 306.: Carte de contrôle G D 1921 
Exemple 307.: Carte de contrôle multivarié@T? de Hotelling ss 1925 
Exemple 308: Carte Bland-Aliman eus amiens ane ann rolR 1928 
Exemple 309.: Étude R&R (reproductibilité/répétabilité) pour données continues ……… 1929 
Exemple 310.: Coefficient de corrélation intra-classe ICCI 1932 
Exemple 311.: Étude de l'instrumentation de type L............. 1936 
Exemple 312.: Plan d'échantillonnage par attributs 1938 
Exemple 313.: Intervalle de Tolérance paramétrique pour loi Normale 1941 
21. Méthodes brutes d'inférences sers 1943 
Exemples 3 14:Monte-Carlô: ss 2 pnnnen ee ent AS ne fn 1944 
Méthode classique (variables pseudo-aléatoires) 1944 
Exemple de calcul de la surface du quart de disque... 1946 
Méthode de réduction de la variance avec variable antithétique 1949 
Méthode de réduction de la variance avec variables de contrôle 1952 
Méthode de réduction de la variance avec séquence quasi-aléatoire de Sobol 1955 
Méthode de réduction de la variance avec Latin Hypercube............................ 1956 
Méthode de réduction de la variance par échantillonnage préférentiel (importance sampling) 1958 
Méthode:d'acceptation/rejét:::astranunnnenninn lement amine 1961 
Méthode de Monte-Carlo par chaînes de Markov... 1963 
Méthode Chaîne de Markov continue sms 1963 
Échantillonnäge dé Gibbs.:::5ta rennes néhohatonnininanmenntitantisnmindhnnmenntishntenns 1963 
Exémples:315::"Test de DÉMUTATON LS ne ae ee tie trs tegs 1967 
Exemples 316 BOGISHAD. un AR re tn M AR ins 1969 
BOOtStTAPpINnS UNIVATLÉ.. rh nee tr nee nent nn tirer ln de tn ten are 1969 
Bootstrap Skewness et Kurtosis sise 1972 
BootStrappine MUIUVARÉ.: 22.180 een A RER MR RE se tn 1973 
Bootsträp d'adéquation...;5sseln annee nine ennemi ls 1974 
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Rébression BOGLSTAp::: rte ni en Pa A Re nee 1975 
EXSMDIES 2 ES RAC RATES 5e een nn de TU unit 1978 
BootStrapping UNIVATIÉ 5.555 ie en PR den tn nee nn teen te een 1978 
Rébressiôn-Jackmte siemens et ar tente 1981 
22. Méta-analyses ss sceeneneentnensnnietiiiaitenenehstse 1983 
E<emplés pVAaleurs AJUSIÉSS ne A OS Ov een des 1983 
23; DéCisionnel. sine 1986 
Exemple 318.: Business Process Analysis 44e 1986 
Exemple 319.: Analyse ABC, XYZ et ABC-XYZ.............. se 2005 
Exemple: Analyse RFM (récence, fréquence, monétaire)... 2011 
Exemple 320.: Modèles dé Wilson, tnennannensinisnntneeneeel 2022 
Exemple 321.: Simulations Beta-PERT (three point estimates).................................. 2024 
Exemple 322.: Offre/Demande et prix optimal 2027 
Exemple 323.: Analyse Procédurale Hiérarchique ss 2035 
Exemple 324.: Problèmes des mariages stables (algorithme de satisfaction de Lloy Shaply) 
Rate orale ot rt da ets tuent Nr te etat agen ait le etes ets 2039 
Exemple 325.: Chaînes de Markov Discrètes (Discrete Time Markov Chain (DTMC)). 2040 
Exemple 326.: Analyse TURF (Total Unduplicated Reach and Frequency) 2043 
Exemple 327: Jeux évolutionnaires insistent mn iteereaneseenessnnnssel 2044 
Exemple 328.: Data envelopment analysis (DEA) CRS 2046 
24. Machine Learning (Big Data/B.IL. avancée) ….eseressee 2047 
PréOUIC Ses ne ne ee A M nes A A Ne nn 2047 
Exemple 329.: Travail avec Apache Spark ss 2050 
Exemple 330; Expiürauon de données RER 2060 
Exemple 331.: Dumification.…...................…. RS MES MS 2071 
Exemple 332.: Normaliser un data frame ….., D A san net 2073 
Exemple 333.: caret (classification and regression training)... 2074 
Exemple 334.: Balancement (équilibrage) des données... 2082 
Random Forest sur données d'origine (non balancées) 2085 
Random Forest sur données sous-balancées......................................... 2086 
Random Forest sur données sur-balancées..…................................. ss 2087 
Random Forest sur données balancées avec ROSE (Random Over-Sampling Examples) ……. 2088 
Random Forest sur données balancées avec SMOTe (Synthetic Minority Over-sampling 
Téchnique):: serment annee Tnt sen nn RAT AE ne enter its 2089 
Comparason:des TÉSUIALS ra8 ssl ntermene dm imnenn ee t an ee an etre 2090 
Exemple 335: /PAritionnement. usine nuse AR TRE es RAR tea ide 2093 
Exemple 336.: OneR (règle unique de classification)... 2094 
EXSMDIE 327 A DROLE URSS Ne EN Ce ns ss un 2096 
Exemple 338.: ECLAT (Equivalence CLAss Transformation)... 2097 
Exemple 339.: Classification par induction CN2 2102 
Exemple 340.: Classification par induction ID-3 et PRISM 2104 
Exemple 341.: Classification par induction C5... 2109 
Exemple 342.: Classification Ascendante Hiérarchique (CAH/Dendrogramme) 2113 
CAH AVEC AGP tm nn tr teens lei hrs tte Tele ele licetes titine 2116 
CAH avec bagging (bootstrap aggregating) ss 2124 
Exemple 343.: Clustering K-means (k moyennes en groupe)... 2126 
Exemple 344:Clustérins K-medoides::24is lien eee 2133 
Exemple 345.: Clustering K-means (k moyennes en groupe) hiérarchisée….............….. 2135 
Exemple 346.: Clustering K plus proches voisins (KNN: k nearest neighbours) 2140 
Exemple 347.: Clustering Modèles de mélanges gaussiens (gaussian mixtures models) 2142 
Exemple 548: Clüsierime par Méan: She aies nant fl tons 2151 
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Exemple 340: lustetins DESCANS SSSR St SR RE Er Re Sa 2153 
Exémplé 350: Classification bayésiènne naîve ; sinistre th nnntinntei 2158 
Classification bayésienne naïve binomiale..…...................................... 2158 
Classification bayésienne naïve gaussienne …............................................................. 2160 
Exemple 351.: Classification SVM (Support Vector Machine)... 2162 
Exemple 352.: Classification CART (arbres de régression et de classification)... 2167 
ATDre:de Classification. tem rstterenn ne din nn de A rentes esst are e et iaame sde e té enr o 2167 
Arbre de TébTéSSlON:s5e2e0 ide an matrimoniale re re anr brune dues ste et leu 6 2179 
Exemple 353.: Random Forests (CART Boostrap) ss 2181 
Exemple 354.: Comparaison d'apprentissage de modèles 2187 
Exemple 355.: Chi-squared Automated Interaction Detection (CHAID) 2189 
Exemple 356.: Analyse d'affinité (affinity analysis)... 2197 
Exemple 357.: Positionnement multidimensionnel 2203 
Exemple 358.: Analyse discriminante linéaire (ADL) 2207 
Exemple 359.: Réseaux de neurones feed-forward (FENN) 2212 
Réseaux de neurones FENN avec fonction d'activation logistique (binomiale).....................…. 2212 
Réseaux de neurones FENN avec fonction d'activation Softmax (multinomiale)..…..............…. 2221 
Réseaux de neurones FFNN auto-régressif 2223 
Exemple 360.: Réseaux de neurones récurrents Vanilla RNN, GRU et LSTM..........…. 2224 
Exemple 361.: Réseaux de neurones convolutionnels GAN (Generative Adversial 
NELWOEKS) Re Re lens ne den else End Pr tn tetes bni stereo Pas attentes tend 2241 
Exemple 262. Ensemble Lédmne:sseé inner ant ont tt 2251 
Exemple 363.: Métriques de classifications ss 2255 
Exemple 364: Calibration.de modèles... ssh anesit hits 2260 
Nous allons donc reprendre le même exemple et le même jeu de données que celui à la page 
Exemple 349.: Clustering DBSCAN green 2261 
Exemple 365.: Réseau de neurones de classififation d'images 2266 
Exemple 366.: Techniques de cross-over (validation) 2284 
Méthode de partition (data split)... 2284 
BOOLSTTAPPINS.se5r8te Men delta nn nn tn tri tn le lentes les 2285 
K=enveloppes (KJOIdS). sr mien en en de eat dr tee doreeen UD eme EG eee Et 2287 
Leave One Out Cross Validation/LOOCV (jackknife) ss 2289 
Exemple 367: Déép'Léafningssssiissielniinnniannsihnundniustiinns 2292 
Exemple 368.: AutoML (Automatic Machine Learning)... 2297 
Fôrcer lé:deep léarming::::5.5 res int tan nes metre ie nan 2304 
Exemplé 3569: Traiter de gros jeux de données: ientesslerit 2308 
PackKaseTaF (Larse:asci File): sermm dnin Anne nn ten en ne ads 2308 
Package data:table-(fread).22.55 mm Re nn nee ee slide ARR terre tt rate 2313 
Réduction dimensionnelle/Feature selection... 2315 
Analyse en composantes principales... ss 2315 
Décomposition en valeurs singulières... see 2315 
Corrélation (réduction dimensionnelle sur variables numériques)... 2315 
Importance de variables (réduction dimensionnelle sur variables numériques)... 2315 
Khi-2 (réduction dimensionnelle sur variables numériques)... 2318 
t-SNE (t-distributed stochastic neighbor embedding) 2320 
Recursive Feature Elimination... sssssssssessseseeeenerenneesenrnneennerseeenerseneenserns 2324 
Data Stream / Données en flux continu... ss 2327 
Exemple 370.: OpenCV (reconnaissance faciale)... 2328 
EÉXÉMPIE ST LE TÉNSOTPION ASE SES RES re Ne ane nee ne 2334 
Exemple 372.: Hadoop (Cloudera)/R Studio Server ss 2338 
25. Séries temporelles (séries ChrOnOlOGIQUES) .rrsrssesreressesessese 2339 
Exemple 373.: Génération d'une série temporelle à partir de données brutes... 2339 
Exemple 374.: Extraire des sous-ensembles de séries temporelles... 2340 
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Exemple 375;;:lire des donnees temporelles ati se ss nr ten 2341 
Exemple 376; Testde Durbin WAGON Ein SR net 2344 
Exemple 377.: Test des suites (test de Walf-Wolfowitz) 2346 
Exemple 378.: Test simple de Dickey-Füllér ::44 helene mundo 2347 
Exemple 379.: Contrôle de la stationnarité d'une série temporelle .…............................ 2352 
Exemple 380.: Régression linéaire avec dates... 2353 
Exemples 381.: Modèles ETS (Error Trend Seasonality) ….......................................... 2354 
Décomposition d'une série temporelle par modèle additif et multiplicatif.….......................… 2354 
Lissage par moyenne mobile simple .….......................................... ss 2359 
Eissageexponentiel simple ss Ménnnhinninnneniiennn Mrtnni Ni ins 2361 
Lissage exponentiel double selon Holt (modèle additif)... 2365 
Lissage exponentiel triple selon Holt et Winters (modèle multiplicatif)…..........................… 2370 
Meilleur modèle prévisionnel au sens des erreurs... 2375 
Modèle de demandes intermittentes de Croston.............................. 2381 
Exemples 382.: Comparaisons STL, ETS et TSLM................................... 2385 
Exemples 383.: Modèles univariés AR(p), ARIMA(p,d,q) et ARCH(p,q) 2389 
Coëfficients d'autocorrélation.:ss sisi nan entente Lanterne 2389 
Coefficients d'autocorrélation partielle .…........................................ ss. 2390 
Simulation d'un processus AR(T).................... einer 2391 
Simulation d'un processus AR(2)................. ire 2392 
Ajuster un modèle AR(p)/ARIMA(p,0,0) sise 2394 
Ajuster un modèle ARIMA(0,0,0)/Moyenne mobile Us 2398 
Ajuster un modèle ARIMA(O,1,0) siennes 2402 
Ajuster un modèle ARIMA(0,1,1)/Lissage exponentiel simple... 2405 
Ajuster un modèle ARIMA(0,2,2)/Lissage exponentiel double de Holt.….........................… 2407 
Ajuster un modèle ARMA(1,1)/ARIMA(1,0,1)............. nn 2409 
Recherche du meilleur modèle ARIMA..........…. Gr nnmmenneenneeneneeenensnsse 2411 
Simulations de modèles ARIMA UE RP I 2414 
Ajuster un modèle GARCH(1,1)............. eines 2416 
Exemple 384.: Test de causalité de Granger WP situ iimenistnanennee 2424 
Ekemple 585: Models TB AS ss nes nn Tee ne Tunes 2427 
Exemple: 580% Modéle-Prôphet:s eue nn Re es RS tin use 2433 
Exemple 387:: Détection des valèurs abérrantes ;:558snhiscntnteeidieaees 2436 
Generalized Extreme Studentized Deviate (GESTD) ss 2436 
InterQuartile Range (OR): nm UT tn Re nent der mine terne ete 2439 
Exemple 388.: Transformée de Fourier Rapide (FFT)... 2440 
Exemple 389.: Transformée de Fourier Inverse Rapide (IFFT)..................................... 2443 
Exemple 390.: Analyses de données de panel... 2445 
Exemple 391.: Prévisions avec l'apprentissage machine et le package ModelTime 2448 
26. Finance Quantitative ..ssssssssesssessscssscscscscscssccccccscccccccscses ZAS 1 
Exeémples-302 Pinanée SCOÏQRe see Ci nn NN te rue 2451 
Réviser les bases de la finance avec GUIDES 2451 
Pricing naïf d'un Future/Forward sise 2453 
Rendements discrets, rendements logarithmiques leur moyenne et écart-type 2455 
Plus proche matrice de corrélation réelle (semi-positive définie)... 2456 
Marche aléatoirement nettes an nn Pret ent stats 2458 
Exemple 393.: Comptes de produits et charges. 2 lie ditl esse 2460 
Exemple 394.: Valeur présente d'une obligation et rendement 2466 
Exemple 395.: Liquidités et iliquidités.; sisi inindininnairantines 2467 
Tliquidité-de Rolle (1984):...,5522. 4eme het renier tonte etresantteentee 2467 
Ratio. de-Biais (bias ratio) 25e ir en nt ie rt te tt dns dre ds dr te 2468 
Exemple 396.: Mouvement Brownien vs Mouvement de Lévy... 2470 
Exemple 397.: Pont Brownien et Excursion Brownienne .…......................................... 2474 
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Exemple 398.: Mouvement Brownien Géométrique et test d'adéquation 2477 
Exemples 399.: Import de données avec les packages quantmod, xts et Quandl..…......…. 2479 
Récupérer dés-donriées brûtes.:2#.5840aniesnenennretnl anne ide Met ie 2480 
RäppelsSurilés’objéts-XTS ét ZOO sentent Dan ann en nn de 2480 
Sans packKASES, NÔNAUOMAUSÉ 25H nent tn hé ent tn he ee 2481 
Avec package, non automatisé différé ou actuel (indices/titres/options/dividendes) 2486 
Avec package, automatisé en temps réel actualisé (indices/titres/options) 2498 
Avec package, non automatisé différé ou actuel (matières premières)... 2501 
Volatilité Historique :::55:808 0er in nn tn nn M eme ne tte ln et nt Strass 2504 
Vérifier la Normalité des retours/rendements (return) 2507 
Heéatmap des réturn:mensuels::..ranenn nine den rat ni tan 2512 
Diagrammes à barres et chandelles (OHLC)............................ ss 2515 
Exemples 400.:Opaons vanilla etexotiques.eit inst 2527 
Évaluation d'options Vanilla Européennes ou Américaines, avec grecques et volatilité implicite 
(VI) Selon. B&S=Merton (BSND :::2arttes a molaire lire dar teireietieiti te 2527 
Valuation (pricing) d'options européennes, américaines et calculs des grecques 2527 
Valuation (pricing) d'options européennes avec méthode de Monte Carlo... 2531 
Volatilité implicite d'options européennes ou américaines 2533 
Diagrammes Payoff (stratégies d'options) ss 2534 
Simulation de Monte-Carlo pour options Vanilla avec mouvement géométrique brownien 2538 
Atbré bnomiaux alternatifs: ni itioenenhninnnn einen tirent ind istéernten dés 2539 
Stnile: dé VOlAUNRÉ sien shimano tn Mendes iatredent ie 2542 
Surface dé VOlAUIMtéssrsnnnn ne mener ane mit em nn in tent mt netteté trs tnN ee 2549 
Volatilité implicitement mine nine dre ln Mendes nn nt S 2551 
Évaluation de deux options Vanilla CONTÉÉES eee. 2554 
Évaluation d'options Vanilla selon modèle de Heston eee. 2555 
Évaluation d'options Asiatiques avec moyenne arithmétique où géOMÉTIQUE 2556 
VIX (Index:de Volaulité)::3.rs inner a ne rte tent tn ie ne ee sde de 2558 
Backtesting de stratégies d'investissement ….....ûf......... ss 2560 
Backtesting sur modèle avec moyenne mobile PES RD PT TN N PET EET RE 2560 
Exemples 401.: Analyse et Gestion de portefeuilles... 2562 
QEPM (Quantitative Equity Portfolio Management)... 2562 
Analyse élémentaire a posteriori de portefeuille (position longue sur 1 période)... 2562 
Analyse élémentaire a posteriori de portefeuille (position long-short sur 1 période) 2570 
Analyse de Brinson d'un portefeuille ss 2574 
Modèles de portefeuilles de Markowitz et autres... 2579 
Exemples 402.: Analyse de la performance ss 2627 
Plotter les retours/rendements (return)... 2627 
Plotter des ratios des performances cumulées 2632 
Plotter des corrélations par rapport à un indice sur une fenêtre …........................................... 2634 
Plotter la moyenne et son intervalle de confiance sur une fenêtre temporelle 2635 
Calculer le maximum Draw Down et faire un graph... 2637 
Plotter l'ECDF et l'histogramme des retours/rendements (return)... 2639 
MÉDAE Ou CAPM:.:.. nn nds nt Aa tent traine net nee detre a 2642 
Risque total, systématique et SpéCifique ss 2648 
Modèle de Fama-French (CAPM multi-facteurs) et régression croisée de Fama-MacBeth 2649 
Exemples 403: Values at RISK sinistre lines atenres 2652 
Value at Risk Historique et Gaussienne .…........................................ ss 2652 
Conditional VaR (Expected Shortfall) ss 2655 
Plotter Écart-type ou la VaR historique/Gaussienne/Conditionnelle 2656 
Monte: Carlo Value at Risk: same nn retiennent ets 2661 
Distribution de perte de portefeuille de Vasicek (distribution de Vasicek) 2662 
Exemple 404.: Pricing de SWAP de taux d'intérêts (IRS) 2666 
Courbe des taux ZÉTO-COUPONS nee 2666 
Exemple 405.: Classification ascendante hiérarchique de séries chronologiques... 2669 
Exemple 406.: Modèle Merton-KMV de risque de défaut... 2680 
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Exemple 407.: Évaluation immobilière (real estate) 2681 
Influence des investissements suisses 2681 
27:, , Finance Actuartelle.i5s sc beennnndeneeeedeonnaitentnitenete 2682 
Exemple 408.: Générer une table des survivants simple et indicateurs de survies 2683 
Exemple 409.: Capitals différés (annuités).…......................... 2691 
Exemple 410; AmortisSÉMeNs nn nt nl ent S nee teens rien items 2693 
Exemple Ælit Emprants ss sis tnt tendre 2695 
Exemple 412.: Valeur actuelle nette (VAN/NPV) et Taux de rendement interne (IRR) 
DÉFOAUESE EST MN en RE A et ee 2696 
Exemple 413.: Valeur actuelle nette (VAN/NPV) et Taux de rendement interne (IRR) 
APÉTIOMIQUES 4082 ere lrrl tn lot rt era eh ira sente nn etienne bete ter title 2699 
28. Théorie des files d'attentes et simulations d'événements discrets... 2700 
Exemple 414.: Résumé d'une file d'attente M/M/I 2701 
Exémple415;: Probabilité d'Erlang-B ;..;548454 ti fnionenstnente faisaient 2703 
Exemple 416.: Probabilité d'Erlang-C..ssssssstisssinesetssssnniintinenenstissieél 2704 
Exemple 417.: Simualtions d'événements discrets (D.E.S.).................................. 2705 
29. Statistiques bayésiennes .sssssssesseseeseeeseosssecessenessecersccensccocssee 2714 
Exemple 418.: Classification bayésienne naive 2715 
Exemple 419.: Réseaux BavéSiens sai iniimisndntiunnsintanenteniil 2716 
Exemple 420.: Statistiques bayésiennes discrètes (cas d'une proportion)... 2722 
Exemple 421.: Statistiques bayésiennes continues (cas d'estimation de la moyenne avec a 
priori et posténior: Normales).:..5:22 inst rident mnt ndnerie dreretiases 2423 
Exemple 422.: Statistiques bayésiennes continues (cas d'une proportion avec a priori beta 
estimée-et 4 postériôn bnonmalé)s rhin ae nan Men ete tee 2725 
Exemple 423.: Test d'hypothèse bayésien unilatéral (cas d'estimation de la moyenne avec a 
priori et posteriori Normales) RS A dENRaas Ne nm ue 2729 
Exémple424 : Intervalle de crédibilité: annual nine 2732 
Exemple 425.: Test A/B Bayésian avec probabilités a priori beta... 2737 
Exemple 426.: BIC (Bayesian Information Criterion) et BF (Bayes Factor)... 2743 
20: SHUSTIQUES SpALAlS.5 te tir en denee nier stand ane tendete 2745 
Distribution Circulaires. aus 2 ht ln A et dd 2745 
Plus proche voisin ét distance Moyenne... had nuire dense 2746 
Se TX MAMIE ne nn tetiscte 2752 
Exemple 427.: Sélectionner des fichiers précis par leur extension 2753 
Exemple 428.: Lire le contenu d'un unique PDF... 2754 
Exemple 429.: Créer et nettoyer le corpus (package tm/SnowballC).........................….. 2756 
Exemple 430.: Obtenir la matrice d'adjacence d'un corpus... 2761 
Exemple 431.: Analyser le corpus (package tm/wordcloud)...................... 2769 
Exemple 452; Résean détérmes COITÉIÉS sine eh etaient tal et 2113 
Exemple 433.: Détecter la langue (package textcat) 4%. 2776 
Exemple 434.: Détecter les genres d'un vecteur de textes... 2177 
Exemple455.; Tableäu dé contingence lexical::2.25002 dant en eineninne 2778 
Exemple 436.: Analyse de sentiments (avec apprentissage par méthode bayésienne) 2779 
Exemple 437.: Analyse de sentiments sur iTunes Store... 2783 
Exemple 438.: Inférence de sentiments (sans apprentissage)... 2785 
Exemple 439.: Bag-of-Words (package qdap) 2794 
Exemple 440.: Clustering d'un matrice numérique catégorielle..…................................ 2797 
Exemple 441.: Clustering et ACP de multiples PDESs 2804 
Exploration dés'données: seins Lens et tien at een net este lunes 2804 
Préparation: du COFPUS 22568 mater MA Ne houle PAU pt On tt ap Red An 2806 
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ACP et Clusterime Hiérarchique 12488 Prat Rene et ne 2814 
Exemple 442.: Clustéring dé corpus détextes..sssésssenessstdiinetinteenieneeniseteatees 2820 
Exploration dés données... sin nu tnin ennui lenenninn 2820 
Préparation, du 'COFDUS sen in te nt LR Ernie PA een tnt 2824 
Clustering K-Means, Hiérarchique et HDBScan..…............................. 2829 
Analyse des mots appartenant aux clusters ss 2830 
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1. Introduction 
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À: DIODOS ER TAG none 27 
ISOZ VINCENT SR an st rie di le nn en ie 27 
ROLANT DAMES: his cordes ds iine se ln daes teste tes demie ssc sen eee ons en taie ces lacoste eee 28 
AVÉTUSSCMENTS ::2::.8:2502002208e dec donrccRe dasarncs ne dennce ses ont ados a ne dessu genn tte etes ent dns p ideas étend sense 29 
Comment utiliser cé liVre:::.385.n8 uns din an te min sms eee dust 31 
FICMÉES dé JONHÉES eee needs ste Dada Dettes ie es tte 32 
MOLrE AVIS HOUS IMÉTÉSSÈ sise des trente antenaes ire seine teen is recane sons ecec tsar cases nncsc ttc de senianee secs se 33 
ReMErCIEMENTS rss ranin te bons ete Te dtrri etes tone te denim ten este a netteté mo teen te dents 34 
DOS 38 
Histoire A8 R.:::552.2m00 ds dela nie durer ntaeenan en naresosane te LA nrsicidest élire diet 39 
Liens Intérnèt::::2 22828828 sie ni net nm es de he tft teen SMlenen éienesatte in ie 43 
FOCUS et ass ete nn sante les ee an ie ii 43 
GTAPRIQUÉS nn die ni ner sen ten danses dpt mate dent its lose ees oraine nai ee féee data rene 43 
VOULUDE: ss Minh st ni sine cond dunes radin cest ennt est densité ane cest dense édani cent ddnnc tee du 43 
Solutions:de Calcul DIStrbUÉ:.:5 50e a store tte elie ess tedeto sed rotor tee 43 
1e CPR PR EN ERP PE 44 
Sur l'aberration de gérer du business de haut niveau avec des tableurs 44 
DATA LR mins tasse sans een ce naiss cest ill ec. 44 
QUIZ /EXEMPIÉS... a a AR RAR enter erite 44 
KR Shiny'èt TensorF low emssiiedanniinetnme éirniiiesmie teintes tien lens étui 44 
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R est un projet GNU libre de traitement des données et d'analyse statistiques (sans AUCUNE 
GARANTIE COMMERCIALE quant à la fiabilité des algorithmes) mettant en œuvre le 
langage de programmation S créé à l'époque par John Chambers et ses collègues lorsqu'il était 
aux laboratoires Bell en 1976. Depuis plusieurs années, deux nouvelles versions apparaissent 


au printemps et à l'automne. Il dispose de nombreuses fonctions graphiques. 


Le logiciel R est considéré par ses créateurs comme étant une exécution de S, avec la 
sémantique dérivée du langage Scheme. C'est un logiciel libre distribué selon les termes de la 
licence GNU GPL et est disponible sous GNU/Linux, FreeBSD, NetBSD, OpenBSD, Mac OS 
X et Windows (ce qui est un énorme avantage dans l'enseignement et le pratique des 
universités et instituts de recherche). Il représente aujourd'hui l'un des objectifs techniques 
majeurs de la communauté GNU. 


Il convient de signaler que le 6 Avril 2015 Microsoft a acheté la version entreprise de R 
(Revolution Analytics) dont la rapidité d'exécution serait de 20 fois supérieure à la version 
standard de R et 42 fois plus rapide que SAS!. Ce qui présage que R avec ses 2 millions 
d'utilisateurs va encore plus dominer le domaine de l'analyse statistique de données. 


REVGEUTION + EE Microsoft 


l'http://blogs.technet.com/b/machinelearning/archive/2015/04/06/microsoft-closes-acquisition-of-revolution- 
analytics.aspx 
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Le choix de R dans une organisation peut se justifier principalement selon moi 
(Vincent ISOZ) par le fait que: 


— Rest gratuit et la documentation gratuite de qualité ET homogène sur l'Internet est 
considérable de plus 11 marche sur PC, Mac, Unix et Linux ainsi que sur les pages 
web. 


— Permet de faire des graphiques statiques ou dynamiques assez intéressant et épurés 
de tout gadget esthétique inutile (les possibilités techniques sont bien supérieures à 
Excel, SPSS, SAS? ou Minitab) 


— Les étudiants provenant d'universités ont la plupart fait leurs premières armes avec 
R et sont donc déjà habitués à cet environnement. 


— La communauté d'utilisateurs (et donc d'intervenants) semble plus vaste que toutes 
les autres solutions alternatives d'où une plus grande réactivité sur les forums 
(même si le nom du logiciel pose parfois problème avec les moteurs de recherche 
puisqu'il ne fait qu'une seule lettre...) 


— Il contient des packages de haut niveau et souvent dès que de nouveaux modèles 
théoriques de statistiques (analyses de données en général) sont publiés, 1ls sont en 
premier disponible sur R pour la communauté académique. 


Enfin rappelons que ce logiciel se destine à des ingénieurs et universitaires donc son rôle n'est 
pas de faire de l'esthétique mais de l'efficace! S 
R 


Le logiciel R est devenu depuis sa création un outil incontournable de statistique et de 
visualisation de données tant dans le monde universitaire que dans celui de l'entreprise. Ce 
développement exceptionnel s'explique par ses trois principales qualités: 1l est gratuit, très 
complet et en essor permanent. 


Dans tout ce livre nous avons fait le choix de travailler principalement avec des fichiers *.csv. 
Pourquoi ce choix?: 


1. Parce que les fichiers de tableurs comme Microsoft Excel ou autres ne sont pas 
pérennes sur les très longues durées (au-delà du demi-siècle) 


2. Parce que les fichiers XML sont difficiles à produire par les pratiquants dans les 
laboratoires qui n'ont pas de formation de programmeur et ne connaissant pas les 
normes internationales d'échanges de données. 


Le lecteur remarquera que le début du présent document rassemble uniquement des points qui 
sont aussi faisables avec Microsoft Excel avec plus ou moins de facilité (parfois plus 
rapidement, parfois pas...). Le but est d'abord de montrer les différences entre les deux 
logiciels comme le font de nombreux ouvrages avant de passer à des cas très spécifiques à KR. 


Enfin signalons que l'idée de ce support de cours sera au long terme de traiter des sujets 
suivants (et dans l'ordre indiqué) dont les démonstrations mathématiques ont été faites 
pendant les cours théoriques: 


2 Si vous étouffez avec SAS... prenez une bouffée d'R ! 
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- Fondamentaux (manipulations scolaires) 

- Manipulation et sources de données avancées 

- Statistiques descriptives 

- Statistiques inférentielles paramétriques 

- Statistiques inférentielles non paramétriques 

- Représentations graphiques 

- Statistiques bayésiennes 

- Méthodes de Monte-Carlo 

-  Fouille de données/Data Mining (+statistique multivariée) 
- Analyses de texte/Text Mining 

- Analyses de séries temporelles 

-  Actuariat & Économie (finance quantitative) 

- Ingénierie de la fiabilité (modèles de survie/garanties) 
- Plans d'expérience 

- Recherche opérationnelle/Optimisation 

- Structural Equation Modeling (SEM) 

- Logique Floue 

- Scripting (programmation) 

- Traitement des images 


Un ordinateur est un outil incomparable entre les mains de celui qui sait. Sous les doigts du 
Crétin, c'est un revolver manipulé par un aveugle au milieu de la foule Chester Himes 


Remarques: LC 
Ÿ 
Q 
R1. Les premiers exercices sont donc quasiment les mêmes que ceux effectués dans les cours 
de statistique théorique, maîtrise statistique des procédés, d'analyse décisionnelle avec 
Microsoft Excel, Minitab, MATLAB et SPSS ou lors du cursus d'ingénierie de gestion projets 


(dans lesquels les calculs sont faits à la main). 


R2. Nous présentons dans ce livre que des outils utilisant des concepts mathématiques dont 
nous exposons la démonstration mathématique détaillée (démonstrations disponibles dans 
mon livre sur les Mathématiques Appliquées) dans nos cours et qui sont utilisés dans le cadre 
de nos activités de consultants. Si cela vient à ne pas être le cas, le titre du sujet est suivi de 
l'abréviation WP qui est l'abréviation de: Without Proof. 
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| RÉ 
Qui veut apprendre R ? 
S 


- = Y 
Qui veut apprendre les stats ? 
N J 
RE RE 


EEE 
Qui veut devenir data scientist ? 
à. ” 
#7] 


h 
| PGA 


Av; 


R3. J'ai rédigé ce document uniquement pour le fun afin de valider les résultats obtenus à la 
main et surtout pour jouer avec les théorèmes mathématiques que j'ai étudiés en détail dans le 
cadre de mes études (démonstrations mathématiques disponibles dans mon ouvrage sur les 
Mathématiques Appliquées). 


R4. Suite à des questions de la part de lecteurs: Non, nous ne sommes pas rétribués par R 
pour leur faire de la pub... Des logiciels comme: ç 
S 
XLStat, SPSS, JASP, Minitab (voir mon PDF Sur ce logiciel), SAS, PSPP, Gauss, MATLAB, 
Statistica, Stata, Medcalc, StatsDirect, SigmaXL, NumXL, JMP, Weibull++, Design-Expert, 
PlanExpert, UNISTAT, QIMacros (Quality Improvement Macros), EasyFitXL, NemrodW, 
qs-STAT, NeoLiCy, etc 


font à peu près pareil relativement aux sujets couverts dans ce document. Il fallait juste que 
nous fassions un choix... (nous ne pouvons pas passer notre temps à écrire des supports sur 
tous les types de logiciels!) et celui-ci s'est porté sur le logiciel utilisé par des écoles dans 
lesquelles nous intervenons parfois en tant que consultants. Cependant si des passionnés 
veulent reproduire le contenu du présent livre avec leur logiciel de statistique favori qu'ils 
n'hésitent pas! Ce serait même fort intéressant de comparer les résultats! ! S1 nous avons le 
temps nous écrirons le même contenu mais avec SPSS (cela étant déjà fait avec Minitab et 
partiellement avec Microsoft Excel). 


Pour terminer, nous tenons à remercier ici les quelques collègues et clients qui ont bien voulu 
nous faire part de leurs remarques pour améliorer le contenu de ce livre électronique. Il est 
cependant certain qu'il est encore perfectible sur de nombreux points et qu'il va encore évoluer 
puisqu'il y a encore une petite dizaine de sujets dont les démonstrations mathématiques sont 
en cours de rédaction pour la prochaine édition du livre de Vincent ISOZ sur les 
Mathématiques Appliquées et nous montrerons comment les utiliser aussi avec KR. 


Si vous souhaitez être informé des nouvelles versions majeures de ce document n'hésitez pas 
à écrire un mail dans ce sens à Vincent Isoz: isoz@sciences.ch. 
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PS: Les fichiers utilisés pour les exemples qui vont suivre ne sont fournis qu'aux entreprises, 
administrations et écoles faisant appel à nos services de consultants/professeurs. 


À propos des rédacteurs 


ISOZ Vincent 


Domicilié à ce jour à Lausanne (Suisse) 
Formation: Ingénieur Physicien HES 
EÉquivalence Internationale: Bachelor of Science 


Fonction: Consultant scientifique senior 


Année de naissance: 1978 


Actuellement, je travaille en tant qu'employé pour l'entreprise Scientific Evolution Sàrl 
spécialiste dans le conseil et la formation et techniques quantitatives pour les hauts-potentiels. 
Mes tâches consistent à faire du conseil (français, anglais et allemand) en mathématiques 
appliquées dans le tutorat d'analystes quantitatifs (niveau Bac+5 à Bac+7). Accessoirement, je 
suis le rédacteur de plusieurs livres électroniques dans les domaines suivants: 


" 
- maîtrise statistique des processus/procédés (méthodes paramétriques et non paramétriques) 

- modélisation prévisionnelle/décisionnelle avancée (arbres de décisions, chaînes de Markov) 
- recherche opérationnelle (simplexe, algorithmes génétiques, algorithme GRG) 

- data mining (réseaux de neurones, ACP, AFC, régressions, scoring, clustering, etc.) 

- modélisation du risque en gestion de projets et finance d'entreprise (monte-carlo, etc.) 

- gestion de projets (modèles et best practices théoriques EFQM+Six Sigma, MS Project) 

- ISO 9001:2008, 5807:1985, 10015:1999, 31000+31010:2009, 8258:1991, 10017:2003, etc. 

- Adobe Photoshop et Illustrator 

- 12 applications de la suite Microsoft Office System (Project, Visio, SharePoint, Access, etc.) 


À ce jour interventions dans plus de -200 entreprises dont 10 du Fortune 500 selon listing 
2009 et 3 universités et écoles d'ingénieurs suisses dans des cours de modélisation de bases de 
données et simulations stochastiques du risque. Formation de plusieurs dirigeants de 
multinationales en one to one. 


Accessoirement j'interviens pour des formations sur des logiciels comme MS Project, 

MS Visio, MS Access et une vingtaine d'autres dont je délègue l'organisation à des entreprises 
spécialisées dans la formation continue en bureautique (niveau licence universitaire et en- 
dessous). 


Enfin, je conseille aussi vivement à toute personne souhaitant vraiment maîtriser le sujet de 
lire mon e-book sur les Mathématiques Appliquées (-5'900 pages) ou de préférence la version 
anglophone (>7'000 pages). 
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KOLANI Daname 


Domicilié à ce jour à Casablanca (Maroc) 

Formation: École Nationale de Commerce et de Gestion - 
Casablanca (BAC +5) 

Fonction: Consultant scientifique junior 


Année de naissance: 1990 


Courriel: daname.kolani @hotmail.com 


Actuellement, diplômé d'école de commerce (option finance), je suis un passionné de la 
finance, de l'économie, de l'économétrie, des statistiques & probabilités. Outre, les théories 
qui y sont associées, j'ai un grand intérêt pour les outils qui fondent l'ensemble de ces 
domaines. Je suis bilingue (Français & Anglais) et mes compétences spécifiques concernent: 


- La finance d'entreprise (Evaluation d'investissement & de financement, Analyse et 
diagnostic financier, Contrôle de gestion et Evaluation de société ...) 


- La finance de marché (gestion de portefeuille financier, l'évaluation d'actif financier, 
outils de gestion de risque...) 


J'ai aussi un intérêt pour l'outil informatique notamment les logiciels comme R Project, VBA — 
Microsoft Excel, MATLAB, EViews et IBM SPSS. _ 
NS 

S 

Ÿ 
J'ambitionne me lancer dans le consulting et pr là, contribuer à l'optimisation des décisions 
financières et à la mise en place de stratégie financière efficiente cadrant avec le modèle 
d'affaire des entreprises. 
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Avertissements 


Le contenu du présent support est élaboré par un processus de développement par lequel des 
experts en statistiques parviennent à un consensus. Ce processus qui rassemble des 
participants bénévoles recherche également les points de vue de personnes intéressées par le 
sujet de cet ouvrage. En tant que responsable du présent support, j'assure l'administration du 
processus et Je fixe les règles qui permettent de promouvoir l'équité dans l'approche d'un 
consensus. Je me charge également de rédiger les textes, parfois de les tester/évaluer ou de 
vérifier indépendamment l'exactitude/solidité ou l'exhaustivité des informations présentées. 


Je décline toute responsabilité en cas de dommages corporels, matériels ou autres de quelque 
nature que ce soit, particuliers, indirects, accessoires ou compensatoires, résultant de la 
publication, de l'application ou de la confiance accordée au contenu du présent support. Je 
n'émets aucune garantie expresse ou implicite quant à l'exactitude ou à l'exhaustivité de toute 
information publiée dans le présent support, et ne garantit aucunement que les informations 
contenues dans cet ouvrage satisfassent un quelconque objectif ou besoin spécifique du 
lecteur. Je ne garantis pas non plus les performances de produits ou de services d'un fabricant 
ou d'un vendeur par la seule vertu du contenu du présent support. 


En publiant des textes, 1l n'est pas dans l'intention principale du présent support de fournir des 
services de spécialistes ou autres au nom de toute personne physique ou morale ni pour mon 
compte, ni d'effectuer toute tâche devant être accomplie par toute personne physique ou 
morale au bénéfice d'un tiers. Toute personne utilisant le présent support devrait s'appuyer sur 
son propre jugement indépendant ou, lorsque cela s'avère approprié, faire appel aux conseils 
d'un spécialiste compétent afin de déterminer comment exercer une prudence raisonnable en 
toute circonstance. Les informations et les normes concernant le sujet couvert par le présent 
support peuvent être disponibles auprès d'autres sources que le lecteur pourra souhaiter 
consulter en quête de points de vue ou d'informations supplémentaires qui ne seraient pas 
couverts par le contenu du présent site Internet. 


Je ne dispose (malheureusement...) d'aucun pouvoir dans le but de faire respecter la 
conformité au contenu du présent ouvrage, et je ne m'engage nullement à surveiller n1 à faire 
respecter une telle conformité. Je n'exerce (à ce jour...) aucune activité de certification, de test 
ni d'inspection de produits, de conceptions ou d'installations à fins de santé ou de sécurité des 
personnes et des biens. Toute certification ou autre déclaration de conformité en matière 
d'informations ayant trait à la santé ou à la sécurité des personnes et des biens, mentionnée 
dans le présent support, ne peut aucunement être attribuée au contenu du présent support et 
demeure sous l'unique responsabilité de l'organisme de certification ou du déclarant concerné. 


Et pour rappel: 


e Tous les modèles sont faux 

e Certains modèles sont meilleurs que d'autres 

e Le modèle le meilleur ne peut jamais être connu avec certitude! 
e Plus simple est le modèle, mieux c'est! 
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hese people understand statistics theoreticaity an 
apoiy them to real lite problems 
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Comment utiliser ce livre 


Dans le cadre des études supérieures, ce livre peut être utilisé pour des séminaires de niveau 
licence, master ou doctorat dans de nombreux domaines des sciences pures et exactes. Les 
séminaires dans lesquels nous utilisons ce matériel est une partie intégrale des programmes de 
Scientific Evolution Sàrl, où les apprenants ont déjà derrière eux un cursus universitaire ni 
licence ou maîtrise dans leur spécialisation. 


Parce que les méthodes des mathématiques appliquées s'apprennent par la pratique et 
l'expérience, nous concevons un séminaire sur R comme un processus d'apprentissage par la 
pratique. Nous structurons nous séminaires de modélisation mathématiques autour d'un 
ensemble de problèmes qui requière aux apprenants de construire des modèles qui aident à 
s'organiser et à prendre des décisions. L'important est que les modèles doivent être consistants 
avec la théorie et back-testés. Pour répondre à cet impératif, 1l est nécessaire pour l'apprenant 
de combiner les mathématiques théoriques avec la modélisation. Le résultat est que 
l'apprenant maîtrise la théorie et, plus important, qu'il acquière les méthodes permettant 
d'appliquer la théorie à des cas pratiques réels. La capacité de critiquer et identifier les 
limitations d'outils mathématiques sensibles est la valeur ajoutée la plus importante de nos 
séminaires. 


Les problèmes avec solutions dans le texte fournissent une opportunité d'appliquer les notions 
théoriques à de petits cas pratiques tirés ou inspirés pour la majorité de cas réels. À la fin des 
séminaires les apprenants ont amélioré leurs compétences et connaissances des outils 
théoriques et computationnels majeurs. 


Il est vraiment difficile de traiter toute la matièreäe ce livre en un semestre. Il faut beaucoup 
de temps pour expliquer la finesse des concept : aux apprenants. Le lecteur est alors encouragé 
de choisir les sujets qui lui sont nécessaires pendant son temps d'étude. Ainsi, il n'est pas 
obligatoire de parcourir les chapitres dans l'ordre dans lesquels ils sont présentés mais cela 
peut toutefois aider de façon significative. 


En un mot, ce livre offre une large variété de sujets qui se prêtent à la modélisation, il est le 


complément pratique du livre théorique Opera Magistris (8 000 pages) et la version écrite des 
formations vidéos suivantes chez ALPHORM: 


avec R 


C@ Datascience 


Data science avec langage R: 
Prise en main des IDE 


@ Vincent ISOZ 
<s 


Note : A AATÉTÉ Vues : 3.996 
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Pour ceux qui souhaitent un échantillon de ce support de cours dans un format plus 
académique, vous pouvez commander notre ouvrage papier sur Amazon.fr: 


https://www.amazon.fr/Langage-Daname-KOLANI-Vincent-ISOZ/dp/2409014208/ref=sr_1_17ie=UTF8&qid=1525176182&sr=8-1&keywords=vincent+isoz 


>" Resources 


Langage R 


Prise en main des statistiques 


Vincent 130Z ==, 
Daname KOLANI = N < 


Fichiers de données 
Les fichiers de données utilisées dans ce livre, c'est-à-dire: 


SC 
e 579 fichiers (*.r, *.rprofile, *.csv, * xmL®.jpg, * mdb, *.xls, etc) 
e Classés dans 32 dossiers 
e Pour un total 579 MB de de données 


sont mis à disposition, avec mises à jour gratuites perpétuelles, uniquement aux apprenants 
ayant suivi nos formations correspondantes à ce livre ou ayant payé (ou fait un don) d'une 
somme équivalente de 499$. 


Les universités, écoles d'ingénieurs et les sociétés privées doivent acheter une seule fois le 
package de fichiers pour une utilisation illimitée de leurs étudiants ou employés, mais limité à 
une seule localisation géographique. 


Pour obtenir plus d'informations sur le processus d'achat, vous pouvez contacter envoyer un 
courriel à l'adresse suivante: isoz@sciences.ch 
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Votre avis nous intéresse! 


En tant que lecteur de ce document, vous êtes le critique et le commentateur le plus important. 
Votre opinion compte et 1l est très intéressant de savoir ce qui est bien, ce qui peut être mieux 
et les sujets que vous souhaiteriez voir être traités. 


Vous pouvez m'envoyer un e-mail pour partager ce que vous avez aimé ou détesté dans le 
présent document afin d'en assurer une amélioration continue. 


S1 vous souhaitez compléter le présent support avec un sujet qui vous tient à coeur et pour 
lequel vous avez la démonstration mathématique n'hésitez pas à me contacter. J'intégrerai le 
sujet en précisant votre nom et prénom. 


Notez que malheureusement, je ne peux pas répondre gratuitement à des questions techniques 
d'ingénierie ou de problématique d'entreprise par e-mail pour des raisons professionnelles 


évidentes. 


E-mail: isoz@sciences.ch 
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Dons 


Ce livre fait partie des livres compagnons du compendium de mathématiques théorique Opera 
Magistris d'environ 7'000 pages qui est lui aussi gratuit. 


pera Magistris 


et ainsi des livres gratuits équivalents sur Minitab et MATLAB. 


Afin de poursuivre la rédaction de ce compendium et continuer à faire évoluer ce livre gratuit 
sur R vos dons sont la bienvenue et nous vous en remercions d'avance. 


Vous pouvez faire un don via Tipeee: 


NO 
ttps://www.tipeee.com/elemènts-of-applied-mathematics 


tipzz 


com 


h 


Merci d'avance! 
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Histoire de R 


Voici quelques dates majeures concernant le logiciel R: 


e 1992: Le développement de R comment en tant que projet de recherché à Auckland, 
(Nouvelle-Zélande) par Robert Gentleman et Ross Ihaka 


e 1993: 
e 1995: 
e 1907: 
e 1907: 
e 1990: 
e 2000: 
e 2001: 
e 2003: 
e 2004: 
e 2004: 
e 2009: 
e 2011: 
e 2013: 


Ross Ihaka Robert Gentleman 


Publication des premiers fichiers binaires à Statlib 
& 
R est distribué sous la licence logel open-source, GPL2 
Composition de l'équipe "R core” 
L'association CRAN est fondée (par Kurt Hornik et Fritz Leisch) 
Le site internet R r-project.org est créé 
Publication de R 1.0.0 (29 février) 
Création de R News (qui deviendra plus tard le Journal R) 
La fondation R est créée 
Première conférence UseR! (à Vienne) 
Publication de R 2.0.0 
Première édition du R Journal 


14 Novembre, publication de la version 0.1 de ce livre 


Publication de R 3.0.0 
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e 2015: Fondation du Consortium R avec la participation de la fondation R. 
Dépassement des 10'000 packages. 


e 2016: Nouveau logo R 


Quick introduction to R >» History 


Statistical Sciences, Inc. from Bell Labs Insightful Corporation TIBCO 
R. Douglas Martin a di from AT&T > Lucent 
u of Washington Exclusive license é = 
nn to develop and sell code boguht 
S-PLUS was born the S language for $2 min IC acquired TIBCO Spotfire 
$ 1988 1993 2004 2008 
a ne ae © A US 
Bell Laboratories . ! TERR - TIBCO Enterprise Runtime for R 
Rick Becker, Via AT&T First statistical system to receive the : 
my First ! Software System Award, the top # 2013 
n Chambers ommercial É software award from the Association Oracle © — 
S was born release New S Language for Computing Machinery R Enterprise 
# 1976 1980 1988 1998 - ss 


@—0—0— Mcrst 


R Open was born 
The last version Revolution Analytics & 2015 


Revolution was born 


& 2007 — 


v 1.0.0 1 Revolution 
E—— acquired 
2000 by Microsoft 
1993 1997 2003 2007 2015 
R was born First release R Core Team R Foundation R Consortium 
CRAN was formed was formed was founded 


Univ. of Auckland 
Ross lhaka, Robert Gentleman 


Enfin signalons quelques informations concernant R. D'abord son ranking dans les salaires à 
Paris (France): 


Salaires par langage en région parisienne en 2017 


5000 r 


4000 r 


3000 


2000 ? 


1000 ! 
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source: https:/emploi.developpez.com/actu/199863/Emploi-developpeur-2017-les-langages- 


les-plus-demandes-et-les-mieux-payes-Java-JavaScript-et-PHP-plus-demandes-mais-Perl-Go- 


et-Scala-mieux-payes/ 


Ce qui équivaut en Suisse à un salaire au minimum de 15'000 CHF/mois! Voici l'équivalent 
aux USA: 


Median stated salary by programming language 
BAS JE 
PorÀ EE 
SC - 
SOL - 
Co EE 
CE 
RE , 
es S — - | 
Dep" 
ru. DS _—__— 
Python EE J 
2. 
vec 
swit EE 
Visual Basic ÉR - _— | 
Ruby SSSR A 
PHP rés 
Golan; D 


0 20000 40000 60000 80000 100000 
Salary in USD 


Language 


source: https://adtmag.com/blogs/dev-watch/2016/07/bash-salaries.aspx 


Et enfin le fameux ranking Spectrum: 
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Language Rank Types Spectrum Ranking _ 
mo 6 
2. © one DE 
3. Java 60 

de 00e 
s. c4 60 NE 
o. # > NE 
7. JavaScript @0 CCR 

. © 

2. Go °> 

10. Suit > RE 


source: https://spectrum.ieee.org/computing/software/the-2017-top-programming-languages 
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Liens Internet 


http:/www.sciences.ch (le site Internet compagnon avec les démonstrations 
mathématiques) 


http://www.r-project.org/ 


http:/www.rstudio.com/ 


https://www.visualstudio.com 


http://cran.univ-lyonl.fr/index.html 


http://cran.r-project.org/web/packages/ 
http://www.itl.nist.gov/div898/handbook/ 
http://www.cookbook-r.com 
http://www.rcommander.com 
http://rgraphgallery.blogspot.ch/ 


http://statcheck.10/ 
http://shiny.rstudio.com/ 


https://radiant-rstats.github.1o/docs/ 


https://plot.lv/ 


Forums _ 


% 


http://www.talkstats.com 


http://statistiques.forumpro.fr 


http://www.les-mathematiques.net 


http://www.developpez.net/forums/f1179/autres-langages/autres-langages/r/ 


http://forums.cirad.fr/logiciel-R/ 


https://pubpeer.com/ 


Graphiques 


https://www.r-graph-gallery.com/all-graphs/ 
https://plot.lv/r/ 
https://exts.sgplot2.tidyverse.org/gallery/ 
https://shiny.gmw.rug.nl/ggplotgui/ 


YouTube 


https://www.youtube.com/@StatisticsGlobe/videos 


Solutions de Calcul Distribué 


http://www.techilatechnologies.com 
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e  https://www.microsoft.com/en-us/cloud-platform/r-server 


Blogs 
e  http://freakonometrics.hypotheses.org 
Sur l'aberration de gérer du business de haut niveau avec des tableurs 


e  http://staffweb.cms.gre.ac.uk/-cd02/EUSPRIG/ 


Data 


e  https://opendata.swiss 


e  https://github.com/rnckp/awesome-ogd-switzerland 


e  http://ec.europa.eu/eurostat/data/database 


e  http:/www.quandl.com 


e  https://data.gov.uk 


e  http//www.data.gov 


e  http://www.census.gov/data.html 

e _http://www.opendatanetwork.com 

e  http://open-data.europa.eu/en/data/ 

° _ http//wiki.dbpedia.org/ S 
e  http://dataportals.org/ 

e  http://www.healthdata.gov/ 


e  https://azure.microsoft.com/en-us/marketplace/ 


e  http//www.gapminder.org/data/ 


e  http://finance.yahoo.com/ 


e  http://archive.ics.uci.edu/ml/index.html 


e  http://www.ncdc.noaa.gov/data-access/quick-links#loc-clim 


Quiz/Exemples 


e  http//www.scientific-evolution.com/qem/fr/start_session/2a6fca7473/ 


e  http//www.r-exercises.com 


R Shiny et TensorFlow 
e  http://deanattali.com/blog/advanced-shiny-tips/ 


e  https://tensorflow.rstudio.com/learn/examples.html 


e  https:/www.shinyproxy.10/ 
e  https://cithub.com/merlinoa/shinyFeedback 
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Médiagraphie 


Voici une liste de livres ou vidéos d'une qualité pédagogique et de rigueur remarquable que 
nous avons eue la chance d'avoir entre les mains et nous recommandons l'acquisition. Nous en 
avons lu beaucoup d'autres mais qui sont tellement mauvais qu'ils ne valent pas la peine d'être 


mentionnés. 


Le lecteur aura donc compris que je recommande très fortement de compléter la lecture du 
présent e-book (non exhaustif concernant R!) par la liste de lecture ci-dessous: 


pera Magistris 


SIX SIGMA 
STATISTICS 


WITH EXCEL 
AND MINITAB 


Opera Magistris / 7950 pages / Editions Sciences.ch / Vincent ISOZ 
/ 3" édition 
ISBN: 978283999327 


Commentaire: Équivalent du livre en français ci-dessus mais en 
anglais, bien plus complet et de qualité graphique considérablement 
meilleure! 


Attention!!! Pendant les séminaires et conférences de moins ou égal à 
3 jours je prends oralement et délibérément des raccourcis théoriques 
dangereux voire parfois partiellement faux délibérément à cause du 
manque de temps pour aller dans les détails. 


Six Sigma Statistics With Excel and Minitab | 386 pages / Éditions 
McGrawHill / Issa BASS 
ISBN: 9780071542685,c 

QŸ 
Commentaire: C'est avec ce livre que j'ai été initié à Minitab lors de 
ma formation Green Belt chez mon deuxième employeur. Il n'y a 
aucune démonstration mathématique et très peu d'équations mais les 
exemples donnés ont une orientation industrielle très utile et cela 
avec un clarté pédagogique remarquable 


100 Statistical tests / 257 pages / Éditions SAGE / Gopal K. KANJI 
ISBN: 101412923751 


Commentaire: Un "must have" listant 100 tests statistiques avec les 
hypothèses d'utilisation, les limites, les formules (sans 
démonstration) et un exemple à chaque fois. 


Modern Statistical Methods for Astronomy — with R applications / 
504 pages / Éditions Cambridge / Eric D. Feigelson, G. Jogesh Babu 
ISBN: 101412923751 


Commentaire: Un petit bijou pour ceux qui sont intéressés à 
l'application des techniques de Data Science/Data Mining à 
l'astronomie sur des jeux de données et des cas réels dans le 
domaine! 
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APPLIED MULTIVARIATE 
STATISTICS FOR THE 
SOCIAL SCIENCES 


Business Statistics 


Mastering R for 
Quantitative Finance 


STATISTIQUE 


Applied Multivariate Statistics for the social sciences | 663 pages / 
Editions Routledge / James P. STEVENS 
ISBN: 9780805859010 


Commentaire: Livre un peu vieillissant mais contient des exemples 
très détaillés avec étapes de calcul de test multivariés complexes, ce 
qui est difficile à trouver dans la littérature. Par contre, il n'y a 
aucune démonstration détaillée. 


Business Statistics / 892 pages / Éditions Routledge / Ronald M. 
WEIERS / 7ème édition 
ISBN: 053845217X 


Commentaire: Le livre !!! à mettre entre les mains à ceux qui 
commencent à étudier les statistiques et qui cherchent un ouvrage 
sans démonstrations mathématiques mais présentant de façon très 
claire et pédagogique des tests jusqu'au niveau du Master et 
accompagnés à chaque fois de façon détaillée de Microsoft Excel et 
Minitab. 


Mastering R for Quantitative Finance / 362 pages / Éditions Packt / 
Edina Berlinger, Ferenc Illés, Milän Badics, Âdäm Banai, Gergely 
Darôczi, Barbara Dômôtôr, Gergely Gabler, Dâniel Havran, Péter 
Juhäsz, Istvän Margitai, Baläzs Mârkus, Péter Medvegyev, Julia 
Molnär, Baläzs Ârpäd Szücs, Âgnes Tuza, Tamäs Vadäsz, Kata 
Väradi, Âgnes Vidoviés- -Dancs 

ISBN: 9781783552078 


Commentaire: Bon que dire... On ne peut que conclure que faire 
intervenir presque 20 auteurs sur un livre ne permet pas toujours un 
résultat cohérent et de qualité. On remarque parfois qu'il y a 
beaucoup de remplissage avec du bla bla bla... On note aussi suite à 
la lecture, la différence de style entre les différentes auteurs... entre 
ceux qui utilisent zéro packages, et ceux qui font que d'en utiliser. 
Bref pas brillant mais quelques pages sont toutefois intéressantes 
(peut-être une vingtaine sur les 362...). 


STATISTIQUES: Dictionnaire encyclopédique / 614 pages / Éditions 
Springer / Yadolah DODGE 
ISBN: 9782287720932 


Commentaire: Un petit dictionnaire très utile contenant un peu tout 
de façon très condensée sur tout le domaine des statistiques. Très 
pratique pour retrouver des définitions qui génèrent des débats en 
entreprise. 
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STATISTICAL 
ANALYSIS METHODS 
FOR CHEMISTS 


A Software-based Approach 


Clifford $. Ang 


Analyzing 
Financial Data and 
Implementing 
Financial Models 
Using R 


Statistical analysis methods for chemists / 390 pages / Éditions The 
Royal Society of Chemistry / William P. GARDNIER 
ISBN: 085404549X 


Commentaire: Un livre vieillissant sans démonstrations 
mathématiques mais qui intéressera les chimistes utilisant Minitab et 
qui veulent apprendre une petite partie du logiciel avec des exemples 
familiers à leur domaine d'activité. 


Statistical analysis methods for chemists / 260 pages / Éditions 
Imperial College Presse / Michael THOMPSON, Philip J. 
LOWTHIAN 

ISBN: 1848166168 


Commentaire: Uniquement théorique, mais sans démonstrations 
mathématiques n1 exemples ou exercices 1l constitue un bon 
complément à l'ouvre proposé juste précédemment qui était aussi 
destiné aux chimistes. 


GGPlot2 / 118 pages / PDF gratuit sur Internet / Daname Kolani 
ISBN: - 


Commentaire: À ce jour le meilleur livre sur GGPlot2 toutes langues 
confondues et l'unique en Français sur le sujet. Contrairement au 
livre du créateur originel du package, ce PDF est compréhensible et 
progresse pas à pas defanière structurée. Lecture recommandée à 
tous ceux qui veulent faire du R Shiny! 


Statistics With R / 1266 pages / PDE gratuit sur Internet / Vincent 
Zoonekynd 
ISBN: - 


Commentaire: Un magnifique e-book extrêmement complet sur de 
nombreux domaines d'applications de R. C'est selon mon opinion la 
bible R en anglais à ce jour (même plus complet que les ouvrages 
payants qui se disent être des bibles). Je lui suis redevable de 
nombreux emprunts et cela restera une référence! 


Analyzing Financial Data and Implementing Financial Models Using 
R/ 360 pages / Clifford S. Ang 
ISBN: 9783319140742 


Commentaire: Bon... je n'ai pas aimé du tout. Cela manque 
cruellement d'équations mathématiques pour expliquer les concepts. 
Les exemples ne sont même pas vraiment techniquement avancés. 
Bref je l'ai mis ici parce que parfois on me demande ce que j'en 
pense. 
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DISCOVERING STATISTICS 
USING SPSS ERCERTIN 


d sex and drugs and rock'n roll} 


ANDY FIELD 


Prariquer 
LES PLANS 
D'EXPÉRIENCES 


Experiments 
with Mixtures 


Discovering Statistics using SPSS | 854 pages / Éditions Sage / 
Andy Field / 3ème édition 
ISBN: 9781847879066 


Commentaire: Comme je le dis toujours au début des cours: dans un 
contexte scientifique avoir seulement un logiciel d'analyse est 
insuffisant ne serait-ce que pour se couvrir contre les bugs et les 
variantes d'algorithmes. Dès lors, un deuxième outil complémentaire 
et bien supérieur à Minitab pour la partie statistique est SPSS! 
L'auteur de ce livre est remarquable! Outre le fait qu'il ait aussi écrit 
un ouvrage de la même qualité sur À il a beaucoup d'humour, un sens 
aigu de la pédagogie et sait particulièrement bien présenter des outils 
informatiques avec des exemples provenant de données réelles! Un 
must have absolu! 


Pratiquer les plans d'expériences / 551 pages / Éditions Dunod / 
Jacque Goupy 
ISBN: 2100042173 


Commentaire: Comme je le dis toujours au début des cours: dans un 
contexte scientifique avoir seulement un logiciel d'analyse est 
insuffisant ne serait-ce que pour se couvrir contre les bugs et les 
variantes d'algorithmes. Dès lors, un deuxième outil complémentaire 
à Minitab pour les plans d'expérience est JMP! Et ce livre est d'un 
niveau de qualité remarquable tant par le niveau de détail des 
exemples industriels qüi y sont donnés étape par étape que par la 
clarté des explications et de la présence parfois de quelques 
démonstrations mathématiques accompagnées de nombreuses 
figures. De plus, l'auteur est connu dans tout le monde francophone 
est un consultant dont la renommée n'est plus à faire. 


A primer on experiments with mixture / 368 pages / Éditions Wiley / 
John CORNELL 
ISBN: 0470643382 


Commentaire: Il est très difficile de trouver de la littérature détaillée 
et rigoureuse sur le sujet des plans de mélange ("mixture design" en 
anglais) mais John Cornell réussit ici un coup de maître. Son 
ouvrage est complet, rigoureux, détaillé, fourni d'exemple pertinents! 
On regrettera peut-être juste le fait qu'il ne fasse pas le parallèle avec 
un logiciel informatique de son choix mais bon. Achat 
recommandé! 


Le logiciel R | 527 pages / Éditions Springer / Pierre LAFAYE DE 
MICHEAUX + Remy DROUILHET + Benoit LIQUET 
ISBN: 9782817801148 


Commentaire: Un ouvrage sur R d'une qualité pédagogique 
remarquable. Il pourrait intéresser les élèves de Terminale et de 1° 
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cycle. La structure est excellente et des trucs et astuces ainsi que des 
avertissements sont donnés tout au long de l'ouvrage. 


R for dummies/ 406 pages / Éditions For Dummies / Joris MEYS + 
Andrie DE VRIES 
ISBN: 9781119962847 


Commentaire: Non ce n'est pas une blague. Curieusement ce livre 
traite de sujets de base qui manquent dans de nombreux livres 
considérés comme des références et qui sont pourtant souvent 
demandés par les employés en entreprise. Ce n'est rien que pour cette 
raison que Je le conseille! 


R in Action/ 474 pages / Éditions MANNING/ Robert I. KABACOFF 
ISBN: 9781935182399 


Commentaire: Un petit livre bien sympathique pour début sur R. À 
lire peut-être après avoir parcouru R for Dummies. Mais l'achat en 
vaut la peine, 1l y a quelques bonnes infos et le site web associé est 
très complet. 


The R Book / 951 pages / Éditions Wiley/ Michael J. KRAWLEY 
ISBN: 9780470510247 


Commentaire: L'ouvrage se fait un peu vieux (manque de couleurs et 
de captures d'écrans) maïjs il est relativement complet en ce qui 
concerne les tests statistiques traditionnels surtout dans les domaines 
de l'analyse de la variance (par contre il ne traite pas de finance ou de 
data mining). 


Comprendre et réaliser des tests statistiques à l'aide de R / 695 pages 
/ Éditions de Boeck / Gaël Millot 
ISBN: 9782804101794 


Commentaire: À ma connaissance c'est l'ouvrage en français le plus 
complet sur R relativement aux tests statistiques. Plus complet que 
Le logiciel R présenté plus haut mais mois complet que le présent 
support électronique (qui est en français pour rappel...). 


R Graphics Cookbook / 413 pages / Éditions O'Reilly/ Winston 
Chang 
ISBN: 9781449316952 


Commentaire: Un bon livre pour se familiariser en douceur avec la 
package ggplot2. Les forums et le web en général sont cependant 
devenus bien plus complets que cet ouvrage qui perd alors un peu de 
son intérêt (une deuxième édition avec deux ou trois fois plus de 
pages en relancerait l'intérêt). 
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MARKETING METRICS 


Predictive Analytics 
Using R 


Marketing 


. 


Texts in Statistical Science 


Design and Analysis 
of Experiments 
with R 


Biostatistical Design and Analysis Using R / 577 pages / Éditions 
Wiley-Blackwell/ Murray Logan 
ISBN: 907814433524 


Commentaire: Quelques bons éléments à tirer particulièrement au 
niveau des analyses de la variance. Bon si on retire les notions de 
base de R le livre se réduit en réalité à 200 pages... 


Marketing Metrics / 432 pages / Éditions Pearson FT Press / Paul W. 
Farris, Neil T. Bendle, Phillip E. Pfeifer, David J. Reibstein 
ISBN: 0137058292 


Commentaire: Suite à la demande d'une grosse entreprise suisse dont 
un responsable Marketing ne savait pas ce dont il pouvait mesurer en 
Marketing... Évidemment, il ne faut pas chercher en français sur 
Google pour trouver ce genre de livre. 


Predictive Analytics using R/ 553 pages / LuLu Press / Jeffrey 
Strickland 
ISBN: 9781312841017 


Commentaire: Suite à la demande d'une grosse entreprise suisse dont 
un responsable Marketing ne savait pas ce dont il pouvait mesurer en 
Marketing. Évidemment, il ne faut pas chercher en français sur 
Google pour trouver ce.genre de livre (depuis que ces lignes ont été 
écrite, le livre francophone ci-dessous a été écrit! !!). 


Data Marketing - Statistiques appliquées au marketing avec Excel et 
R/ 262 pages / Editions ENT / Magali Trelohan 
ISBN: 9782409014857 


Commentaire: Cet ouvrage s'adresse aux managers marketing et 
commerciaux soucieux de développer une stratégie de data marketing 
au sein de leur organisation (entreprise, service public ou 
association). Il aborde de manière simple et pragmatique l'intérêt de 
la data marketing et explique comment la mettre en oeuvre au 
quotidien à l'aide d'Excel et de R. 


Design and Analysis of Experiments with R / 618 pages / Éditions 
CRC Press / John Lawson 
ISBN: 9781498728485 


Commentaire: Un livre, ou plutôt devrait-t-on parler de "bible", d'une 
qualité exceptionnelle tant 1l parcourt de manière exhaustive de 
nombreux plans d'expérience. On regrettera l'absence de 
démonstration mathématiques, mais l'aspect pratique avec R est très 
détaillé et permet de rentabiliser rapidement le l'achat du livre pour 
tout praticien travaillant dans un laboratoire. 
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[e] 
Flexible Imputation 
of Missing Data 
SECOND EDITION 
Stef van Buuren €} o 
Le) 


Time Series Analysis with application in R / 500 pages / Éditions 
Springer / Johnathan D. Cryer et Kung-Sik Chan 
ISBN: 9780387759586 


Commentaire: Sans aucun doute, le meilleur livre sur les séries 
temporelles financières que j'ai pu avoir à ce jour entre les mains. Un 
bon équilibre entre pratique et formalisme mathématique. Dommage 
qu'il manque juste les démonstrations mathématiques détaillées mais 
bon... on pardonnera cette faut sinon le livre ferait probablement 
2'000 pages. 


Flexible imputation of Missing Data ( 2" Edition) / 444 pages / 
Editions CRC Press / Stef van Buuren 
ISBN: 9781138588318 


Commentaire: Livre unique avec contenu très rare qui présente le 
sujet de manière très satisfaisantes et superbement illustré avec les 
détails des scripts R correspondants! 


En ce qui concerne les vidéos pour l'instant nous ne pouvons que recommander en ce qui 
concerne la langue française (même si ce n'est qu'une découverte) les vidéos structurées et 
retravaillées avec un niveau de qualité professionnel de Video2Brain et effectuées par Vincent 
(cliquez sur les images pour ouvrir la page webVorrespondante): 


2 En apprendre toujours plus. Les formations vidéo de video2brain 


Découverte de 


R 


EE 
Les statistiques 
paramétriques 


et R pour Data Scientists: 
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2. Normes et validation 


Rappelons conformément à ce que nous avons vu dans le cours théorique qu'il est 
indispensable pour le chercheur/statisticien/ingénieur professionnel de se baser sur les normes 
suivantes (dans l'ordre des plus utilisées) pour son travail et tous les outils dont le présent 
support fait l'objet: 


ISO 31:2006 

Système international d'unités 

ISO 8000 

Qualité des données 

ISO 3534-1:1999 

Vocabulaire et symbole des statistiques 

ISO 2602:1980 

Interprétation statistique de résultats d'essais - Estimation de la moyenne - Intervalle 
de confiance 

ISO 3301:1975 

Interprétation statistique des données - Comparaison de deux moyennes dans le cas 
d'observations appariées 

ISO 5479:1997 

Interprétation statistique des données - Tests pour les écarts à la distribution normale 
ISO 3494:1976 

Interprétation statistique des données -- Efficacité des tests portant sur des moyennes 
et des variances 


ISO 11453:1996 S 
Interprétation statistique des données -Tests et intervalles de confiance portant sur les 
proportions 


ISO 16269-4:2010 

Interprétation statistique des données Détection et traitement des valeurs aberrantes 
ISO 16269-6:2005 

Interprétation statistique des données - Détermination des intervalles statistiques de 
tolérance 

ISO 16269-8:2004 

Interprétation statistique des données - Détermination des intervalles de prédiction 
ISO/TR 18532:2009 

Lignes directrices pour l'application des méthodes statistiques à la qualité et à la 
normalisation industrielle 

ISO 3534-3:1999 

Plans d'expérience (ou AFNOR NF X 06-080 + NF X 06-081) 

ISO 8285:1991 

Cartes de contrôle de Shewhart 

ISO 17025:2005 

Exigences générales concernant la compétence des laboratoires d'étalonnages et 
d'essais 

ISO 10017:2003 

Lignes directrices pour les techniques statistiques relatives à l'ISO 9001:2000 
ISO 13300:2006 

Guide général à l'attention du personnel des laboratoires d'analyse sensorielle 
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e ISO 31010:2009 
Techniques d'évaluations des risques 


e ISO 3951:2006 
Règles d'échantillonnage pour les contrôles par mesures 


e ISO 11095:199%6 

Étalonnage linéaire utilisant des matériaux de référence 
e ISO 22514-2:2013 

Indices de capabilité 


e ISO 5725 
Précision et fiabilité des mesures en laboratoire (on y retrouve le test C de Cochran et 


aussi celui de Dixon) 


Bref en gros en 2014 les normes relatives à l'analyse statistique peuvent se résumer avec la 
cartographie suivante: 


CTRECETES COTE TETE DEEE TEE EEE TETE TEE EEE 


CARTOGRAPHIE DES NORMES STATISTIQUES 


CONTROLE PAR ECHANTILLONNAGE 
pour 


TERMINOLOGIE DE BASE 


termes statistiques généraux et termes utilisés en !! 


TESTS USUELS 


Ë -2 
calcul des probabilités ÿ 
E À 2 - Statistique appliquée E rennes rraneirane eue 5 enr srenrrent 
Plans d'expériences ÿ Î ESTIMATIONETIEST : ; ÆFFICACITEDESTESTS : 
chantillonnage pour sondages : i : Î 

d 


[ME : 
ISO 2859 -1,2.3.4,5810 : : MEXIS023 I 


NE1SO 8422 
ISONTR8550-1.2.3 : H 
150 13448-1 82 b ; FH 

150 14569 HU H 


NEX0G-0SS 8-034 
NE XO6-07 


NEE60-181 
150 22514 -13 8587 
150 10576-1 


DEVELOPPEMENT 
PERFORMANCE 
MAITRISE 


MAITRIS ER LA j: 7 do in pentes gp: LEE _ 
MESURE 1] MESURE ii Six SIGMA 


5: ISOITR 10017 A 
2: NFISO13053-J82 : 
: 1SOTR 18522 


COMPARAISONS INTERLABORATOI 
EXACTITUDE D'UNE METHODE 
NF1S0 5725 -J,2.3.4.5.6 
EDISOTR 2307 


NF X06-031 parties 


1234 


150 7870 parties 
1.2.3.4 


Version 05/2014 


À propos de la validation de l'utilisation du logiciel R par la FDA (Food and Drug 
administration) il est peut-être utile d'informer le lecteur que ceci n'est par le rôle de la FDA 
mais de l'acheteur de s'assurer du bon fonctionnement de la solution informatique choisie 
(conformément à la norme ISO 9241-11 vue dans le cours de gestion de projets pour tout 
logiciel ou machine). Par ailleurs, signalons l'article du code des régulations Titre 21 partie 


820.70(): 


“When computers or automated data processing systems are used as part of 
production or the quality system, the manufacturer shall validate computer 
software for its intended use according to an established protocol. AI software 
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changes shall be validated before approval and issuance. These validation 
activities and results shall be documented. ” 


et aussi (Final Guidance for Industry and FDA Staff, January 11, 2002): 


“The device manufacturer is responsible for ensuring that the product 
development methodologies used by the off-the-shelf (OTS) software developer 
are appropriate and sufficient for the device manufacturer's intended use of that 
OTS software. For OTS software and equipment, the device manufacturer may or 
may not have access to the vendor's software validation documentation. If the 
vendor can provide information about their system requirements, software 
requirements, validation process, and the results of their validation, the medical 
device manufacturer can use that information as a beginning point for their 
required validation documentation.” 


R Statistical Software 56/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


3. Installer R 


En première année d'Université je considère au 21°" siècle que tout étudiant doit déjà savoir 
installer un logiciel seul sur Microsoft Windows ou Mac OS (sinon quoi il peut se faire des 
soucis pour sa carrière professionnelle). Donc ici je ne vais pas montrer comment installer R 
mais Juste présenter le résultat de l'installation excepté pour Linux. 


Contenu 
Microsoft WindOWS iii seessssreensessecsesseenenees secs 57 
MAC OS de di nada do ne dla ec ae te im tie 59 
CBS UE Ode aan nero tons Ouen nt 60 
LE CE SRE PER D PR RP PP RE ES RTE PERTE PAPE TUE RE UP PER TENTE TERRES 64 
RADADE DIVERS na deten case dns dan annee anse den antenne ae tue en 67 
JUPYLCÉ AD ER en in lent ea tels ii ist ner tele asset 75 


Microsoft Windows 


Sous Microsoft Windows 7 (cas le plus courant mais scientifiquement le plus mauvais 
choix): 


$ Fichier Edition ir Misc Packages Fenêtres Aide 


@IE] 


R version 3.0.2 (2013-09-25) -- "Frisbee Sailing" 
Copyright (C) 2013 The R Foundation for Statistical Computing 
Platform: x86_64-w64-mingw32/x64 (64-bit) 


R est un logiciel libre livré sans AUCUNE GARANTIE. 
Vous pouvez le redistribuer sous certaines conditions. 
Tapez 'license()' ou 'licence()' pour plus de détails. 


R est un projet collaboratif avec de nombreux contributeurs. 
Tapez 'contributors()' pour plus d'information et 
“citation()' pour la façon de le citer dans les publications. 


Tapez 'demo()' pour des démonstrations, 'help{()' pour l'aide 
en ligne ou 'help.start{()' pour obtenir l'aide au format HTML. 


Tapez 'q()' pour quitter KR. 


>| 


© RER 


On peut bien évidemment travailler avec R dans Microsoft Windows en utilisant le Shell 
(suffit de double cliquer sur le fichier R.exe qui est dans le dossier d'installation de R): 


R Statistical Software 57/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


tical Computing 


AUS 1 Y Mi WARHANI Y 
rtain c 
on detai 


softuñre pnd comes with 


free 


upport but runnir 


borstive pr 


tributor 
on how to cite R or R pack 


information and 
in publications. 


un-line help, wr 


u()'" fu = nos, "help()'" for 
ce Lu help. 


help.slarL()" fur an HTML browser inle 


‘y()' Lo quil R. 


ype 


58/3133 


R Statistical Software 


Vincent ISOZ, Daname KOLANI Sciences.ch 
Mac OS 


Sous Mac OS l'installation est aussi triviale. Le résultat donnant: 


Misc 


 R File Edit Format Workspace Packages & Data 


ee a R Console 


R 1) X GE Ç 


Window. Help 4) 40 (Œ} Tue 4:09PM Q 


2.14,1 (2811-12-22 
yric ) 2011 The R Foundation for Statistical Computing 
ISEN 3-900051-07-0 
Platform: x86_64-apple-darwin9.8.0/x86 64 (64-bit} 


R ts free software and comes with ABSOLUTELY NO MARRANTY 
You are welcome to redistribute it under certain conditions 


Type ‘License()' or ‘Llicence()' for distribution details 
Natural Language support but running in an English Locale 

R ts a collaborative project with many contributors 

Type ‘contributorsO)' for more information and 

‘eitation()' on hon to cite À or R packages in publications 

Type ‘demo()' for some demos, ‘help()' for on-line help, er 

‘help.start()' for an HTML bronser interface to help 


Type ‘ac)' to quit R 


[R.app GUI 1.43 (5949) x86_64-apple-darwin9, 8.0] 
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Scientific Linux 6.5 


Sous Scientific Linux (RedHat) 6.5 (cas le moins courant maïs le meilleur choix car 
optimisé par le FermiLab et le CERN pour les applications scientifiques) voici comment 
procéder pour installer R (pour plus d'informations sur Scientifc Linux consulter mon e-book 
en anglais ici http:/www.sciences.ch/dwnldbl/divers/ScientificLinux.pdf). 


D'abord vous ouvrez une fenêtre de terminal: 


É Applications Places System (} À LA Fri Mar 7,09:08 adminuser (©) d æ @, 


adminuser@localhost:- 


File Edit View Search Terminal Help 
[adminuser@localhost -]$ 


|f adminuser@localhost:— | m CI 


et nous allons d'abord nous assurer d'avoir les droits suffisants pour installer R en faisant 
quelques manipulations non triviales. D'abord nous ouvrons le fichier de gestion des droits 
généraux avec l'éditeur nano: 


root@localhost:- 


File Edit View Search Terminal Help 


[adminuser@localhost -]$ su - 
Password: 
[root@localhost -]# EDITOR=nano visudo}l 


Et dans l'éditeur 11 faut rajouter la ligne mise en évidence ci-dessous en rouge (il faut 
descendre un peu dans le fichier texte pour trouver l'endroit où mettre cette ligne): 
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FE root@localhost:- "0 


File Edit View Search Terminal Help 
GNU nano 2.0.9 File: /etc/sudoers.tmp 


## Allows members of the ‘sys' group to run networking, software, 
## service management apps and more. 
# %SYS ALL = NETWORKING, SOFTWARE, SERVICES, STORAGE, DELEGATING, PROCESSS$ 


## Allows people in group wheel to run all commands 
# wheel ALL=(ALL) ALL 


## Same thing without a password 

#_uheel ALL= (ALL NOPASSVWD :_ALL 

adminuser ALL=(ALL) PASSWD: ALL 

## Allows members of the users group to mount and unmount the 
## cdrom as root 


# %users ALL=/sbin/mount /mnt/cdrom, /sbin/umount /mnt/cdrom 


## Allows members of the users group to shutdown this system 
# users localhost=/sbin/shutdown -h now 


E# Read drop-in files from /etc/sudoers.d (the # here does not mean a com$ 


&9 Get Help M9 WriteOut Mi Read File@{ Prev Pageg@lf Cut Text Ne Cur Pos 
Xi Exit y Justify M] Where Is M} Next Page@l] UnCut Tex To Spell 


puis on fait un Ctrl+O, Entrée, Ctri+X. 


Ensuite, nous écrivons (il s'agit de RStudio Server mais il contient le coeur — core — de la 
dernière version de R): 


adminuser@localhost:- 


File Edit View Search Terminal Help 
[adminuser@localhost -]$ wget http://download2.rstudio.org/rstudio-server-0.97.320-i686.rpmÎ 


Cela va le télécharger comme le montre la capture suivante: 


adminuser@localhost:- 


File Edit View Search Terminal Help 

|[[adminuser@localhost -]$ wget http://download2.rstudio.org/rstudio-server-0.97.320-1686.rpm |* 
--2014-03-07 11:49:33-- http://download2.rstudio.org/rstudio-server-0.97.320-i686.rpm 
Resolving download2.rstudio.org... 205.251.209.147, 54.230.26.132, 54.230.25.180, ... 
Connecting to download2.rstudio.org|205.251.209.147|:80... connected. 

HTTP request sent, awaiting response... 200 OK 

Length: 18377128 (18M) [application/x-redhat-package-manager] 

Saving to: “rstudio-server-0.97.320-1686.rpm.1” 


100% [===========22222==========>)] ]8,377,128 890K/s in 195 


2014-03-07 11:49:52 (941 KB/s) - “rstudio-server-0.97.320-i686.rpm.l1” saved [18377128/18377128 
] 


[adminuser@locathost -]$ 
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Ensuite, nous lançons l'installation: 


adminuser@localhost:- 


File Edit View Search Terminal Help 
[adminuser@localhost -]$ sudo yum install --nogpgcheck rstudio-server-0.97.320-1686. rpml A 


Après 10 à 15 minutes (le temps de télécharger environ 60 modules et de les installer) vous 
pouvez vérifier que l'installation soit OK. 


adminuser@localhost:- 


File Edit View Search Terminal Help 


[adminuser@localhost -]$ sudo rstudio-server verify-installation 

Stopping rstudio-server: [ OK ] 

rserver[2667]: WARNING R include path (/usr/include/R) not found; LOGGED FROM: bool core: 
:r_util::<unnamed>::validateREnvironment (const core::r util::EnvironmentVars&, const core 
::FilePath&, std::string*) /root/rstudio/src/cpp/core/r util/REnvironmentPosix.cpp:383 
Starting rstudio-server: [ OK ] 

[adminuser@localhost -]$ 


Ensuite, pour lancer R, il suffit d'écrire: 


adminuser@localhost:- 


File Edit View Search Terminal Help 
[adminuser@localhost -]$ RÈ A 


Ce qui donne: 
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* Applications Places Terminal Sun Oct 15, 20:28:56 4 #) ff 


admin@localhost:- 


File Edit View Search Terminal Help 
[admin@localhost -]$ R 


R version 3.4.1 (2017-06-30) -- "Single Candle" 
Copyright (C) 2017 The R Foundation for Statistical Computing 
Platform: x86 64-redhat-Llinux-gnu (64-bit) 


R is free software and comes with ABSOLUTELY NO WARRANTY. 
You are welcome to redistribute it under certain conditions. 
Type ‘'license()' or ‘licence()' for distribution details. 


Natural language support but running in an English locale 


R is a collaborative project with many contributors. 
Type ‘contributors()' for more information and 
‘citation()' on how to cite R or R packages in publications. 


Type ‘demo()' for some demos, ‘help()' for on-line help, or 
"help.start()' for an HTML browser interface to help. 
Type ‘q()' to quit R. 


EM admin@locathost:- 1/4 


Voilà cela donne le squelette de base de R pour Scientific Linux. On doit probablement 
pouvoir faire plus simple mais je n'ai pas trouvé (et surtout je n'ai pas le temps de chercher). 


Remarque: Depuis Scientific Linux 7 il suffit d'écrire: 
NO 
yum inStall R 


Attention!!! La totalité des fichiers *.csv ont été créés sous Microsoft Windows et donc sont 
incompatibles au niveau encodage dans Linux. Il faut les soit copier/coller le contenu dans un 
fichier texte nouvellement créé, soit refaire une enregistré sous avec un encodage Linux. 


Pour la suite nous nous restreindrons au cas le plus fréquent chez les praticiens de l'industrie: 
MS Windows (sic!). 
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iPad 


Sciences.ch 


Pour ceux qui aiment faire du R en voyages, dans l'avion, dans le train, sur la plage, voici une 
version de R pour iPad que j'ai testé est qui est vraiment satisfaisant: 


iPad & 


< Search 


18:49 & 100% em 


Analyser 


You Hui Yan 


LÉ 0" A+ 


What's New Version History 
1. R: added forecast, xts, RcppArmadillo. 3m ago 
2. Bug fixed. Version 3.2 
Preview 


Statistic and Analysis 


Suenmars 


Le 
Etosst.cs 


Das-Wny 
AO 


p' 


Lagran 
Pawnmion 


(LÀ) 
D 


(] Offers iPhone App 


Due 
ane 


LA 
- 
Lima 
Fo gresssn 
Ecnmaniret 
Limar oct s 


À 


A R 


Analyser is a statistics/analysis tools that includes Python,R and SQL 


engine that let you run codes written in these languages in iOS devices Duysioner 
directly: more You Hui Yan 
Ratings & Reviews 


This app hasn't received enough ratings or reviews to display a summary. 


A Today 


R Statistical Software 


e1 Updates Q Search 


# Games ee Apps 
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Une fois installé et ouvert on peut écrire du R presque sans limite vue le nombre de packages 


installés par défaut: 


Ce qui exécuté donne: 


iPad 18:40 @ 100% 


DE Ce 


library(ggplot2) 

data(diamonds) 

str(diamonds) 
qplot(carat,price,data=diamonds) 


RQ 
NS) 
<Ÿ 


Logs 
Elapsed:0.255602 
Classes ‘tbL_df' ‘tbl' and ‘data.frame": 53940 obs. of 10 variables: 
$ carat : num 0.23 0.21 0.23 0.29 0.31 0.24 0.24 0.26 0.22 0.23 .. 
$ cut _: Ord.factor w/ 5 levels Fair<Good<Very Good<..: 5424233313 
$ color : Ord.factor w/ 7 levels D<E<F<G<H<l<J: 2226776525... 
$ clarity: Ord.factor w/ 8 levels <SI2<SH1<VS2<..: 2354267345. 
$ depth : num 61.5 59.8 56.9 62.4 63.3 62.8 62.3 61.9 65.1 59.4 
Stable :num 55 61 65 58 58 57 57 55 61 61... 
Sprice : int 326 326 327 334 335 336 336 337 337 338 
$x num 3.95 3.89 4.05 4.2 4.34 3.94 3.95 4.07 3.87 4. 
$y :num 3.98 3.84 4.07 4.23 4.35 3.96 3.98 4.11 3.78 4.05 
R Plots 
Graph Count: 1 
Python Plots 
Figure Count: 0 
Query Result 
Row Count: 0 


Files 


ou même pour les grpahiques (ggplot2 dans la cas présent): 
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iPad 18:41 © 100% 


Donc excellente application de You Hui Yan. 
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RAD IDE Divers 


Pour la culture générale du lecteur nous allons montrer ici quelques interfaces classiques de 
R. 


D'abord celle par défaut pour le monde Microsoft: 


R RGui (64-bit) - [R Console] 
R File Edit View Misc Packages Windows Help 


R version 3.2.1 (2015-06-18) -- "World-Famous Astronaut" 
Copyright (C) 2015 The R Foundation for Statistical Computing 
Platform: x86 64-w64-mingw32/x64 (64-bit) 


R is free software and comes with ABSOLUTELY NO WARRANTY. 
You are welcome to redistribute it under certain conditions. 
Type 'license()' or 'licence()' for distribution details. 


Natural language support but running in an English locale 


R is a collaborative project with many contributors. 
Type 'contributors()' for more information and 
“citation()' on how to cite R or R packages in publications. 


Type ‘'demo()' for some demos, ‘'help{()' for on-line help, or 
‘help.start{()' for an HTML browser interface to help. 
Type 'q()' to quit KR. 


>| 


Ensuite celle par défaut dans le monde Linux (Ubuntu ou Scientific Linux ou CentOS avec 
une interface du type GNOME) : 


adminuser@localhost:- 


File Edit View Search Terminal Help 
[adminuser@localhost -]$ R 


R version 3.0.2 (2013-09-25) -- "Frisbee Sailing" 
Copyright (C) 2013 The R Foundation for Statistical Computing 
Platform: i686-redhat-linux-gnu (32-bit) 


R is free software and comes with ABSOLUTELY NO WARRANTY. 
You are welcome to redistribute it under certain conditions. 
Type ‘license()' or ‘licence()' for distribution details. 


Natural language support but running in an English locale 
R is a collaborative project with many contributors. 
Type ‘contributors()' for more information and 


‘citation()' on how to cite R or R packages in publications. 


Type ‘demo()' for some demos, ‘help()' for on-line help, or 
‘help.start()' for an HTML browser interface to help. 
Type ‘q()' to quit R. 


>[ 
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R Studio (dont nous avons déjà donné le lien Internet au début de ce livre) : 


File Edit Code View Project Workspace Plots Tools Help 
G1- æ - A el = # ET Project: (None) + 


@) diamondPricing.R* x : @]formatPlot.R x |__| diamonds x (7! Workspace History 0 
A [source on Save | Q Z°+ +115) [source +| 21 | EMLoad- | FE] Save- | LÆ# Import Dataset- | @ Clear All C 

Tibrary(ggplot2) Data 

source("plots/formatPlot.R") diamonds 53940 obs. of 10 variables 


view(diamonds) Values 
summar y (di amonds } avesize 0.7979 


summary (di amonds $pr ice) clarity character [8] 

avesize <- round(mean(diamonds$carat), 4) p ggplot [8] 

clarity <- levels(diamonds$clarity) = 

Functions 

p <- gplot(carat, price, format.plot(plot, size) 
data-diamonds, color-clarity, 
xlab="carat", ylab="Price", 
main="Diamond Pricing") 


HhHH 
N H © © © + o u1 & W NH 


h 
Uy 


H 
& 


| Files Plots Packages Help 
& Æ zoom | :Æ)Export+ © | # Clear All 


H 
ur 


1 Diamond Pricing 


[Top Level) + - R Script + 


0 
y z ES 
0.000 Min. : 0.000 Min. : 0.000 
1st Qu.: 4.710 1st Qu.: 4.720 1st Qu.: 2.910 
k 
5 


Min. 


Median : 5.700 Median : 5.710 Median : 3.530 
Mean .731 Mean : 5.735 Mean 2 43139 
3rd Qu.: 6.540  3rd Qu.: 6.540 3rd Qu.: 4.040 
Max. :10.740 Max. :58.900 Max. :31.800 

> summary(diamonds $price) 

Min. 15t Qu. Median Mean 3rd Qu. Max. 
326 950 2401 3933 5324 18820 

avesize <- round(mean(diamonds$carat}), 4) 

clarity <- levels(diamonds$clarity) 

p <- qgplot(carat, price, 

data=diamonds, color=clarity, 

xlab="carat", ylab="Price", 

main="Diamond Pricing") 


format.plot(p, size=24) 


VVV+++VVV 


Pour ceux qui aiment R Studio, voici sa cheatsheet: 
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1LAYOUT Windows/Linux Mac 
Move focus to Source Editor Ctri+1 Ctri+1 
Move focus to Console Ctd+2 Ctri+2 
Move focus to Help Ctri+3 Ctri+3 
Show History Ctri+4 Ctri+4 
Show Files Ctrixs Ctr+s 
Show Plots Ctdi+6 Ctri+6 
Show Packages Ctri+7 Ctr7 
Show Environment Ctri+8 Ctrit8 
Show Git/SVN Ctri+9 Ctri+9 
Show Build Ctri+0 Ctri+0 
2 RUN CODE Windows/Linux Mac 
Search command history Ctri+# Cmd+# 
Navigate command history LU 2 #4 
Move cursor to start of line Home Cmd+é 
Move cursor to end of line End Cmd+ > 
Change working directory Ctri+ShiftsH Ctri+Shift+H 
Interrupt current command  Esc Esc 
Clear console Ctri+L CtritL 
Quit Session (desktop only) Ctr+Q Cmd+Q 
Restart R Session Ctri+Shift+F10  Cmd+Shift+F10 
Run current line/selection Ctri+Enter Cmd+Enter 
Run current (retain cursor) Alt+Enter Option+Enter 
Run from current to end CtritAÏttE Cmd+Option+E 
Run the current function Ctri+Alt+F Cmd+Option+F 
Source a file Ctri+Alt+G Cmd+Option+G 
Source the current file Ctri+Shift+s Cmd+Shift+S 
Source with echo Ctri+Shift+Enter  Cmd+ShifttEnter 
3 NAVIGATE CODE Windows /Linux Mac 
Goto File/Function  Ctrk. Ctri+. 
Fold Selected Alt#L Cmd+Option+L 
Unfold Selected Shift+Alt+L Cmd+Shift+Option+L 
Fold All AIO Cmd+Option+O 
Unfold AI Shift+Alt:O Cmd+Shift+Option+O 
Goto line Shift+Alt+G Cmd+Shift+Option+G 
Jumpto Shift+Alt+J Cmd+Shift+Option+J 
Switch to tab Ctri+Shift+. Ctri+Shift+. 
Previous tab Ctr+F11 CtriF1i 
Next tab Ctri+F12 Ctrl+F12 
First tab Ctri+Shift+F11 Ctri+Shift+F11 
Last tab Ctri+Shift+F12 Ctri+Shift+F12 
Navigate back Ctri+F9 Cmd+F9 
Navigate forward Ctri+F10 Cmd+F10 
Jump to Brace Ctri+P CtrikP 
Select within Braces  Ctri+Shift+Alt+E Ctri+ShiftOption+E 
Use Selection for Find CtrtF3 Cmd+E 
Find in Files Ctri+Shift+F Cmd+Shift+F 
Find Next Win: F3, Linux: Ctr+G  Cmd+G 
Find Previous W: Shift+F3, L: Cmd+Shift+G 
Jump to Word Ctri+ €) Option+ €/ 
Jump to Start/End Cr Cmd+#/% 
Toggle Outline Ctri+Shift+O Cmd+Shift+O 
. 
eo Studio 


4 WRITE CODE 
Attempt completion 
Navigate candidates 
Accept candidate 
Dismiss candidates 
Undo 

Redo 

Cut 

Copy 

Paste 

Select All 

Delete Line 

Select 

Select Word 

Select to Line Start 
Select to Line End 
Select Page Up/Down 
Select to Start/End 
Delete Word Left 
Delete Word Right 
Delete to Line End 
Delete to Line Start 
Indent 

Outdent 

Yank line up to cursor 
Yank line after cursor 
Insert yanked text 
Insert <- 

Insert %>% 

Show help for function 
Show source code 
New document 

New document (Chrome) 
Open document 

Save document 

Close document 

Close document (Chrome) 
Close all documents 
Extract function 
Extract variable 
Reindent lines 
{Un)Comment lines 
Reflow Comment 
Reformat Selection 
Select within braces 
Show Diagnostics 
Transpose Letters 
Move Lines Up/Down 
Copy Lines Up/Down 
Add New Cursor Above 
Add New Cursor Below 
Move Active Cursor Up 
Move Active Cursor Down 
Find and Replace 

Use Selection for Find 
Replace and Find 


RStudio® is a trademark of RStudio, Inc. + CC BY SA RStudio « info@rstudio.com + 844-448-1212 « rstudio.com » Learn more at www.rstudio.com + RStudio IDE 0.1.0 + Updated: 2017-09 


Windows /Linux 


Enter, Tab, or 
Esc 

Ctri+Z 
Ctri+Shift+Z 
CtrisX 

Ctr+C 

Ctri+V 

Ctri+A 

Ctri+D 
Shift+[Arrow] 
Ctri+Shift+ @/3 
Alt+Shift+@ 
Alt+Shift+ 
Shift+PageUp/Down 
Shit+Alt+4/ ÿ 
Ctrl+Backspace 


Tab (at start of line) 
Shift+Tab 
Ctri+U 

CtritK 

Ctri+Y 

Alt+- 
Ctri+Shift+M 
F1 

F2 

Ctri+Shift+N 
Ctri+Alt+Shift+N 
Ctri+O 

Ctri+S 

CtritW 
Ctri+Alt+W 
Ctri+Shift+W 
Ctri+Alt+X 
Ctri+Alt+V 
Ctri#t 
Ctri+Shift+C 
Ctri+Shift+/ 
Ctri+Shift+A 
Ctri+ShifttE 
Ctri+Shift+Alt+P 


AIR /Ÿ 
Shift+Altr4/ÿ 
Ctri+Alt+Up 
Ctri+Alt+ Down 
Ctri+Alt+Shift+ Up 
Ctri+Alt+Shift+ Down 
CtritF 

Ctri+F3 

Ctri+Shift+J 


Mac 

Tab or Cmd+Space 
LE 2 

Enter, Tab, or 

Esc 

Cmd+Z 
CmdtShift+Z 
CmatX 

Cmd+C 

CmdtV 

Cmd+A 

Cmd+D 
Shift+{Arrow] 
Option+Shift+ € 
Cmd+Shift+@& 
Cmd+Shift+ 
Shift+PageUp/Down 
Cmd+Shift+#/ We 
Ctri+Opt+Backspace 
Option+Delete 
CtritK 
Option+Backspace 
Tab (at start ofline) 
Shift+Tab 


Cmd+ShifttN 
Cmd+Shift+Opt+N 
Cmd+O 

Cmd+s 

Cmad+W 
Cmd+Option+W 
Cmd+ShiftW 
Cmd+Option+X 
Cmd+Option+V 
Cmdt#l 
Cmd+Shift+C 
Cmd+Shift+/ 
Cmd+ShifttA 
CtriShift+E 
Cmd+Shift+Opt+P 
CtriT 
Option+#/% 
Cmd+Option+#+/ We 
CtrOption+Up 
Ctri+Option+Down 
CtritOption+Shift+Up 
CtrOpt+Shift+Down 
Cmd+F 

Cmd+E 
Cmd+Shift+J 


D...” PRO? 


RSP extends the the open source server withla. 
commercial license, support, and more: 
+ open and run multiple R sessions at once 
- tune your resources to improve performance 
+ edit the same project at the same time as others 
+ see what you and others are doing on your server 
switch easily from one version ofR to a different version 
- integrate with your authentication, authorization, and audit practices 
Download a free 45 day evaluation at 

Lo. 1: 
5 DEBUG CODE Windows/Linux Mac 
Toggle Breakpoint Shift+F9 Shift+F9 
Execute Next Line F10 F10 
Step Into Function Shift+F4 Shift+F4 
Finish Function/Loop Shift+F6 Shift+F6 
Continue Shift+F5 Shift+F5 
Stop Debugging Shift+F8 Shift+F8 
6 VERSION CONTROL Windows/Linux Mac 
Show diff Ctri+Alt:D Ctr+Option+D 
Commit changes Ctri+AÏt:M Ctri+Option+M 
Scroll diff view Cire) Cire) 
Stage/Unstage (Git) Spacebar Spacebar 
Stage/Unstage and moveto next Enter Enter 
7 MAKE PACKAGES Windows/Linux Mac 
Build and Reload Ctri+Shift+B Cmd+Shift+B 
Load All (devtools) Ctri+ShifttL  Cmd+Shift+L 
Test Package (Desktop) Ctri+Shift+T Cmd+Shift+T 
Test Package (Web) Ctri+Alt+F7 Cmd+Opt+F7 
Check Package Ctri+ShifttE Cmd+Shift+E 
Document Package Ctrli+Shift+D  Cmd+Shift+D 
8 DOCUMENTS AND APPS Windows/Linux Mac 
Preview HTML (Markdown, etc} Ctri+Shift+K Cmd+Shift+K 
Knit Document (knitr) Ctri+Shift+K  Cmd+Shift+K 
Compile Notebook Ctri+ShifttK  Cmd+Shift+K 
Compile PDF (Tex and Sweave) Ctri+Shift+K Cmd+Shift+K 
Insert chunk (Sweave and Knitr) Ctri+Alt+1 Cmd+Option+| 
Insert code section Ctri+Shift+R Cmd+Shift+R 
Re-run previous region Ctr+Shift+P Cmd+Shift+P 
Run current document CtritAlt+R Cmd+Option+R 
Run from start to current line  Ctri+Alt+B Cmd+Option+B 
Run the current code section  Ctri+Alt+T Cmd+Option+T 
Run previous Sweave/Rmd code  Ctri+Alt+P Cmd+Option+P 
Run the current chunk Ctri+Alt+C Cmd+Option+C 
Run the next chunk CtritAlt+N Cmd+Option+N 
Sync Editor & PDF Preview Ctri+F8 Cmd+F8 
Previous plot CtritAlttF1l  Cmd+Option+F1l 
Next plot CtritAlttF12  Cmd+OptiontF12 
Show Keyboard Shortcuts Alt+Shift+K Option+Shift+K 


Figure 1 Cheadfèet R Studio 


Visual Studio.Net depuis le 1° trimestre 2016 en installant le complément RVTS disponible 
sur (attention à bien suivre la procédure et particulièrement que l'option Web Developer Tools 
soit cochée à l'installation de VS.Net!) : 


http://microsoft.github.10/RTVS-docs/installation.html 
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Librery(éplyr) 
Librery(riyr) 
Library(megriter) eh come 
Librery(ggpler2) Oproen 
ven vévpred from code ve: : 
.… L ( 
citynene <- “Chicago” 
the.yesr < 2015 
rend.table() WA dats.frons KA tD1_4f -> data 
nones(dats) <+ €(montn", “éuy", “yen” 


cute LA 


grour ylyesr, month) XX +--|63| 202% 
errangeléey) 5% 


ungrowæl) DYX Chicago's Weather in 2015 
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+ 


» library(checkpoint) 
+ checipoint ("2015-22-06") 


Scanning ter partages uses in this project 


AÏL éetectes partages airendy installed 
chechgoint process complete 


mom 4 


Ce dernier est utile si vous travaillez chez un employeur qui ne fait pas confiance en ce qui ne 
provient pas de chez Microsoft (...no comment...). Attention, pendant son installation (!), pas 
besoin de cocher l'option Développement pour la plateforme Windows universelle: 


Installation de Visual Studio Community 2017 - 15.4.1 


Charges de travail Composants individuels Modules linguistiques 


Windows (3) Résumé 


> Éditeur de base de Visual Studio 
> Développement pour la plateforme Windows un. 


v Composants individuels * 
Prise en charge du langage R 


MM Développement pour la plateforme Windows universelle 5] Développement .NET Desktop 
LL Créez des applications pour la plateforme Windows Générez des applications WPF, Windows Forms et console 
pl Pi Pl ppl 


universelle en C#, VB, JavaScript ou éventuellement C++, en C#, Visual Basic et F#. 


7 Développement Desktop en C++ 
Générez des applications Windows classiques grâce à la 
puissance de l'ensemble d'outils Visual C++, ATL et des... 


Web et cloud (7) 


(e) 


© 


Développement web et ASPNET 
Générez des applications web en utilisant ASP.NET, 
ASP.NET Core, HTML, JavaScript et des outils de... 


Développement Python 
Modification, débogage, développement interactif et 
contrôle de code source pour Python. 


Emplacement 
C:\Program Files (x86)\Microsoft Visual Studio\2017\Community 


En continuant, vous acceptez la licence de l'édition de Visual Studio que vous avez sélectionnée. Nous vous permettons également de télécharger d'autres logiciels 
avec Visual Studio, Ce logiciel est concédé sous une licence distincte, comme indiqué dans les notifications tierces ou dans la licence qui l'accompagne. En continuant, 


vous acceptez également ces licences. 


Développement Azure 
SDK Azure, outils et projets pour le développement 
d'applications cloud et la création de ressources. 


Développement Node.js 
Générez des applications réseau scalables via Nodejs, un 


runtime JavaScript piloté par des événements asynchrones. 


Taille totale de l'installation : 14,65 GO 


Installer 


Mais il faut aller dans l'onglet Composant individuels et cocher Prise en charge du langage R 


(vous pouvez décocher le reste!): 
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Installation de Visual Studio Community 2017 - 15.4.1 


Charges de travail Composants individuels Modules linguistiques 


Prise en charge de Python web Résumé 
Prise en charge des modèles Cookiecutter 


> Éditeur de base de Visual Studio 
> Développement pour la plateforme Windows un.. 
Prise en charge du langage JavaScript et TypeScript v Composants individuels # 
Prise en charge du langage Python Prise en charge du langage R 
Prise en charge du langage R 


Prise en charge du langage F# 


Services de langage Razor 
Visual C++ pour le développement sous Linux 
Visual Studio Tools pour Office (VSTO) 
Windows Communication Foundation 
Windows Workflow Foundation 
Xamarin 
Xamarin Workbooks 


Cloud, base de données et serveur 


Bibliothèques Azure pour.NET 
Cloud Explorer 
Émulateur de calcul Azure 
Emulateur de stockage Azure 
US Fvnrecs 

Emplacement 


C:\Program Files (x86)\Microsoft Visual Studio\2017\Community 
Taille totale de l'installation : 14,65 GO 
En continuant, vous acceptez la licence de l'édition de Visual Studio que vous avez sélectionnée. Nous vous permettons également de télécharger d'autres logiciels 
avec Visual Studio. Ce logiciel est concédé sous une licence distincte, comme indiqué dans les notifications tierces ou dans la licence qui l'accompagne. En continuant, 
vous acceptez également ces licences. Installer 


Ou encore pour les fans de SPSS, il y a BlueSky Statistics disponible à l'adresse suivante 
gratuitement: 


https://www.blueskystatistics.com 


Qui une fois installé, ouvert et utilisé ressemble à: 


% BlueSky Statistics (Commercial Edition. Ver- 5.30) — OX 
File Data Analysis Graphics Split Model Fitting ModelTuning Model Statistics Tools Installation Output History Options Help Score Current Dataset 

; | Model Type: 
TIENNE NES CET ne - 

Ï New Open Save | Réfresh Find | Compte Biming Standardzs Aggregate 


Merge Sort Summerie Cross Tab KMeans Time Histogram Box Flot 
Series 


mydatal00.RData (Dataset2) © 


sigendes 


19 
lo 
ro 


Female 
Male 
<NA> 
Female 
Female 
Female 
Female 


Female 


wo © ou à w nn 


Female 


E 


Female 


w uw & w un à un w w 8 
punis np p 8 ne wls 
chris ele mizlaet) 
shotslote late ete fete 


Il y a aussi Microsoft Power BI qui est de mon point de vue le plus prometteur: 
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Sciences.ch 


VISUALIZATIONS 


Continuing 


Stanford studies 


Maik Henkel | 


FILTERS 


Pour ceux qui aiment bien le style RapidMiner, il y a aussi R AnalyticFlow: 


FIELDS 


File Edit View Run Project Preferences Help 


8 EP XX I 8 & U 6 ee 


Input Edit Chart Summary Model Output Script Custom Projects... 
S HA & à E © | Li AnatysisFlow 
[ne IUT 11 | @ @ 100% v| 
A  ®RunFlow ED ClearandRun  P RunSelection  # Draw Edge 
Histogram 


— 
Load Sample À 
Data # 


: X-Y Plot 

a setosa © 

= 5 = 

= versicolor © ol L' 

® virginica © / < 

2 Sampling Build Predict Cross 
Predictiv... Tabulation 


W 


Draw Tree 
Model 


5 6 7 8 B Run à Preview Run 
Sepal.Length Main Title Axis Advanced CT ÉCH 
4 > S Data iris v 
R'Ommale X Sepal.Length v 
1 Sepal.Ridth v 138 
> data(iris) ee Conditioning v 


> print(lattice::xyplot(x = Sepal.Width - Sepal.Length, data = iris, 
auto.key = list(space = "right"}, groups = Species)} Grouping Species v 


> 
Legends Right v 


Disponible ici: 


http://r.analyticflow.com/en/ 


Il y a aussi jamovi qui ressemble beaucoup à SPSS (il paraît que c'est son objectif... par 


ailleurs): 


https://www.jamovi.org 
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Sciences.ch 


jemomi - Untitled 


= Data Analyses 
- = 
À Add - Add + 
LE =: 5 © E “© Æ = 
Pastel Setup Compute  Transform FH Delete Filters PAM Delete 
Gipboard Edit Variables Rows 
@A __|&s &c 
«= = » 
Rezdy Y ©  Fiters 0 Row count 0 Fittered O DeletedO AddedO  Celis edited O 


L/ | version 1.0.7 


Et pour ceux qui aiment Python, on peut aussi faire du R dans Anaconda pour information (on 
peut choisir R lors de la création d'un nouvel environnement dans Anaconda): 


LS 


© anac 


File Help 


re) ANACONDA NAVIGATOR 


onda Navigator 


Home 


6 Environments 


Learning 


æ% Community 


Documentation 


Developer Blog 


os © 


Applications on 


base (root) 


v| Channels 


JupyterLab 


An extensible environment for interactive 
and reproducible computing, based on the 
Jupyter Notebook and Architecture. 


Launch 


Orange 
319.0 


3 


Component based data mining framework. 
Data visusalization and data analysis For 
novice and expert. Interactive workflows 
with a large toolbox. 


Jupyter 
—" 
Notebook 
A 600 
Web-based, interactive computing 
notebook environment. Edit and run 
human-readable docs while describing the 
data analysis. 


Launch 


© 


RStudio 


11456 

Asset of integrated tools designed to help 

you be more productive with R. Includes R 
essentials and notebooks. 


s 

S 

Spyder 

A 336 

Scientific Prthon Development 
Environment. Powerful Python IDE with 

advanced editing, interactive testing, 
debugging and introspection features 


Launch 


4) 


VS Code 
140.1 
Streamlined code editor with support for 
development operations like debugging, 
task running and version control. 


Glueviz 
0133 


Multidimensional data visualization across 
files. Explore relationships within and 


among related datasets. 


Refresh 


Il y aussi R++: 


https://rplusplus.com/ 
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Qui ressemble à: 


es Re+, the Next Step 
Fichier Edition Aide 


Fraude 


ScoreTriche 


ScoreTriche 


Analyse 
Bivariée 


ERP assuns 


id Age Poids Taille sexe 
Test Résul.… p sig. Test Résul.… p sig Test  Résult… p sig. Test Résul.. p ig. ? és. sig. Test Rés p sig. 
Pearson -0.146... 0.883... ns Pearson 0.602... 0.547... ns |ANOVA 132865 0.122411 ns DRM 4 \oVA 0.69... 050... ns 
Spearman 3929210 0.895... ins |Spearman 3335910 0.427... ns |Kruskal 42.075 (00885... ns Kruskal 4991 0.08... ns 


Sinon en ce qui concerne les IDE en ligne: 


e  http://rextester.com se 
e  http//www.r-fiddle.org/#/ Ÿ 


e _https://www.idoodle.com/execute-r-online 


JupyterLab 
Suite à la demande d'un lecteur détaillons un peu l'utilisation de JupyterLab pour faire du KR. 


Pour installer et exécuter R dans un bloc-notes Jupyter on lancer Anaconda: 
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Sciences.ch 


L 


.ce © Anaconds Navigator 
À Home Applications on base (root) v| Cannes Refresh 
K 
Les Li Les 
Cr Environments ù 
. 
Jupyter IP'y 
—" 
M Leaming 
" JupyterLab Notebook Qt Console 
0353 74 A 44 
An extensible environment for interactive Web-based, interactive computing notebook PyQt GUI that supports inline figures, proper 
PA Community and reproducible computing, based on the environment. Edit and run human-reacable multiUne editing with syntax highlighting, 
Jupyter Notebook and Architecture docs while describing the data analysis. graphical callbips, and more 
en 1 
Les Li Lu 
| 4} di 
Spyder VS Code Glueviz 
A 1311 0133 
Scientific PYthon Development Streamlined code editor with support for Multidimensional data visualization across 
EnviRonment. Powerful Python IDE with development operations like debugging, files. Explore relationships within and among 
advanced editing, interactive testing, task running and version control related datasets. 
debugging and introspection features 
Documentation 
Lo © 
siens (ee) CR 
Orange 3 RStudio 
LA » L) 3.19.0 11,456 * 
L < 1 


Pour installer le langage R et les packages r-essentials, sélectionnez Environnements pour 
créer un nouvel environnement. Cliquez sur Create: 
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Sciences.ch 


v Channels Update index... 


Y T Description 


bnda.org command line client 


bn asn.1 library with a Focus 


trformance and à pythonic api 


is the python package that 
bring back the joy of writing 
es by relieving you Fromthe 
bery of implementing object 
pcols (aka dunder methods) 


fications For callback Functi 


whitelist-based html- 
zing tool 


Oo Tertificates For use with other 
packages 


Python package For providing 
mozilla's ca bundle 


le] Foreign Function interface For p 


le) Universal character encoding 
detector 


Command line client library For 
windows and posix 


Crnst= nlatfnrm colored terminal 


9 
File Help 
{D ANACONDA NAVIGATOR 
Hom 
Li a installed 
Cr Environments base (root) » Name 
. An 
M Learning 
Name [n 
æ Community Location 
Packages: 3 Python 37 v 
O8 - 
Cancel 
F o1 ce-certificates OE 
@ certifi 
DS Documentation m cf 
@ chardet 
Developer Blog 
@ ciyent 
You _ 
© ©? B a 
Create Import 111 packages available 


Version 


1.72 


1.3.0 


1930 


2020.1.1 


2019.1128 


1.140 


304 


1.22 


Nommez l'environnement r-tutorial. À côté de Packages, sélectionnez Python 3.7 et KR. 


u C 
Sélectionnez r dans le menu déroulant. Cliquez sùr Create: 


Create new environment 


Name: | r-tutorial 
Location: /Users/sparafina/anaconda3/envs/r-tutorial 
Packages: Python CN à v 


Cancel 


Ouvrez l'environnement avec le package R à l'aide de l'option Open with Jupyter Notebook: 
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LAX ] © Anaconda Navigator 
€) ANACONDA NAVIGATOR Sin to Anoconda oué 
À Home | Search Environments a installed v Channels Update index... 
base (root) Name Y T Description Version 
$ Environments M amniaenr © Compiler-rt runtime libraries 401 
r-tutorial C2 Open Terminal 
Open with Python © Tool and library for transferring data with url syntax 7.63.0 
w Lamine Open with IPython © Better living through python with decorators. 4.3.2 
Open with Jupyter Notebook 
rares () Discover and load entry points from installed packages. 0.3 
a Community 
fontconfig © Albrary for configuring and customizing font access. 2.13.0 
freetype Q Afree, high-quality, and portable font engine 29.1 
Pour créer un nouveau bloc-notes pour le langage R, dans le menu Jupyter Notebook, 
sélectionnez New, puis sélectionnez R: 
Z Jupyter Qut | | Logout 
Files Running Clusters 
Select items to perform actions on them. Upload |INeww| © 
0 - æ/ Name # D te 
7 © anaconda3 R 
© Applications election_map 
© Desktop pes. 
= Text File 
© Documents Folder 
7 © Downloads Terminal 
CO git 2 days ago 
S° 
Vous aurez alors: eŸ 
æ Jupyter Untitled Last Checkpoint: a few seconds ago (unsaved changes) PR Logout 
File Edit View Insert Cell Kemel Help Trusted | RO 
B+ #5 @ DB) #4)» Run | 5) C | # || code v||e 
in LC 1: 
Il n'a plus qu'à écrire vos codes dans les cellules. 
Notez que si vous voulez tout exécuter, 1l vous faudra aller dans: 
D 4 t * 
—” ] U Py @T Untitled1 Last Checkpoint: a few seconds ago (autosaved) 
File Edit View Insert Cell Kernel Help 
D + x GR 4 4 M M interupt Cell Toolbar: None ss 
Restart 
Restart & Run Al 
In [ ]: Reconnect 
Restart the Kernel and re-run the notebook 
Change kernel , 
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4. Divers KR (configuration, packages...) 


Contenu 
Changer la langue dé MAR. ns NRA SLR AR Se late 80 
Changer le dossier de travail par défaut à chaque session... 81 
Changer définitivement le dossier de travail par défaut... 83 
Vider la fenêtré-dé-SeSSMON inner ia nan 86 
Version dé R'ét autres MIOMATONS LS est animent ent idees 87 
Définir le nômbré-de décimales ns din nsntenenininidnnléinnéenets 92 
Définir la largeur de la sortie iii auiantinsnniinreninnsitese 94 
AIOMELUSS COMMENTE ns dla en de tt nt Tee 95 
Obtenir de l'aide sur une commande ou sur un package 97 
Plusieurs Commandes sur'uné ene.s.s SSSR Sn de nm n lt end sn 104 
Installer et charger/décharger des packages 4... 105 
Changer le dossier d'installation par défaut des packages... 114 
Désinstallér'un package rat manne en RUE ts 117 
Obtenir les versions des packages et dépendances... 118 
Vérifier si les packages Sont à Jour: meutethetiass tauhetianu Peel cisenshe itéentle te 119 
Déplacer les packages vers un autre ordinateur ss 125 
Consulter la popularité des packages ss 127 
Consulter la liste des fonctions d'un package et les compter... 128 
Sauvegarder toutes les packages sources du CRAN 129 
Analyser les dépendences des packages... ss 130 
Quelques AAA SOLS a Mt Re Te SR en en LT nt 132 
Contrôler là MÉMOITS.. nant tn MSN eat 137 
Gérer les variables dans la mémoire... PE CERTES TE PT 139 
Benchmarker son ordinateur... D nee 143 
Met JOUR Lee tee en SR SR D em ane tn 145 
PÉTMBR Rss nn Rte A Te Ana marne ee nine au té ess sn es de nn Stan SE 150 
Envoyer unCourriel (émail via Rens eee relie tite etiainnenet 151 
Envoyer un SMS via Rise 152 
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Changer la langue de l'interface 


Par défaut, R s'ouvrira dans la langue que vous avez choisie lors de l'installation. Avec les 
versions 3.0.2 et antérieures, 1l n'existe pas à ce jour de menu permettant de changer la langue 
après coup. 


Dans les multinationales en Suisse, où l'on travaille souvent en 3 ou 4 langues et il est donc 
utile de savoir comment changer la langue de l'interface lorsque l'on rédige une 
documentation. 


Voici la procédure: 


Créez une copie du raccourci de R: 


R 


RAI 0? 


Et dans les propriétés du raccourci: 


[Général] Raccourci | Compatibiité | Sécurité | Détais] 


R R x64 3.0.2 


Type de cible : &pplication 


Emplacement : #64 


Cible : "C:\Program Files R4R-3.0.2%bin\x64\Rgui.exe" 


Démarrer dans : "C:\Users\soz Vincent\Documents" 


Touche de 


- Aucun 
raccourci : 


Exécuter : | Fenêtre normale NA | 


Commentaire : 


Emplacement du fichier | | Changer d'icône. || dyancé. ] 


On change le paramètre cible en rajoutant un argument: 


LINPIQROITIGER , LL es 


Cible : MRSR-3.0.2bin%x64Rgui.exe" LANGUAGE en 


et voilà. c'est tout! 
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Changer le dossier de travail par défaut à chaque session 


Le paramétrage le plus demandé en cours pour R est celui le changement du dossier de travail 
par défaut. Pour faire simple imaginons que nous allons mettre tous nos fichiers d'exercices à 
la racine du disque C:\. Dès lors, vous pouvez utiliser la commande getwd( ) pour voir déjà 
quel est le dossier par défaut par curiosité: 


À RGui (64-bit) - [R Console 


KR Fichier Edition Voir Misc Packages Fenêtres Aide 


R version 3.0.2 (2013-09-25) -- "Frisbee Sailing” 
Copyright (C)j 2013 The R Foundation for Statistical Computing 
Platforr: X86_64-wW64-mingwu32/x64 (64-bit) 


R est un logiciel libre livré sans AUCUNE GARANTIE. 
Vous pouvez le redistribuer sous certaines conditions. 
Tapez 'licensei]j' ou 'licencei(j' pour plus de détails. 


R est un projet collaboratif avec de nombreux contributeurs. 
Tapez 'contributorsij' pour plus d'information et 
'citation(j' pour la façon de le citer dans les publications. 


Tapez 'demoij' pour des démonstrations, 'helpij' pour l'aide 
en ligne ou 'help.starti{]j' pour obtenir l'aide au format HTML. 
Tapez 'q(ij' pour quitter k. 


> getwdi) 
[i] "C:/Users/1lsoz Vincent/Documents" 
> | 


et ensuite vous pourrez le changer avec la commande setwd ) et vérifier que le nouveau 
dossier de travail par défaut a bien été changé: 
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À RGui (64-bit) - [R Console 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


R version 3.0.2 (2013-09-25) -- "Frisbee Sailing" 
Copyright (C) 2013 The R Foundation for Statistical Computing 
Platform: x86 64-w64-mingqw32/x64 (64-bit) 


|R est un logiciel libre livré sans AUCUNE GARANTIE. 
|Vous pouvez le redistribuer sous certaines conditions. 
| Tapez 'licensel(j' ou 'licenceij' pour plus de détails. 


R est un projet collaboratif avec de nombreux contributeurs. 
Tapez 'contributorsi(j' pour plus d'information et 
'citation(j' pour la façon de le citer dans les publications. 


Tapez 'demoij' pour des démonstrations, 'helpij' pour l'aide 
en ligne ou 'help.starti{j' pour obtenir l'aide au format HTML. 
Tapez 'q(ij' pour quitter Rk. 


> getwdi) 

[1] "C:/Users/Ilsoz Vincent/Documents" 
> setwdi"C:/") 

> getwdi) 
| [1] mC:/" 

> | 


Nous pouvons aussi voir les fichiers qu'il y dans le dossier de notre choix avec la commande 
list.files( ). Par exemple: 


ET) 


> list.files(getwdi()) 
[1] "GoogleOptionsQuotesFromŸahooFinance.csv" 


[2] "PerteTaguchi.csv'" 


[3] "“piSugar.cpp" 
> | 


avec la commande file.info( ) nous pouvons obtenir certaines informations utiles sur un 
fichier: 
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R Fichier Edition Voir Misc Packages Fenêtres Aide 


> list.files(getwdi{()) 
[1] "addlist" "addlist 0.1.tar.gz" "sequence.fasta" 
> file.infoi"sequence.fasta") 

size isdir mode rit ime ctime atime exe 
10951 FALSE 666 2014-08-17 14:35:35 2014-08-17 14:35:35 2014-08-17 14:35:35 no 
> 


Changer définitivement le dossier de travail par défaut 


Pour changer définitivement le dossier de travail par défaut de R, vous pouvez vous rendre 
dans le menu Fichier/Changer le répertoire courant: 


& RGui (64-bit} - [R Co 


R [Fichier] Edition Voir Misc Packages Fenétres Aide 


E Sourcer du code R.. 


Nouveau script 


Ouvrir un script... 


R : = re e Sailing” 
Afficher le(s) fich Fee 
Co] SRE Statistical Computing 
du Charger l'environnement de travail. t) 
R Sauver l'environnement de travail. UE GARANTIE. 
Vo! ne : nes conditions. 
Tal Charger l'historique des commandes. lus de détails: 
Sauver l'historique des commandes. 
R 1 mbreux contributeurs. 
Tai Changer le rép{yoire courant... rmation et 
"ce ; dans les publications. 
Imprimer... 
Ta Sauver dans le fichier... ‘helpij' pour l'aide 
en l'aide au format HTML. 
Ta] Sortir 
> | 


et vous faites votre choix: 
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Changer le répertoire courant vers : 


1 Ordinateur 


& os(c) 


ei Lecteur DVD RW (D:} 


R 


Dossier : Ordinateur 


Créer un nouveau dossier 


Mais lorsque vous fermerez et ouvrirez à nouveau R, il aura oublié ce changement. Vous 
pouvez vérifier cela en tapant la commande getwd( ): 


2 RGui (64-bit - 


| 


> getwdi) 
[1] "C:/Users/Ilsoz Vincent/Documents" 
> | 


Dès lors, la méthode consiste à créer un fichier .Rprofile dans le dossier de démarrage par 
défaut avec la commande suivante au début: 


5 Rprofile - Notepad _— LI 
File Edit Format View Help 
setwd("C:/tmp") 


Nous verrons tout au long de ce livre l'intérêt d'avoir au fait un fichier .Rprofile ayant plutôt le 
contenu suivant: 


R Statistical Software 84/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


2) [ 
File Edit Format View Help 
setwd("C:/tmp") 
options (width=200) 
#options(scipen=-100,digits=4) 
options(show.signif.stars-FALSE) 
#options(prompt="R> ") 
qq<-function(){q(save="no"})} #pour éviter à devoir fermer avec le message de sauvegarde de l'espace de travail 
print(date()) 
#.libPaths("D:/Systems/R_packages") 
set.seed(1234) #pour rendre les expérience aléatoire reproductibles 
#definition of the default CRAN Mirror 
r <- getOption("repos") 
r["CRAN"] <- “http://cran.cnr.berkeley.edu/" 
options(repos = r) 
#we open the wd in the explorer 
suppressWarnings(shell(paste("explorer",gsub('/",'\\\\';getwd())))) 


Na 
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Vider la fenêtre de session 


Pour vider la fenêtre de commande, sur PC il faut faire Ctrl+L. Vous obtiendrez alors une 
fenêtre toute vide (de toute façon ce raccourci est indiqué dans le menu Edition): 


IR RGui (64-bit; - [R Console] se 
R Fichier Edition Voir Misc Packages Fenêtres Aide 
ÉBOSESIOE | 
>| 

R 


Pour "vider" (vider est un bien grand mot... on laissera le lecteur vérifier sur son écran!) la 
fenêtre en mode Shell Microsoft DOS, cette dernière commande ne fonctionne pas! Le mieux 
est d'utiliser la fonction mise( ) du package mise)(qui au passage, pour information, efface 
aussi par défaut toutes les variables de la mémêire!): 
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Version de R et autres informations 


Pour connaître sa version de R et avoir quelques informations pertinentes sur son installation, 
on peut toujours exécuter la commande suivante, que l'on retrouve fréquemment dans les 
documentations de scripts R pour des raisons de reproductibilité, sessionInfo( ) : 


R File Edit View Misc Packages Windows Help x 


ESCECe0E 


> library("data.table") 

| > library("dplyr") 

> sessioninfo() 

R version 3.6.3 (2020-02-29) 

| Platform: x86 64-w64-mingw32/x64 (64-bit) 
Running under: Windows 10 x64 (build 18363) 


Matrix products: default 
| 
locale: 

[1] LC COLLATE=-English United States.1252 LC CTYPE-English United States.1252 
[3] LC MONETARY=English United States.1252 LC NUMERIC=C 

[5] LC TIME=English United States.1252 


attached base packages: 
[1] stats graphics grDevices utils datasets methods base 


other attached packages: 


| [1] dplyr 0.8.5 data.table 1.12.8 
loaded via à namespace (and not attached): 
[1] Rcpp_1.0.4.6 crayon_1.3.4 assertthat 0.2.1 R6 2.4.1 
[5] lifecycle 0.2.0 magrittr 1.5 pillar 1.4.3 rlang 0.4.5 
[9] vctrs 0.2.4 ellipsis 0.3.0 glue 1.4.0 purrr_0.3.4 


[13] compiler 3.6.3 pkgconfig 2.0.3 tidyselect 1.0.0 tibble 3.0.1 


ou pour avoir plus d'informations en utilisant la commande R.version: 
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R Fichier Edition Voir Misc Packages Fenêtres 
BEC) 


> R.version 


platform xX86_64-w64-minqu32 
arch x86_64 

os minqu32 

system X86_64, mingw32 


status 

Major 

minor 

year 

month 

day 25 

svn rev 63957 

language R 
version.string R version 3.0.2 (2013-09-25) 
RE Frisbee Sailing 
> 


Et pour obtenir les informations concernant la licence, nous utilisons la fonction licence( ): 


R RGui (64-bit) - [R Console] _ K 


GR Fichier Edition Voir Misc Packages Fenêtres Aide x 


ÉROSGS|OE 


> licence |() 


This software is distributed under the terms of the GNU General 
Public License, either Version 2, June 1991 or Version 3, June 2007. 
The terms of version 2 of the license are in à file called COPYING 
which you should have received with 

this software and which can be displayed by RShowDoc ("COPYING"). 
Version 3 of the license can be displayed by RShowDoc("GPL-3"). 


Copies of both versions 2 and 3 of the license can be found 
at https://www.R-project.org/Licenses/. 


À small number of files (the API header files listed in 

R DOC DIR/COPYRIGHTS) are distributed under the 

LESSER GNU GENERAL PUBLIC LICENSE, version 2.1 or later. 

This can be displayed by RShowDoc("LGPL-2.1"), 

or obtained at the URI given. 

Version 3 of the license can be displayed by RShowDoc ("LGPL-3"). 


‘Share and Enjoy.’ 


> | 
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Ou pour citer le logiciel dans vos publications scientifiques, travail de mémoire ou de thèse 
avec la fonction citation( ): 


GR RGui (64-bit) - [R Console] EI 


| @ File Edit View Misc Packages Windows Help = - 1h | 


> citation() 
| 


ITe cite R in publications use: 


R Core Team (2017). R: À language and environment for statistical computing. R Foundation 
for Statistical Computing, Vienna, Austria. URL https://www.R-project.org/. 


|A BibTeX entry for LaTeX users is 


CManual{, 
title = {R: À Language and Environment for Statistical Computing}, 
author = {{R Core Team}}, 
organization = {R Foundation for Statistical Computing}, 
| address = {Vienna, Austria}, 
year = {2017}, 
url = {https://www.R-project.org/}, 
} 
IWe have invested à lot of time and effort in creating R, please cite it when using it for 
| data analysis. See also ‘citation("pkgname'")’ for citing R packages. 


L> | 


ou encore, citer un package: 


@ 


GR RGui (64-bit) - [R Console] 
R File Edit View Misc Packages Windows Help nr 


> citation("nlme") 


Pinheiro J, Bates D, DebRoy 5, Sarkar D and R Core Team (2017). nlme: 
| Linear and Nonlinear Mixed Effects Models . R package version 3.1-131, 
| <URL: https://CRAN.R-project.org/package=nlme>. 


| À BibTeX entry for LaTeX users is 
€Manual{, 
title = {{nlme}: Linear and Nonlinear Mixed Effects Models}, 
author = {Jose Pinheiro and Douglas Bates and Saikat DebRoy and Deepayan Sarkar and {R Core Team}}, 
year = {2017}, 
note = {R package version 3.1-131}, 
| url = {https://CRAN.R-project.org/package=nlme}, 


On peut aussi consulter les dernières nouveautés avec la commande news ): 
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R RGui (64-bit) - [R Console] — O 
| ŒR File Edit View Misc Packages Windows Help = IISUIX 
EC 

> news) 

> | 
__—_—_—_—_—_—_———————— 


Ou encore le total de mémoire vive installé avec memory.limit( ): 


M RGui (64-bit) - [R Console] — CO 


GR Fichier Edition Voir Misc Packages Fenêtres Aide ah - 


> memory.limit() 
[1] 16269 
>| 


ou encore certains paramètres systèmes en utilation une transformation de liste (lapply()) 
sur la base de la commande système Sys.getlocale( ): 


GR RGui (64-bit) - [R Console] - CO 


GR Fichier Edition Voir Misc Packages Fenêtres Aide - 5 x 


> localeCategories <- c("LC COLLATE", "LC CTYPE","LC MONETARY", "LC NUMERIC", "LC TIME") 
> setNames(lapply(localeCategories, Sys.getlocale), localeCategories) 

$LC _COLLATE 

[1] "English United States.1252" 


$LC CTYPE 
[1] "English United States.1252" 


$LC _MONETARY 
[1] "English United States.1252" 


$LC _NUMERIC 
[1] "cr 


$LC TIME 
[1] "English United States.1252" 


>| 
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R Statistical Software 


= 

Warning in install.packages : 
package ‘memer” is not available 
(for R version 3.6.1) 

> Jibrary("memer”) 

error fn library("memer") : there 
is no package called ‘mener’ 

> 


EVERYTHING 


W 
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Définir le nombre de décimales 


En général quand vous ferez des calculs dans R vous voudrez une certaine précision des 
calcules. Pour ce faire, vous pouvez utiliser la commande options(digits= ): 


R Fichier Edition Voir Misc Packages 
Fenêtres Aide _|s|x 


> options(digits=3) 
> options({jfdigits 
[1] 3 

> | 


Remarque: Notez que souvent aurez des scripts dans lesquels vous modifierez des paramètres 
systèmes de R et, où la fin, vous souhaiterez les restaurer! Vous pouvez alors utiliser la 
fonctions options( ) générale comme ci-dessous: 


| R RGui (64-bit) - [R Console] 


| BR File Edit View Misc Packages Windows Help | IX 


|> fon copie tous les paramètres au début du script | 
|> backup options <- options () 

> fon les restaure à la fin du script 

> options (backup options) 


> | 


Parfois pour certains tests statistiques quand la p-value est très petite, R renvoie des étoiles (*) 
comme nous le verrons lors de notre étude de la régression linéaire univariée (par exemple.….): 
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> setwd{"C:/") 
> mydata<-read.csv("RegressionLineaireUnivariee.csv",header=T,sep=":") 
> summary(ols<-lm(formula=Ventes-Mois,data=mydata) ) 


Call: 
imiformula = Ventes - Mois, data = mydata) 


Residuals: 
Min 10 Median 3Q Max 
-3.32 -1.34 0.44 0.78 3.00 


Coefficients: 

Estimate Std. Error t value Pr(i>lt|) 
{Intercept) 3.0200 &.1510 1.404 0.203089 
Mois 1.2200 0.2241 5.444 0.000963 *#* 


Signif. codes: O0 ‘*## 0.001 ‘*t*’ 0.01 ‘*’ 0.05 *.f O.1 * * 1 
Residual standard error: 2.241 on 7 degrees of freedom 
Multiple R-squared: 0.868089, didjusted R-squared: 0.786816 
F-statistic: 29.63 on 1 and 7 DF, p-value: 0.0009626 

> | 


« 


Pour désactiver cela, il suffit dans KR, d'écrire: 


Gui {64-bit. 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> options(ishow.signif.stars=FALlSE) 
> | 


_R Fichier Edition Voir Misc Packages 
Fenêtres Aide = a | 


> optionsidigits=3) 
> options{(jfdigits 
[1] 3 

> | 


n'aura aucun effet! Il faut alors par exemple écrire: 
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& Fichier Edition Voir Misc Packages Fenêtres Aide NU 


ESOBOSOIE 


> print (summary (lm(Ventes-Mois,data=mydata)),digits=2) 


Call: 
1im(formula = Ventes - Mois, data = mydata) 


Residuals: 
Min 1Q Median 3Q Max 
-3.32 -1.34 0.44 0.78 3.00 


Coefficients: 

Estimate Std. Error t value Pr(>it|) 
(Intercept) 3.02 2.15 1.4 0.2 
Mois 1.22 0.22 5.4 0.001 *#** 


Signif. codes: O0 ‘“*#*#*”7 0.001 ‘**” 0.01 ‘*’” 0.05 ‘.’ 0.1 * ” 1 


»” »” 


Residual standard error: 2.2 on 7 degrees of freedom 
Multiple R-squared: (0.81, Adjusted R-squared: 0.78 
F-statistic: 30 on 1 and 7 DF, p-value: 0.000966 


A noter que cela ne marche pas pour tout...! Dans des cas compliqués ont doit parfois même 
utiliser des syntaxes du type suivant (voir l'exemple à la page 1701): 
& 


noquote(format(round(truc à formater,3), format="f")) 
Définir la largeur de la sortie 
Parfois certaines personnes ne sont pas satisfaites de la largeur de sortie des tables qu'elles 


affichent dans la console KR. Pour changer la largeur de sortie on utilisera la commande 
options(width=..) où le nombre après le signe égal représente la largeur en caractères: 


R: 
8 File Edit View Misc Packages Windows Help - FX 


EBOISOEINE 


> options (width=200) 
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Ajouter des commentaires 


Lorsque vous écrivez un paquet de commandes il peut être très utile de commenter vos 
manipulations (l'usage est d'avoir normalement un commentaire au moins pour trois lignes de 
commandes). Par exemple: 


R Fichier Edition Voir Misc Packaliè Fenètres 
Aide BOEI 


> 2+2 #ceci est une simple addition 
[1] 4 
> | 


Les commentaires du code est un point très important du développement que l'on comprend 
souvent seulement avec l'expérience. Effectivement, les développeurs débutants n'ont dans un 
premier temps pas l'habitude de travailler très rigoureusement et très proprement et ce d'autant 
plus sur des codes rarement supérieurs à 1000 lignes et ne voient donc pas quelle est l'intérêt 
futur de bien commenter leur code. Cet état des faits a lieu chez la grande majorité des 
développeurs. & 


Funny Source Code 


Comments 
LA 
// Dear maintainer: 
LA 


// When I wrote this code, only I and God 
// knew what it was. 

// Now, only God knows! 

LA 

// So if you are done trying to ’optimize’ 
// this routine (and failed), 

// please increment the following counter 
// as a warning 

// to the next guy: 

LA 

// total_hours_wasted_here = 67 


7 2 


R Statistical Software 95/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Ne pas commenter est une énorme erreur pour le développeur lui-même et tous ceux qui 
seraient amenés à intervenir ou à poursuivre son travail. 


Certaines règles sont à mettre en place 1l convient immédiatement de mettre en pratique dès 
que l'on commence à rédiger un code. Voici ces règles: 


RI1. Toute procédure, fonction, classe, doit être accompagnée d'une cartouche de 
description telle que dans l'exemple ci-dessous 


R2. Chaque ligne de code doit être commentée avec indication en initiales du 
commentateur et de la date de création du commentaire tel que dans l'exemple ci1- 
dessous 


R3. Au besoin, un schéma procédural doit être fait dans un logiciel adapté (Microsoft 
Visio suffit) pendant le travail afin de savoir qui appelle quoi en faisant usage de 
quelles variables 
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Obtenir de l'aide sur une commande ou sur un package 


Contrairement à des logiciels comme Microsoft Excel, Microsoft Word, Microsoft 
PowerPoint, Microsoft Outlook, Minitab, SPSS et autres classiques du genre, il y a beaucoup 
trop d'outils dans R pour que quiconque puisse les retenir tous (un expert connaître maximum 


4'000 à 5'000 commandes par coeur). 


Nous pouvons lancer l'aide générale ave la commande help.start( ) qui ouvrira la page web 
correspondante: 


R Fichier Edition Voir Misc Packages Fenétres Aide 


> help.start{) 
starting httpd help server ... Terminé. 


Si rien ne se passe, vous devrez ouvrir 
‘“http://127.0.0.1:22891/doc/html/index.html’ vous-même 
> | 


Pour obtenir de l'aide sur une commande qui vous semble mystérieuse, voici comment faire 
(du moins quand il y a une documentation...): $Ÿ 


> ?ploti) 
> | 


et pour un package on utilisera la commande help( ): 


> help(package=colorspace)| 


Qui va ouvrir l'aide locale dans le navigateur Internet. Si vous n'aimez pas vous pouvez 
utiliser: 
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FE n 


MR Console EEE 


> library(help=colorspace) 
> 


Qui ouvrira l'aide dans une fenêtre graphique de R comme visible ci-dessous: 


R RGui (64-bit) - [Documentation for package ‘colorspace] — (a 


R File Edit Windows EURE: 


EI | 


Li] 


Information on package ‘colorspace'’ 


Description: 

Package: colorspace 

Version: 1.3-2 

Date: 2016-12-14 

Title: Color Space Manipulation 

Authors@R: c(person(given = "Ross", family = "Ihaka", role = "aut", 
email = "ihaka@stat.auckland.ac.nz"), person(given = "Paul", 
family = "Murrell", role = "aut", email = 
"paul@stat.auckland.ac.nz"}), person(given = "Kurt", family = 
"Hornik", role = "aut", email = 
"Kurt.Hornik@R-project.org"), person(given = c("Jason", 
"C."), family = "Fisher", role = "aut", email = 

| “jfisher@usgs.gov"), person(given = "Reto", family = 
"Stauffer", role = "aut", email = 


"Reto.StaufferQ@uibk.ac.at"), person(given = "Achim", family 
= "Zeileis", role = c("aut", "cre"), email = 
"Achim.Zeileis@R-project.org")) 

Description: Carries out mapping between assorted color spaces including 
RGB, HSV, HLS, CIEXYZ, CIELUV, HCL (polar CIELUV), CIELAB 
and polar CIELAB. Qualitative, sequential, and diverging 
color palettes based on HCL colors are provided along with 
an interactive palette picker (with either a Tcl/Tk or a 
shiny GUI). 


Depends : R (>= 2.13.0), methods 

Imports: graphics, grDevices 

Suggests: datasets, stats, utils, KernSmooth, MASS, kernlab, mvtnorm, 
vcd, dichromat, tcltk, shiny, shinyjs 

License: BSD 3 clause + file LICENSE 

URL: https://hclwizard.org/ 

LazyData: yes 

NeedsCompilation: yes 

Packaged: 2016-12-14 22:11:46 UTC; zeileis 

Author: Ross Ihaka [aut], Paul Murrell [aut], Kurt Hornik [aut], 


Jason C. Fisher [aut], Reto Stauffer [aut], Achim Zeileis 
[aut, cre] 


Maintainer: Achim Zeileis <Achim.Zeileis@R-project.org> 
Repository: CRAN 
| Date/Publication: 2016-12-14 23:28:25 
| Built: R 3.5.0; x86 64-w64-mingw32; 2018-04-23 00:30:24 UTC; 
| windows 

Index: 

HLS Create HLS Colors 
| HSV Create HSV Colors 
| LAB Create LAB Colors 

LUV Create LUV Colors 


Ou pour chercher une expression dans la base de connaissances, on utilisera la fonction 
RSiteSearch( ): 
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R Fichier Edition Voir Misc Packages Fenétres 


Aide [-1#1X) 


> RSiteSearch{('neural networks! il 


ou obtenir la liste de toutes les commandes qui contiennent un mot particulier avec la fonction 


apropos( ): 


MRC 6 bit - A, 
R Fichier Edition Voir Misc Packages Fenétres Aide 


> apropos{"test") 
[1] ".valueClassTest" 
[4] "hinom.test" 
[7] "cor.test" 
[10] "fligner.test" 
[13] "ks.test" 
[16] "monemar.test" 
[19] "pairwise.prop 
"poisson.test" 
"pover.t.test" 
"prop.trend.test" 
"t.test" 
FtestVirtual" 


“ansari.test" 
"rBox.test" 

"file test" 
"friedman.test" 
"mantelhaen.test" 
"mood.test" 
"pairvise.t.test" 
"power.anova.test" 
"PP.test" 
"quade.test" 
"testInheritedMethods" 
"vyar.test" 


"bartlett.test" 
"chisq.test" 
"fisher.test" 
"kruskal.test" 
"mauchly.test" 
"onevay.test" 
"pairwise.wilcox.test" 
"power.prop.test" 
"prop.test" 
"shapiro.test" 
"testPlatformEquivalence" 
"wilcox.test" 


Nous pouvons aussi obtenir un rappel (aide) des arguments de certaines commandes et 


fonctions avec args( ): 


Re. RGui (64-bit) - [RC 
R Fichier Edition Voir Misc Packages Fenêtres Aide 


> args(read.csv) 


fill = TRUE, conmment.char = "", ...) 
NULL 
> args(plot) 
funetion -ÊX, Ys sc: 
NULL 
> args(plot.default) 


function (file, header = TRUE, sep = ",", quote = "im, 


function (x, y = NULL, type = "p", xlim = NULL, ylim 
log = "", main = NULL, sub = NULL, xlab = NULL, ylab 


dec = ".r", 


NULL, 

= NULL, 

ann = par("ann"), axes = TRUE, frame.plot = axes, panel.first = NULL, 
panel.last = NULL, asp = NA, ...) 
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S1 on charge un package on peut aussi avoir plein d'informations en écrivant: 


MR Console 


> library("ggplot2") 
> FER = ggplot2) 
> 


Information on package ‘ggplot2’ 
Description: 


Package: ggplot2 

Version: LA AE 

Title: Create Elegant Data Visualisations Using the Grammar of Graphics 

Description: A system for "'declaratively' creating graphics, based on "The Grammar of Graphi$ 
aesthetics, what graphical primitives to use, and it takes care of the details. 

Authors@R: c( person("Hadley", "Wickham", , "hadley@rstudio.com", c("aut", "cre")}), persons 
person("RStudio", role = c("cph"})) ) 

Depends: R (>= 3.1) 

Imports: digest, grid, gtable (>= 0.1.1), MASS, plyr (>= 1.7.1), reshape2, scales (>= 0.S 

Suggests: covr, ggplot?movies, hexbin, Hmisc, lattice, mapproj, maps, maptools, mgcv, mul$ 
svglite 

Enhances: sp 

License: GPL-2 | file LICENSE 

URL: http://ggplot2.tidyverse.org, https://github.com/tidyverse/ggplot2 

BugReports: https://github.com/tidyverse/ggplot2/issues 

LazyData: true 

Collate: “ggproto.r' ‘'aaa-.r' ‘'aes-calculated.r' 'aes-colour-fill-alpha.r' ‘'aes-group-or$ 
‘aes.r' 'legend-draw.r' 'geom-.r' "'annotation-custom.r' 'annotation-logticks.r'$ 
‘annotation-raster.r' "'annotation.r' 'autoplot.r' 'axis-secondary.R' 'bench.r' $ 
"coord-map.r' "coord-munch.r' "'coord-polar.r' "'coord-quickmap.R' "'coord-transfo$ 
‘facet-wrap.r' 'fortify-lm.r' "fortify-map.r' "fortify-multcomp.r' "fortify-spas 
"geom-bar.r' 'geom-bin2d.r' 'geom-blank.r' 'geom-boxplot.r' 'geom-col.r' 'geom-$ 
"geom-segment.r' "geom-curve.r' 'geom-defaults.r' "'geom-ribbon.r' "'geom-density$ 
"geom-errorbarh.r' 'geom-freqpoly.r' 'geom-hex.r' "'geom-histogram.r' "geom-hlins 
"geom-pointrange.r' 'geom-quantile.r' "geom-rug.r' "geom-smooth.r' ‘"geom-spoke.$ 
"ggplot2.r' 'grob-absolute.r' "grob-dotstack.r' "grob-null.r' 'grouping.r' 'gui$ 
"guides-grid.r'"' 'hexbin.R' 'labeller.r' 'labels.r' 'layer.r' 'layout.R' 'limitsS 
"plot.r' "'position-.r' "'position-collide.r' "position-dodge.r' 'position-identiS 
‘position-stack.r' "quick-plot.r' "range.r' 'save.r' 'scale-.r' "'scale-alpha.r'$ 
"scale-discrete-.r' "'scale-gradient.r' "'scale-grey.r' "'scale-hue.r' "scale-idens 
"scale-size.r' 'scale-type.R' "'scales-.r' "stat-bin.r' "stat-bin2d.r' "stat-binS 
"stat-count.r' "'stat-density-2d.r' "'stat-density.r' "'stat-ecdf.r' 'stat-ellipseS 
“stat-smooth-methods.r' "stat-smooth.r' "stat-sum.r' "'stat-summary-2d.r' 'stat-$ 
"stat-ydensity.r' "summary.r' "theme-elements.r' "theme.r' 'theme-defaults.r'" "S$ 
‘translate-qplot-lattice.r' ‘'utilities-break.r' 'utilities-grid.r' ‘utilities-hS 


1 


> 


Ce qui donne aussi si on défile vers le bas, la liste de toutes les fonctions du package en 
question: 
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= 


QR Documentation for package ‘ggplot? 


Index: 


+.gg 

aes 

aes_ 

aes_ colour fill alpha 


aes_group_order 
aes_ linetype size shape 


aes_ position 


annotate 

annotation custom 
annotation logticks 
annotation map 
annotation raster 
autoplot 


borders 

coord cartesian 
coord_ fixed 
coord_flip 
coord map 
coord_ polar 
coord trans 
cut_interval 
diamonds 
economics 
expand limits 
facet_grid 
facet_wrap 
faithfuld 
fortify 

geom abline 


geom_ bar 
geom_bin2d 


< 


sels) 


Add components to a plot 

Construct aesthetic mappings 

Define aesthetic mappings programatically 
Colour related aesthetics: colour, fill and 
alpha 

Aesthetics: grouping 


Differentiation related aesthetics: linetype, 
size, shape 

Position related aesthetics: x, y, xmin, xmax, 
ymin, ymax, xend, yend 

Create an annotation layer 

Annotation: Custom grob 

Annotation: log tick marks 

Annotation: a maps 

Annotation: high-performance rectangular tiling 
Create a complete ggplot appropriate to a 
particular data type 

Create a layer of map borders 

Cartesian coordinates 

Cartesian coordinates with fixed "aspect ratio" 
Cartesian coordinates with x and y flipped 
Map projections 

Polar coordinates 

Transformed Cartesian coordinate system 
Discretise numeric data into categorical 
Prices of 50,000 round cut diamonds 

US economic time series 

Expand the plot limits, using data 

Lay out panels in a grid 

Wrap a 1d ribbon of panels into 2d 

24 density estimate of Old Faithful data 
Fortify a model with data. 

Reference lines: horizontal, vertical, and 
diagonal 

Bars charts 

Heatmap of 2d bin counts 


SE 
Ne) 
Ÿ 


Ou encore plus direct, avec la commande Isf.str( ) on peut obtenir la liste de toutes les 
fonctions directement avec leur signature: 
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MR RGui (64-bit) - [R Co — O 


Œ File Edit View Misc Packages Windows Help -s x 


BROSSE | 


0 


> 1sf.str("package:ggplot2") 

$+%5 : function (el, e2) 

$+replaces : function (el, e2) 

aes : function (x, y, ...) 

aes__ : function (x, y, ...) 

aes_all : function (vars) 

aes_auto : function (data = NULL, ...) 
aes_q : function (x, y, ...) 

aes_ string : function (x, y, ...) 
alpha : function (colour, alpha = NA) 
annotate : function (geom, x = NULL, y = NULL, xmin = NULL, xmax = NULL, ymin = NULL, ymax = NULL, xend = NULL, 


yend = NULL, ..., na.rm = FALSE) 
annotation custom : function (grob, xmin = -Inf, xmax = Inf, ymin = -Inf, ymax = Inf) 
annotation logticks : function (base = 10, sides = "bl", scaled = TRUE, short = unit(0.1, "cm"), mid = unit(0.2, 


"cm"), long = unit(0.3, "cm"}, colour = "black", size = 0.5, linetype = 1, alpha = 1, color = NULL, 
ssl 
annotation map : function (map, ...) 


annotation_ raster : function (raster, xmin, xmax, ymin, ymax, interpolate = FALSE) 

arrow : function (angle = 30, length = unit(0.25, "inches"), ends = "last", type = "open") 

as_labeller : function (x, default = label value, multi line = TRUE) 

autoplot : function (object, ...) 

benchplot : function (x) 

borders : function (database = "world", regions = ".", fill = NA, colour = "grey50", xlim = NULL, ylim = NULL, 


sue) 
calc_ element : function (element, theme, verbose = FALSE) 


combine vars : function (data, env = emptyenv(), vars = NULL, drop = TRUE) 

continuous scale : function (aesthetics, scale name, palette, name = waiver(), breaks = waiver(), minor breaks = waiver()$ 
labels = waiver(), limits = NULL, rescaler = rescale, oob = censor, expand = waiver(), 
na.value = NA real , trans = "identity", guide = "legend", position = "left", super = ScaleContinuous) 


coord_ cartesian : function (xlim = NULL, ylim = NULL, expand = TRUE) 

coord_ equal : function (ratio = 1, xlim = NULL, ylim = NULL, expand = TRUE) 

coord_ fixed : function (ratio = 1, xlim = NULL, ylim = NULL, expand = TRUE) 

coord_flip : function (xlim = NULL, ylim = NULL, expand = TRUE) 

coord map : function (projection = "mercator", ..., parameters = NULL, orientation = NULL, xlim = NULL, 
ylim = NULL) 

coord munch : function (coord, data, range, segment _ length = 0.01) 

coord_ polar : function (theta = "x", start = 0, direction = 1) 

coord_quickmap : function (xlim = NULL, ylim = NULL, expand = TRUE) 

coord_trans : function (x = "identity", y = "identity", limx = NULL, limy = NULL, xtrans, ytrans) 

cut_interval : function (x, n = NULL, length = NULL, ...) 

cut_number : function (x, n = NULL, ...) 

cut_width : function (x, width, center = NULL, boundary = NULL, closed = c("right", "left")) 

derive : function () 

discrete scale : function (aesthetics, scale name, palette, name = waiver(), breaks = waiver(), labels = waiver(), 
limits = NULL, expand = waiver(), na.translate = TRUE, na.value = NA, drop = TRUE, guide = "legend", 
position = "left", super = ScaleDiscrete) 

draw_key_abline : function (data, params, size) 

draw _ key blank : function (data, params, size) 

draw _ key boxplot : function (data, params, size) 

draw_key_crossbar : function (data, params, size) 

draw _key_dotplot : function (data, params, size) 


< > 


Nous pouvons aussi demander des exemples de démos sur une commande avec example( ): 
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R RGui (64-bit) - [R Console] 
R File Edit View Misc Packages Windows Help 


> example (cor) 
cor> var(1:10) + 9.166667 
[1] 9.166667 
cor> var(1:5, 1:5) # 2.5 
[1] 2.5 


cor> ## Two simple vectors 
cor> cor(1:10, 2:11) # == 1 


{1} 1 


cor> #$# Correlation Matrix of Multivariate sample: 
cor> (C1 <- cor(longley)) 
GNP.deflator 


GNP.deflator 
GNP 
Unemployed 
Armed.Forces 
Population 
Year 
Employed 


GNP.deflator 
GNP 
Unemployed 


1.0000000 
0.9915892 
0.6206334 
0.4647442 
0.9791634 
0.9911492 
0.9708985 


GNP Unemployed Armed.Forces 


0.9915892 
1.0000000 
0.6042609 
0.4464368 
0.9910901 
0.9952735 
0.9835516 


Year Employed 


0.9911492 0.9708985 
0.9952735 0.9835516 
0.6682566 0.5024981 


Armed.Forces 0.4172451 0.4573074 


r 
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0.6206334 
0.6042609 
1.0000000 
-0.1774206 
0.6865515 
0.6682566 
0.5024981 


0.4647442 
0.4464368 
-0.1774206 
1.0000000 
0.3644163 
0.4172451 
0.4573074 


Population 
0.9791634 
0.9910901 
0.6865515 
0.3644163 
1.0000000 
0.9939528 
0.9603906 
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Plusieurs commandes sur une ligne 


Même si ce n'est pas recommandé pour des questions de confort de lecture, il est possible 
d'écrire plusieurs commandes sur une seule ligne si l'on veut faire vite... Voilà un bête 
exemple: 


€ RGui (64-bit) - [R Conso 


R Fichier Edition Voir Misc Packages Fenêtres 


> HC—-22VC—-ILHTY 
[1] 5 
> | 


au lieu de: 


RGui (64-bit} - [R Consc 


R Fichier Edition Voir Misc Packages Fenêtres 
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Installer et charger/décharger des packages 


L'intérêt majeur de R ce sont ces dizaines milliers de packages spécialisés qui sont pour 
l'immense majorité gratuits et open source! 


Ce qu'il faut d'abord savoir c'est que lors de la première installation, R vient avec les pages 
suivants: 


R File Edit View Misc Packages Windows Help x 


> getOption("defaultPackages") | 
[1] "datasets" "utils" "grDevices" "graphics" "stats" "methods" 
> | 


Qui sont le noyau dur de R (leur nom suffit à les décrire). 


Voyons d'abord comment obtenir le nombre de packages actuellement existant sur CRAN 
étant donné que c'est une question fréquente en utilisant la fonction avalaible.packages( ): 
| 


R Fichier Edition Voir Misc Packages Fenêtres Aide LE: 


> nrow(available.packages()) 
[1] 11872 

| > date) 
à; "Sun Nov 26 22:57:51 2017" 
> 


Et environ 5 ans plus tard: 
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Re RGui (64-bit) - [R Console] 
R File Edit View Misc Packages Windows Help = | :X 


> nrow(available.packages({()) 
[1] 18500 

> date{) 

| "Sun Sep 04 14:42:38 2022" 
> 


Ensuite, voyons avant toute chose comment obtenir la liste des package installés par défaut 
dans R avec la commande getOption(''defaultPackages""): 


# RGui (64-bit) - [R Console] un Ü 


| SR File Edit View Misc Packages Windows Help = EX 
| 
BE] 


| > getOption("defaultPackages") | 
| [1] "datasets" ‘"utils" "grDevices" "graphics" "stats" "methods" 
> | | 


Sinon pour avoir la liste des packages chargés autres que ceux par défaut: 


R RGui (64-bit) - [R Console] . «| 


R File Edit View Misc Packages Windows Help TE 
Bla 


|> library("ggplot2") 
[> library("dplyr") 
|> names (sessioniInfo()S$otherPkgs) 
[1] "ggplot2" "dplyr" 
> 


On peut détacher de façon générale et non triviale de la manière suivante un package: 
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R File Edit View Misc Packages Windows Help = & x 


*on charge quelques packages 
library("nnet") 
library("ggplot2") 


*on affiche les packages chargés 
names (sessioninfo()S$otherPkgs) 
1] "ggplot2" "nnet" 


ton détache tous les packages chargés (fonctionne avec R 3.6.0) 
fabsolument non trivial... 

invisible (lapply(paste0('package:', names (sessionInfo()SotherPkgs)), 
detach, character.only=TRUE, unload=TRUE, force=TRUE)) 


*on afficher les packages chargés 
| names (sessioninfo()S$otherPkgs) 
NULL 
> | 


VVNV+ENVNVVVmNNNVNNN NV 


Installer un package est très simple (dans le cas normal) en utilisant la commande 
install.packages( ): 


DR Ru (bi R Conte . 
R File Edit View 
E 


Misc Packages Windows Help #4 2% 


> install.packages ("ggplot2") 

Installing package into ‘C:/Users/Vincent Isoz/Documents/R/win-library/3.2* 

{as ‘lib’ is unspecified) 

trying URL 'http://stat.ethz.ch/CRAN/bin/windows/contrib/3.2/ggplot2 1.0.1.zip' 

Content type 'application/zip' length 2677265 bytes (2.6 MB) | 
downloaded 2.6 ME 


package ‘ggplot2’ successfully unpacked and MD5 sums checked 


The downloaded binary packages are in 
C:\Users\Vincent Isoz\AppDataiLocal\Temp\RtmpKMVVom\ downloaded packages 
> | 


ou pour installer depuis GitHub le lecteur pourra se référer la page 1091 (mais attention!!! 
Sous Microsoft Windows, l'installation se passe souvent mal si le compte utilisateur 
contient des espaces!). 


Pour installer les packages les plus utilisés dans ce support de cours, copier/collez la 
commande ci-dessous dans la console R validez par ENTER: 


install.packages(c("remotes","readxl","googlesheets","haven","readr","rio", 
"Hmisc'",'"sqldf","jsonlite","XML","httr","quantmod","tidyquant","rvest","dpl 
yr","purrr'","reshape2","tidyr","magrittr","validate","£testthat","data.table 
","stringi","stringr","lubridate","zoo","editR","knitr","officer","listview 
er","DT","ggplot2","ggiraph","dygraphs","googleVis","metricsgraphics","RCol 
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orBrewer","sf","leaflet","ggmap","Etmap","tmaptools",'"mapsapi","tidycensus", 
"qlue","rga","RSiteCatalyst","roxygen2","shiny","flexdashboard'","openxlsx", 
"gmodels","janitor","car","rcdimple","foreach","scales","plotly","highchart 
er","profvis","tidytext","diffobj","Prophet","feather","fst","googleAuthR", 
"cloudyR","shiny","car","checkpoint", "CHAID","CCA", "caret","bootstrap","Bio 
StatR","bibtex","bayestestR","AnomalyDetection","ADGofTest","actuar", "model 
time","tidymodels","tidyverse","animation","RCurl","forecast","NbClust","aAn 
omalyDetection","audio","bayesAB","bayesboot","BayesFactor","bayesplot","br 
oom","C50","CircStats","copula", "correlation", "data.table","plyr",'"desc","D 
escTools'","desirability","deSolve","docxtractr","DiagrammeR","ecd","ellips 

","epiR","FactoMineR", "dbscan",'"Rcpp","forecast","GGally","reshape","geofac 
et","quantmod","corrplot","RSelenium","netstat","pingr","desc","e1071",'"eva 
luate","geogrid","gqridExtra","jpeg","lifecycle","prettyunits","quadprog","R 
cpp", "RODBC", "survival", "tseries","xts","zo0o","clipr","scales","htmlwidgets 
","xml","arules","arulesViz",'"grDevices","grid","methods","ISLR","TSP","fpc 
","gplots",'"arules","seriation",'"NMF","scatterplot3d","VennDiagram","fitdis 
trplus'","dbscan","car","fpc'","foreign","rpivotTable","ggvoronoi","voronoiTr 
eemap","survminer","latex2exp","VIM","ggpubr"})) 


Il y a des cas plus compliqués, surtout pour ceux qui travaillent en génétique et en biologie 
moléculaire avec le package BioConductor comme l'illustre le code suivant: 


EH (Source on Save | Q 7° - 
1 install.packages("BiocManager") 
2 BiocManager::install("MassSpecwavelet") 


3 BiocManager::install("impute") 


On peut choisir également d'installer un package dans un dossier spécifique et le recharger du 
N 


même dossier spécifique: RS 
L:4 ( 
R File Edit View Misc Packages Windows Help … 5 X 


> install.packages ("zoo",lib="c:/tmp/") 

—--- Please select a CRAN mirror for use in this session --- 

trying URL ‘'https://cloud.r-project.org/bin/windows/contrib/3.4/z00 1.8-1.zip' 
Content type 'application/zip' length 915692 bytes (894 KB) 

downloaded 894 KB 


package ‘zoo’ successfully unpacked and MD5S sums checked 
The downloaded binary packages are in 
C:\Users\Vincent Isoz\AppData\Local\Temp\Rtmpwd4X01\downloaded packages 
> library("zoo",lib="c:/tmp/") 
Attaching package: ‘zoo!’ 


The following objects are masked from ‘package:base’: 


as.Date, as.Date.numeric 
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Je ne connais aucune commande native sur une ligne unique permettant (à ce jour...!) de 
vérifier qu'un package est déjà installé, le cas échéant de le télécharger et installer plusieurs 
packages d'un seul coup à ce jour (bien sûr un script est faisable mais ce n'est pas le sujet 
ici!!!). Le mieux que je connaisse est: 


R RGui (64-bit) - [R Console] (n 


| GR Fichier Edition Voir Misc Packages Fenêtres Aide instalir x 


OSOE 


> if('require(installr)) !{ 
+ install.packages("installr"); require(installr)} 
Le chargement a nécessité le package : instalilr 

| Le chargement a nécessité le package : stringr 


Welcome to installr version 0.19.0 
More information is available on the installr project website: 
| https://github.com/talgalili/installr/ 


Contact: <tal.galili@gmail.com> 
| Suggestions and bug-reports can be submitted at: https://github.com/talgalili/install$ 


To suppress this message use: 
suppressPackageStartupMessages (library(installr)) 


| 
|Wakning message: 


LA 
< > 
S1 vous souhaitez passer le nom du package via une variable 1l faudra changer le script ci- 
dessus comme visible dans la figure suivante: 
| RGuï (64-bit) - [R Console] — O 
R File Edit View Misc Packages Windows Help 0e) 12e 


requiredPackage <-"ggplot2" 
if(!require(requiredPackage ,character.only = TRUE))!{ 
install.packages (requiredPackage); 
require (requiredPackage,character.only = TRUE) 
} 
Loading required package: ggplot2 
> | 


+++VV 


Nous pouvons généraliser cela à un vecteur de packages: 
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ŒR File Edit View Misc Packages Windows Help EF 


pkg<- c("ggplot2", "plyr", “reshape2", "RColorBrewer", "scales", "grid") 
new.pkg <- pkg[l!(pkg $in$ installed.packages()[, “Package"])] 

if (length(new.pkg)){ 

install.packages(new.pkg, dependencies = TRUE) 

sapply(pkg, require, character.only = TRUE) 

} 


VE +VVYV 


Cependant comme nous allons le voir plus bas il existe une package nommé pacman faisant 
tout le travail. 


Pour installer une "vue" (voir les détails des vues sur https://cran.r-project.org/web/views/ ) 
on utilisera le package ctv: 
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Œ RGui (64-bit) - [R Console] 


UR File Edit View Misc Packages Windows Help |5|x 
à ñ 

> library("ctv") 

> ctv::available.views() 

CRAN Task Views 

Name: Bayesian 

Topic: Bayesian Inference 

Maintainer: Jong Hee Park 

Repository: https://cloud.r-project.org 

Name: ChemPhys 

Topic: Chemometrics and Computational Physics 

Maintainer: Katharine Mullen 

Repository: https://cloud.r-project.org 

Name: ClinicalTrials 

Topic: Clinical Trial Design, Monitoring, and Analysis N 

Maintainer: H.G. Zhang, Ed Zhang 

Repository: https://cloud.r-project.org 

Name: Cluster 

Topic: Cluster Analysis & Finite Mixture Models 

Maintainer: Friedrich Leisch, Bettina Gruen 

Repository: https://cloud.r-project.org 

Name: Databases 

Topic: Databases with R 

Maintainer: Yuan Tang 

Repository: https://cloud.r-project.org 

Name: DifferentialEquations 

Topic: Differential Equations 

Maintainer: Karline Soetaert, Thomas Petzoldt 

Repository: https://cloud.r-project.org 

Name: Distributions 

Topic: Probability Distributions 

Maintainer: Christophe Dutang, Patrice Kiener 

Repository: https://cloud.r-project.org 

Name: Econometrics 

Topic: Econometrics 

Maintainer: Achim Zeileis 

Repository: https://cloud.r-project.org 

Name: Environmetrics 

Topic: Analysis of Ecological and Environmental Data > 


Et ensuite la commande install.views(<nom de la vue>). 


Pour charger un package c'est très simple en utilisant la commande library(""nom_ package"): 
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R File Edit View Misc Packages Windows Help E X 


> library("ggplot2") 
> | 


S1 le package affiche un long message comme par exemple le package mclust: 


R File Edit View Misc Packages Windows Help EE Xx 


> library("mclust") 


11 //\ / LME | /1/ version 5.4.2 
Type ‘'citation("mclust")'" for citing this R package in publications. 
> | 


vous pouvez utiliser la fonction suppressPackageStartupMessages( ): 


R File Edit View Misc Packages Windows Help E x 


> suppressPackageStartupMessages(library("mclust")) 
> | 


En passant, il faut savoir que l'utilisation de la fonction require(nom_package) à la place de 
library(nom_package) pour charger les packages fait la même chose à une différence près: 
c'est que require(nom_package) retourne une valeur booléenne invisible TRUE si le package 
a été retrouvé dans la bibliothèque sinon FALSE, ce qui nous permet de l'utiliser dans des 
scripts avec les structure conditionnelles if... else. 
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S1 le package a été téléchargé ou fourni au format *.tar.gz car votre employeur (typiquement: 
banque, assurance, gouvernement) a bloqué la connexion Internet, voici comment procéder: 


BR RGui (64-bit [R Console] — [] 


R File Edit View Misc Packages Windows Help Œ OX 


> install.packages("C: /tmp/RISONIO 0 -.2-3.tar.gz",repos=NULL, type="source}") 


Si on a besoin de réinstaller un vieux package pour des raisons de reproductibilité, on utiliser 
le package devtools qui contient la commande très utile install_version( ): 


GR File Edit View Misc Packages Windows Help Es x | 


| 
La] 

|, library (devtools) 

> install version("ggplot2", version = "0.9.1", repos = "http://cran.us.r-project.org") 

Downloading package from url: http://cran.us.r-project.org/src/contrib/Archive/ggplot2/ggplots 

Installing ggplot2 

"C:/PROGRA-1/R/R-34-1.3/bin/x64/R" --no-site-file --no-environ --no-save --no-restore --quiet$ 
Isoz/AppData/Local/Temp/RtmpM7iG4f/devtools1db070061e75/ggplot2" --library="C:/Users/Vincens 


* installing *source* package ‘"ggplot2' 
** package 'ggplot2' successfully unpacked and MDS5 sums checked 


|< > 


Pour charger plusieurs packages en même temps c'est très simple: 


R RGui (64-bit - [R Console] — O X 
KR File Edit View Misc Packages Windows Help -_ x 


> libraryiggplot2,ggplot) 
> | 


Pour décharger un package (ce qui est utile lors d'essais ou conflits de fonctions), sans 
redémarrer R, on utilisera la fonction detach( ): 
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{ GR File Edit View Misc Packages Windows Help RE À 


> detach("package:ggplot2",unload=TRUE) 
> | 


Ou pour décharger TOUS les packages chargés: 


R: 
R File Edit View Misc Packages Windows Help 


ÉSOBSCSIOIE 


> lapply(paste ('package:',names (sessionInfo()$otherPkgs),sep=""),detach,character.only=TRUE,unload=TRUE) 


[111] 
NULL 


>| 


CO 
Maintenant voyons comment utiliser la packageacman qui va permettre de vérifier si une 
série de packages est installée et dans le cas contraire les télécharger et les installer. D'abord 
nous installons le package comme indiqué précédemment, et ensuite nous pouvons le tester: 


8 File Edit View Misc Packages Windows Help 


> library(pacman) 
> p_load("rgeos","rgdal","raster","ggplot2","viridis","dplyr","gtable","grid") 
\> 


et comme nous pouvons le voir, tout se passe en arrière-plan et est transparent pour 
l'utilisateur final!!! Donc ce package est très intéressant pour des scripts développées en 
production! 


Changer le dossier d'installation par défaut des packages 


Il se peut en entreprise que le département IT vous fasse changer d'ordinateur (logique...) ou 
migrent de nouvelles versions de l'OS. Dès lors, vous n'allez probablement pas vouloir 
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réinstaller tous les packages. Pour déterminer où ils sont installés, vous pouvez utiliser la 
commande JibPaths( ): 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


ET 


> .libPaths() 
[1] "C:/Users/lsoz Vincent/Documents/R/win-library/3.0" "C:/Program Files/R/R-3.0.2/library" 
> | 


Le premier dossier est le dossier où R vous avait demandé où installer le premier package (du 
moins si vous en avez déjà installé un...) et le deuxième est le dossier des packages par défaut 
de R (il y en a une trentaine qui sont déjà installés comme vous pourrez le vérifier en vous y 
rendant). 


Pour changer le dossier par défaut d'installation d'abord déterminez votre dossier de travail 
par défaut en faisant typiquement la commande getwd{ ): 


À RGui (64-bit) - [R Console 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


_- 


> getwdi) 
[i] "C:/Users/1lsoz Vincent/Documents" 
> | 


Une fois ceci fait, dans ce dossier créez le fichier .Rprofile avec le dossier par défaut désiré 
pour les packages: 


Fichier Edition Format Affichage 
.libPaths ("Ci /tmp") 


et après avoir fermé et rouvert R vous aurez bien: 
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R Fichier Edition Voir Misc Packages Fenêtres Aide 


ET 


> .libPaths) 


[1] "C:/tmp" "C:/Program Files/R/R-3.0.2/library" 


bingo! C'est très pratique lorsque l'on a plusieurs dossiers avec des packages (personnels, de 
notoriété publique ou simplement validés par le CRAN). 
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Désinstaller un package 


Pour désinstaller un package, soit on va simplement dans le dossier des packages pour le 
supprimer: 


LE oO 
File Home Share View @ 
# = X cut x =| D F) New item + F) FR select all 
: WE Copy path 5 À] Easy access - “| Select none 
Ron Cop Paste fl Pacte chorteut < e ce Le Rename Re RAGE Bison æ Meteo 
Clipboard Organize New Open Select 
Me 
Cm v A D > ThisPC > Documents > R > win-library > 3.4 v À Search 34 AP 
a Name Date modified Type Size Le} 
x Quick access 
O0LOCK-BH 2017-08-25 19:50. File foldi 
m Desktop # D ile folder 
D abind 2017-07-01 01:04. File folder 
Downloads # 3 
D abrem 2015-12-2204:55.. File folder 
PA Docmments À abremPivotals 2015-12-22 04:55 File folder 
7 Pictures x D AcceptanceSampling 2017-07-01 01:04 File folder 
Æ Videos # D acepack 2017-07-01 01:04 File folder 
SORA RE : 
8 Dropbox . acs 2017-10-1513:37.… File folder 
actuar 2017-07-01 01:04 File folder 
d& _ALPHORM : 
D addlist 2015-12-2204:55.… File folder 
da Chargements appareil | . : 
D ade4 2017-08-1321:54 File folder 
& Entreprise 2 adehabitat 2017-07-01 01:04... File folder 
p À 
@® Public D adehabitatlT 2017-07-01 01:04... File folder 
à OneDrive À adehabitatMA File folder Û 
nm L 
L'EUCL S se ES 
715 items 
soit on utilise la commande remove.packages( ): 
R RGui (64-bit) - [R Console — O 
R Fichier Edition Voir Misc Packages Fenêtres Aide | lon 


> remove.packages ("ggplot2") 

Elimination du package de ‘C:/Users/Vincent Isoz/Documents/R/win-library/3.4' 
(car ‘lib’ n'est pas spécifié) 

> #ou 

> Moses (remove.packages ("dplyr")) 

> 
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Obtenir les versions des packages et dépendances 


Lorsque vous publiez un article scientifique, outre le fait de devoir mentionner la version 
détaillée du logiciel, 11 vous faudra également détailler la version détaillée du package utilisé. 


Pour obtenir une liste détaillée sur les packages installés voici une solution simple (nous 
avons limité le retour des informations à 5 colonnes mais n'hésitez pas à découvrir par vous 
même ce qu'il y au-delà) utilisant la commande installed.packages( ): 


KR RGui (64-bit} - [R Co 
| R Fichier Edition Voir Misc Packages Fenêtres Aide 


> installed.packages()[,1:5] 
Package LibPath Version Priority 

colorspace "colorspace" "C:/Video2Brain/Packages" Flre=#4" Ni 

dichromat "dichromat" "C:/Video2Brain/Packages" F2.0-0" Ni 

digest "digest" "C:/Video2Brain/Packages" F0,6.4" Ni 

emoa "emoa" "C:/Video2Brain/Packages" "0.5-0" NA 

foreign "foreign" "C:/Video2Brain/Packages" "0.8-57" "recommended" 
ggplotz2 "ggplot2" "C:/Video2Brain/Packages" #g.9,:3.1%. NE 

gtable "gtable" "C:/Video2Brain/Packages" *g-1:2° Ni 

labeling "labeling" "C:/VideoZBrain/Packages" "0.2" Ni 

lattice "lattice" "C:/Video2Brain/Packages" "0.20-24" "recommended" 
manipulate "manipulate" "C:/Video2Brain/Packages" "0.98.490" NA 

Matrix "Matrix" "C:/Video2Brain/Packages" rl.1-07 "recommended" 
mage mage" "C:/Video2Brain/Packages" w1.7-27" "recommended" 
munsell "munsell" "C:/Video2Brain/Packages" "0.,4,2" Ni 

nlrne "nlre" "C:/Video2Brain/Packages" "3.1-113" "recommended" 
plyr rplyr" "C:/Video2Brain/Packages" ml Or Ni 

proto rproto" "C:/VideoZBrain/Packages" "0.3-10" Ni 
RColorBrewer "RColorBrewer" "C:/VideoZ2Brain/Packages" Fri.:0-5" Ni 

reshape2 “"reshape2" "C:/Video2Brain/Packages" v1,2,:2" Ni 


« 


Et pour obtenir la liste des packages chargés dans la session R en cours on utiliser la 
commande non-triviale (.packages()): 


| QR RGui (64-bit) - [R Console] — 


 R File Edit View Misc Packages Windows Help = (EN 
ÉROISOSIOIE 


| > (.packages()) 


| [1] "stats" "graphics" “"grDevices" "utils" "datasets" 
| [6] "methods" "base" 
ea 
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Vérifier si les packages sont à jour 


Pour vérifier si les packages sont à jour, nous utiliserons la commande old.packages( ): 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> old.packages() 

Package LibPath Installed Built ReposVer 
Matrix "Matrix" "C:/Video2Brain/Packages" "1.1-0" 3,0: "1i.1i-1.i" 
foreign "foreign" "C:/Program Files/R/R-3.0.2/library" "O0.8-55" "3,0. "0.8-57" 
lattice "lattice" "C:/Program Files/R/R-3. 


0.2/l1ibrary" "0.20-23" "3.0. "0.20-24" 
Matrix "Matrix" "C:/Program Files/R/R-3.0.2/library" "1.0-14" "3.0. si-1, 1" 
mMayCv rrmgev" "C:/Program Files/R/R-3.0.2/library" "1.7-26" "3.0. .7-27" 
nlme "nlme" "C:/Program Files/R/R-3.0.2/library" "3.1-111" "3.0. .1-113" 
rpart "rpart" "C:/Program Files/R/R-3.0.2/library" "4.1-3" "340: .i-4" 

Repository 

Matrix "http://cran.rstudio.com/bin/windows/contrib/3.0" 
foreign "http://cran.rstudio.com/bin/windows/contrib/3.0" 
lattice "http://cran.rstudio.com/bin/windows/contrib/3.0" 
Matrix "http://cran.rstudio.com/bin/windows/contrib/3.0" 
MAC "http://cran.rstudio.com/bin/windows/contrib/3.0" 
nlme rhttp://cran.rstudio.com/bin/windows/contrib/3.0" 
“a "http://cran.rstudio.com/bin/windows/contrib/3.0" 
> 


Il y a aussi la commande packageStatus( ) qui donne un résumé intéressant de l'état des 
choses: 


R File Edit View Misc Packages Windows Help 8) 1xX 


BE 


> packageStatus() 
Number of installed packages: 


ok upgrade unavailable 
C:/Users/Vincent Isoz/Documents/R/win-library/3.4 725 7 45 
C:/Program Files/R/R-3.4.2/library 24 2 1 


Number of available packages (each package counted only once): 
installed not installed 


http://cran.cnr.berkeley.edu/src/contrib 732 11174 
> | 


Pour vérifier la version d'un package on utilisera la commande packageVersion( ): 
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R RGui (64-bit) - [R Console] en 


R File Edit View Misc Packages Windows Help = te 'R 


> packageVersion("TwitteR") 


[1] ‘1.1.9’ 


ou on peut obtenir la version aussi dans la fonction citation( ) du package: 


UR RGui (64-bit) - [R Console] — 


| File Edit View Misc Packages Windows Help 5x 


> citation("nlme") 


Pinheiro J, Bates D, DebRoy 5, Sarkar D and R Core Team (2017). _nlme: 
Linear and Nonlinear Mixed Effects Models . R package version 3.1-131, 
| <URL: https://CRAN.R-project.org/package=nlme>. 


| À BibTeX entry for LaTeX users is 


€Manual{, 
title = {{nlme}: Linear and Nonlinear Mixed Effects Models}, 
author = {Jose Pinheiro and Douglas Bates and Saikat DebRoy and Deepayan Sarkar and {R Core Team}}, 
year = {2017}, 
note = {R package version 3.1-131}, 
url = {https://CRAN.R-project.org/package=nlme}, 


Ou encore avec la fonction packageDescription( ): 
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R RGui (64-b R Console] 
| File Edit View Misc Packages Windows Help 


EEE 


> packageDescription("ggplot2") 

Package: ggplot2 

Version: 2.2. 

|Title: Create Elegant Data Visualisations Using the Grammar of Graphics 

| Description: À system for 'declaratively' creating graphics, based on "The Grammar of Graphics". You provide 

| the data, tell 'ggplot2' how to map variables to aesthetics, what graphical primitives to use, and 

| it takes care of the details. 

| Authors@R: c( person("Hadley", "Wickham", , "hadley@rstudio.com", c("aut", "cre")), person("Winston", "Chang", 
, “winston@rstudio.com", "aut"), person("RStudio", role = c("cph")) }) 

Depends: R (>= 3.1) 

Imports: digest, grid, gtable (>= 0.1.1), MASS, plyr (>= 1.7.1), reshape2, scales (>= 0.4.1), stats, tibble, 
lazyeval 

Suggests: covr, ggplot?movies, hexbin, Hmisc, lattice, mapproj, maps, maptools, mgcv, multcomp, nlme, testthat 

| (= 0.11.0), quantreg, knitr, rpart, rmarkdown, svglite 

Enhances: sp 

License: GPL-2 | file LICENSE 

URL: http://ggplot2.tidyverse.org, https://github.com/tidyverse/ggplot2 

BugReports: https://github.com/tidyverse/ggplot?/issues 

LazyData: true 

|Collate: 'ggproto.r' "aaa-.r' 'aes-calculated.r' 'aes-colour-fill-alpha.r' '"aes-group-order.r' ..... 

VignetteBuilder: knitr 

RoxygenNote: 5.0.1.9000 

| NeedsCompilation: no 

Packaged: 2016-12-30 17:10:52 UTC; hadley 

| Author: Hadley Wickham [aut, cre], Winston Chang [aut], RStudio [cph] 

|Maintainer: Hadley Wickham <hadley@rstudio.com> 

| Repository: CRAN 

| Date/Publication: 2016-12-30 22:45:17 

|Built: R 3.4.2; ; 2017-10-16 02:51:14 UTC; windows 


|-- File: C:/Users/Vincent Isoz/Documents/R/win-library/3.4/ggplot2/Meta/package.rds 
>| 


Et pour mettre à jour rapidement plutôt que de passer par le menu nous utiliserons la 
commande update.packages( ): 


R Fichier Edition Voir Misc Packages Fenétres Aide 


> update.packages (| | 


Et si nous voulons que R ne demande pas quels packages à installer: 
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8 File Edit View Misc Packages Windows Help 5 x 


> update.packages(checkBuilt=TRUE, ask=FALSE) | 


Attention!!! Cette commande est très utile lorsque l'on veut utiliser l'automatisation de la 
mise à jour de script dans des packages vendus en tant que société de service! 


Il n'existe pas à ce jour de commande pour mettre à jour un seul et unique package à notre 
connaissance. Il faut simplement le réinstaller avec la commande install.packages( ). 
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Sciences.ch 


Liste des packages utilisés dans ce support 


Pour ne pas vous casser la tête vous pouvez déjà installer les packages suivants (d'autres 
packages connexes s'installeront par nécessité que nous n'avons pas listé ci-dessous. 1l y en 
aurait sinon un peu plus de 1530 à lister. et si les installer 1 par 1 vous pose problème vous 
pouvez les télécharger — et donc les installer — en un seul coup en téléchargeant le fichier *.zip 


suivant http://www.sciences.ch/R_Packages.zip de 2.53 GB....): 


1. AcceptanceS amp 49. e1071 90, Hmisc 

ling 50. earth 100. HSAUR 
2: ade4 51. ellipse 101. ineq 
3. ADGofTest 52. emmeans 102. installr 
4. Akima 53. Epi 103. ir 
2: alr3 54. epiR 104. itunesr 
6. aplpack 95: effects 105. jrvFinance 
% animation 56. equatiomatic 106. Kendall 
8. aqfig 57. exactmeta 107. KernSmooth 
9. basetheme 58. factoMineR 108. LaF 
10. Benchmarking 59. facoextra 109. lattice 
11. bio3d 60. fastICA 110. latticeExtra 
12. bnlean 61. ff 111. lawstat 
13. boot 62. fGarch 112. leaflet 
14. broom 63. fields 113. leaps 
15. bupaR 64. FinancialMath 114. lifecontingencies 
16. CS0 65. fImport 115. likert 
17. car 66. fitdistrplus 116. linnprog 
18. caret 67. forecast 117. Ihs 
19. catools 68. foreign 118. Imtest 
20. cartography 69. tion 119. Ismeans 
21. CHAID 70. fpc 120. lubridate 
22. changepoint 71. fPortfolio 121. mailR 
23. chron 72. fpp 122. maps 
24. circlize 73. FrP2 123. maptools 
25. class 74. FuzzyR 124. markovchain 
26. classInt 15: genderizeR 125. MASS 
27. climatol 76. ggbiplot 126. Matrix 
28. cluster 77. ggbump 127. Mblm 
29. coin 78. ggdendro 128. mekko 
30. compiler 79. ggforce 129. memoise 
31. ConvergenceCon 80. SgJoY 130. MethComp 

cepts 81. ggmap 131. mice 
32. Copula 82. ggOceanMaps 132. Migest 
33. dabestr 83. ggparliament 133. MLmetrics 
34. data.frame 84. ggplot2 134. modeest 
35: data.tree 85. ggtree 135: modeltime 
36. deepdep 86. ggvoronoi 136. moments 
37. dendextend 87. gmodels 137. mratios 
38. DescTools 88. GPArotation 138. ncdf4 
39. devtools 89. Gplots 139. neuralnet 
40. dggridR 90. ggpubr 140. NMOF 
41. diagram 91. grid 141. nnet 
42. DiagTest3Grp 92. gridExtra 142. nortest 
43. distr 93. gtools 143. numDeriv 
44. distrEx 94. gtrendsR 144. OpenlmageR 
45. dplyr 95. GUIDE 145. outliers 
46. doBy 96. hexabin 146. pacman 
47. docxtractr 97. HH 147. pastecs 
48. DoE.base 98. hht 148. patchwork 
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149. performance 186. ResourceSelectio 223. SuppDists 

150. PerformanceAnal n 224. Survival 
ytics 187. reshape2 225. tcltk2 

151. permuco 188. RExcel 226. TeachingDemos 

152. pheatmap 189. rgdal 221. Tesseract 

153. phytools 190. rgdl 228. textcat 

154. plot3D 191. rgeos 229. tidymodels 

155. plotKML 192. rgl 230. tidyverse 

156. plot_ly 193. Rgraphviz 231. üdyxl 

157. PlotPrjNetworks 194. RiskPortfolios 232. timeDate 

158. plotrix 195. R.matlab 233. timetk 

159. plyr 196. rms 234. timevis 

160. pmr 197. RODBC 235. tm 

161. png 198. rootSolve 236. tinytex 

162. Portfolio 199. rpart 237. topogRam 

163. pracma 200. Rpdb 238. treemap 

164. pROC 201. RoughSets 239. tseries 

165. processmapR 202. rjson 240. TSP 

166. profr 203. RSwissMaps 241. twilio 

167. prob 204. RQuantLib 242. tuber 

168. propagate 205. RWeka 243. tuneR 

169. psych 206. rworldmap 244. twitteR 

170. phonTools 207. sampling 245. urca 

171. pwr 208. scales 246. unpivotr 

172. qa 209. scatterplot3d 247. usingR 

173. qce 210. SCperf 248. vasicekreg 

174. qdap 211. seewave 249. vcd 

175. qqplotr 212. sensitivity 250. vegan 

176. quantmod 213. sentiment 251. vioplot 

177. quantreg 214. seqinr 252. waffle 

178. qualityTools 215. SigA 253. waterfall 

179. queueing 216. si 254. wordcloud 

180. randtoolbox 217. smovie 255: xesreadR 

181. rattle 218. SnowballC 256. XLConnect 

182. rbenchmark 219. Sp 257. XML 

183. Remdr 220. spatstat 258. xtable 

184. RColorBrewer 221. sqldf 

185. readr 222. SuperLearner 
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Contacter la personne maintenant un package 
Certes on peut avoir cette information directement dans le PDF du package ou sur la page 
web du package. Mais quand on développe des applications R, cela peut être utile pour 


automatisr le rapport de bugs. 


Pour cela il suffit d'utiliser la fonction maiïintainer( ): 


R File Edit View Misc Packages Windows Help 


> maintainer ("ggplot2") 

[1] "“Hadley Wickham <hadley@rstudio.com>" 

> maintainer ("Hmisc") 

[1] “Frank E Harrell Jr <f.harrell@vanderbilt.edu>" 
> maintainer ("dplyr") 

[1] "“Hadley Wickham <hadley@rstudio.com>" 

> maintainer ("mice") 

[1] "Stef van Buuren <stef.vanbuuren@tno.nl>" 
> maintainer ("data.table") 

) "Matt Dowle <mattjdowle@gmail.com>" 

> 


Déplacer les packages vers un autre ordinateur 
CO 

ne : d TT e 

Le but ici (fréquent pour les enseignants et entre élèves) est de pouvoir rapidement réinstaller 

tous les packages d'un ordinateur sur un autre (vous pouvez utiliser le format *.RData au lieu 


de l'ancien *.rda si vous le voulez!): 


8 File Edit View Misc Packages Windows Help Æ 


|> tmp = installed.packages() 
|> installedpackages = as.vector (tmp{is.na(tmp{,"Priority"]), 1]) 
|> save(installedpackages, file="c:/tmp/installed packages.rda") 


» | 


Ensuite sur l'autre ordinateur, on charge le fichier correspondant et on installe selon les 
commandes suivantes: 
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| GR RGui (64-bit) - [R Console] — O 
Help EX 


| File Edit View Misc Packages Windows 


EBOISECBIOIE 


> load("c:/tmp/installed packages.rda") 
> install.packages (installedpackages)| 
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Consulter la popularité des packages 


Pour consulter la popularité des packages dans un temps relativement proche c'est assez 


simple en utilisant la fonction cran_top_downlaods( ) du package cranlogs: 


R RGui {64-biti - [R Console] 
R File Edit View Misc Packages Windows Help 


> libraryicranlogs) 
> cran top downloads (when="last-day",count = 10) 


rank package count from to 
1 1 Repp 9059 2015-12-09 2015-12-09 
2 2 ggpliot2 73686 2015-12-09 2015-12-09 
3 3 stringi ‘7170 2015-12-09 2015-12-09 
4 4 stringr 6545 2015-12-09 2015-12-09 
5 5 plyr 6517 2015-12-09 2015-12-09 
6 6 magrittr 6160 2015-12-09 2015-12-09 
7 7 digest 5912 2015-12-09 2015-12-09 
8 8 reshape2 5806 2015-12-09 2015-12-09 
9 9 scales 5789 2015-12-09 2015-12-09 
10 10 RColorBrewer 5536 2015-12-09 2015-12-09 
> cran top downloads (when="last-month",count = 10) 
rank package count from to 
1 1 zoo 307885 2015-11-10 2015-12-09 
2 2 forecast 263645 2015-11-10 2015-12-09 
3 3 Rcpp 261099 2015-11-10 2015-12-09 
4 4 lmtest 258777 2015-11-10 2015-12-09 
5 5 fpp 244945 2015-11-10 2015-12-09 
6 6 expsmooth 244135 2015-11-10 2015-12-09 
Te 7 fma 243506 2015-11-10 2015-12-09 
8 8 tseries 243115 2015-11-10 2015-12-09 
9 9 stringi 197614 2015-11-10 2015-12-09 
10 10 ggplot2 191470 2015-11-10 2015-12-09 


vV 
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Consulter la liste des fonctions d'un package et les compter 


Pour ceux qui sont intéressés à savoir combien de fonctions contient un package dans sa 
totalité, ou en faisant une boucle, de savoir combien de fonctions tous les packages installés 


sur leur ordinateur contiennent, voici comment procéder en utilisant la fonction native 
Isf.str( ): 


R RGuï (64-bit) - [R Console] r 5 


R File Edit View Misc Packages Windows Help E x 


*un package d'exemple qu'on précharge 
library("SCperf") 

fon liste les fonctions 
1sf.str("package:SCper£f") 

bullwhip : function (method = c("MMSE", "SMA", "ES"), phi, L, p, alpha) | 
EOQ : function (d, k, h, b = 0) 

EPQ : function (d, p, k, h, b = 0) 

Newsboy : function (m, sd, p, €, s = Ü) 

ROP : function (SL, md, sd, L = 1) 

| SCperf : function (phi, theta, L = L, SL = 0.95) 

SS : function (SL, sd, L = 1) 

| SSL : function (method = c("MMSE", "SMA", "ES"), phi, L, p, alpha, SL) 
WW : function (x, a, h, method = c("“backward", "“forward")) 

| > length(lsf.str("package:SCperf")) 

119 

x 


VVV NV 


OU: 


R File Edit View Misc Packages Windows Help 1% 


> library("SCperf") 
> 1ls("package:SCperf") 


[1] "“bullwhip" "EOQO" "EPO" "Newsboy"  "ROP" "SCper£" "55* 
[8] "SSL" "RW" 
>| 
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Sauvegarder toutes les packages sources du CRAN 


Nous avons vu plus haut comment déterminer le nombre total de packages disponibles sur le 
CRAN. Comme vous le savez peut-être déjà, ce qui fait de R un outil précieux pour la 
communauté scientifique, c'est que le code source de la grande majorité des ces packages est 
accessible et utilisable gratuitement (sous les conditions habituelles de citer l'auteur qui est à 
l'origine du code qu'on aura réutilisé). 


Cependant, une crainte majeure, c'est de ne plus avoir accès à ces sources. Donc si vous êtes 
comme quoi et que vous souhaitez télécharger les sources (compressées en *.tar.gz) des plus 
de 10'000 packages du serveur CRAN, voici le code qu'il vous faut qui utilise le package 
rvest et ses fonctions read_htmIl( ) et html_nodes( ) pour "webscrapper" la page web du 
CRAN contenant un tableau de la liste de tous les packages disponibles: 


R File Edit View Misc Packages Windows Help 
ÉBSOISESIEIE 


> library(rvest) 

Loading required package: xml2 

pkgs <- read html("https://cran.r-project.org/web/packages/available packages by name.html") 
tab <- html nodes(pkgs, "table") %>% html table(fill = TRUE) 


V 


pkgnames <- tab[[1]][1]S$X1 
pkgnames <- pkgnames [nchar (pkgnames) >0] 


VVUVVV 


> sapply(pkgnames, download.packages, destdir="c:/tmp/packages backup/") 
—-- Please select a CRAN mirror for use in this session --- 

trying URL 'https://cloud.r-project.org/src/contrib/A3 1.0.0.tar.gz' 
Content type 'application/x-gzip' length 42810 bytes (41 KB) 

downloaded 41 KB 


Attention... prévoyez quelques dizaines de GB de libre sur votre ordinateur! 
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Analyser les dépendences des packages 


Il existe un formidable package avec un grand potentiel. Il se nomme deepdep et sa 
documentation (vignette) est disponible ici: 


https://dominikrafacz.github.io/deepdep/ 


Voyons un exemple avec le package ggplots comme dans la vignette: 


FE 


Œ R Console ONE 
> library (deepdep) 
> dd <- deepdep("ggplot2", depth = 2) 
> head(dd) 
origin name version type origin level dest level 
1 ggplot2 digest <NA> Imports (e) x | 
2 ggplot2 glue <NA> Imports 0 1 
3 ggplot2 gtable >= 0.1.1 Imports 0 1 
4 ggplot2 isoband <NA> Imports 0 1 
5 ggplot2 MASS <NA> Imports 0 1 
6 ggplot2 mgcv <NA> Imports 0 1 
> plot_ dependencies (dd, "circular") 
> plot_ dependencies (dd, “cireular") 
> | 
QR R Graphics: Device 2 (ACTIVE RER ES 


Plot made with deepdep v0.2.1 on 2020-06-28 11:58:36 
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On peut plotter les téléchargements aussi: 


MR Console 


> plot downloads (dd) 
‘geom smooth ()" using method = 'loess' and formula "y - x' 


> | 


QU À Graphics: Device 2 (ACTIVE) 


Daily downloads for dependencies of the ggplot2 package 


150,000 


w 
D 
œ 
© 
: 
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Jul 2019 
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Oct 2019 


cli 
crayon 
digest 
ellipsis 
fansi 
farver 


ggplot2 
glue 
gtable 
isoband 
labeling 
lifecycle 


Jan 2020 
date 


magrittr 
MASS 
Matrix 
mgcv 
munsell 
nime 


Apr 2020 


pillar 
pkgconfig 

R6 
RColorBrewer 
lang 

scales 


Sciences.ch 


DES 


tibble 
vctrs 
viridisLite 
withr 


Jul 2020 
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Quelques data sets 


Voici un exemple data set pour se faire la main: 


à RGui (64-br r Console 
1 Fichier Edition Voir Misc Packages Fenêtres Aide 


> mtears 

drat ut qsec vs am gear carb 
Mazda RX4 3.90 2.620 16.46 O0 4 
Mazda RX4 Wag . 3.90 2.875 17.02 
Datsun 710 : 3.05 2.320 18.61 
Hornet 4 Drive , 3.08 3.215 19.44 
Hornet Sportabout È 3.15 3.440 17.02 
Valiant : 2.76 3.460 20.22 
Duster 360 3.21 3.570 15.84 
Merc 240D 3.69 3.190 20.00 
Merc 230 3.92 3.150 22.90 
Merc 260 3.92 3.440 16.30 
Merc 280C 3.92 3.440 18.90 
Merc 450$E . 3.07 4.070 17.40 
Merc 4505L : 307 931930. 17.600 
Merc 450SLC : 3.07 3.760 168.00 
Cadillac Fleetwood , 2.93 5.250 17.98 
Lincoln Continental : 3.00 5.424 17.82 
Chrysler Imperial s J:23 5:9345 17.42 
Fiat 128 66 4.08 2.200 19.47 
Honda Civic 52 4.93 1.615 18.52 
Toyota Corolla 65 4.22 1.835 19.90 
Toyota Corona 97 3.70 2.465 20.01 
Dodge Challenger 150 2:76 3.520 16.687 
ANC Javelin . 150 3.15 3.435 17.30 
Cakaro 228 . 245 3.73 3.840 15.41 


H 


O0OOHhHRHhROOO0OOCOC0OHMRHRHROHOMR OO 
O0O000HHhHOOCOO0O0O000000000hHHR 
Co Co Co Co ,p Bb BR Co Co Co Co Co Co ,b ,b Bb B Co Co Co Co ,b Bb 
& NON H hi NN BB 2 © © © ,b 5 N D BB H N Hi bb 


4 


mais en réalité pour voir tous les data set de tous les packages, vous pouvez utiliser la 
commande data(package = .packages(allavailable = TRUE)): 
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Edition Fenêtres 


R R Console 


> data(package = 


.packages(all.available = TRUE) j| 


Data sets in package ‘hoot’: 


ace 
aids 
aircondit 
aircondit7 
amis 

anl 

beaver 
bigcity 
brambles 
breslow 
calcium 
cane 
capability 
catsM 

cav 

ca4 
cd4.nested 
channing 
city 
claridge 
cloth 
co.transfer 
coal 


« 


Monthly Excess Returns 

Delay in AIDS Reporting in England and Wales 
Failures of Air-conditioning Equipment 
Failures of Air-conditioning Equipment 
Car Speeding and Warning Signs 
Remission Times for cute Myelogenous Leukaemia 
Beaver Body Temperature Data 
Population of U.5. Cities 

Spatial Location of Bramble Canes 
Smoking Deaths äimong Doctors 

Calcium Uptake Data 

Sugar-cane Disease Data 

Simulated Manufacturing Process Data 
Weight Data for Domestic Cats 

Position of Muscle Caveolae 

CD4 Counts for HIV-Positive Patients 
Nested Bootstrap of cd4 data 

Channing House Data 

Population of U.5. Cities 

Genetic Links to Left-handedness 
Number of Flaws in Cloth 

Carbon Monoxide Transfer 

Dates of Coal Mining Disasters 


FR RGui (64-bit) 


Mais alors pourquoi est-ce que je vais majoritairement utiliser mes propres sets de données 
par la suite vous demandez-vous peut-être??? 


Simplement parce que mes formations Excel, Minitab, SPSS, Tanagra et R ont pour objectif 
d'être homogènes. voilà simplement l'explication. 


Cependant dans la majorité des cas nous enlèverons les accents et les espaces de la ligne de 
titre (légende des colonnes) car cela pose problème à R (puisque non conforme aux normes) et 
que cela nous ferait perdre du temps de les renommer avec les commandes de R (le temps 
étant précieux en formation continue...). 


Signalons également la possibilité de se connecter à d'excellents dépôts de données. Comme 
par exemple à l'adresse suivante: 


http://datamarket.com/data/list/?q=provider:tsdl 


Ce qui vous amènera sur la page suivante: 
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x Time Series Data Librar.… X 


€ - À 0 Æ | @Web | datamarket.com/data/list * | [Fi - Rechercher avec Google 


DataMarket ue ATOS Log in or sign up (for free) 


Upload data Plans & pricing About 


Time Series Data Library 


The Time Series Data Library was created by Rob Hyndman, Professor of Statistics at Monash University, Australia. 


Search 


earching for gdp spain, birth rates, gold, or explore our data collection 


Results narrowed by: You are looking at data from: 


x Time Series Data Library ; 
Time Series Data Library 
= The Time Series Data Library was created by Rob Hyndman, Professor of Statistics at 
Categories: Monash University, Australia. 
Finance 


Computing Search results: 563 


es Monthly total number of pigs slaughtered in Victoria. Jan 1980 — 
Transport and tourism 3 August 1 ‘ 

Tree-rings Monthly time series (Jan 1980-Aug 1995). Itwas last modified on 1 Feb 2014 at 19:52 
Micro-Economic 22 Categorized as Agriculture. 


DO + @ Mise à jour disponible 2 =, 


tt Annual number of lynx... X 


+ ca @ Web | datamarket.com/data/set/22vj/annual-number-of-lynx-trapped-mackenzie- #% | | + Rechercher avec Google 


DataMarket apres PTE Log in or sign up (for free) 


Upload data Plans & pricing About 


SRE BÉSEUR ER Annual number of lynx trapped, MacKenzie River, 1821-1934 


Share Units: Count 


Share via social media: 


URL Short U 
€ Facebo 
W Twitter Get a short URL you can use to link to this dataset 


Topic pages 


Exports 


Download data Download chart 
À 


Q 


Embed on my blog or website 


1840 1860 


+ £nnual number of lynx trapped, MacKenzie River, 1821-1934 


OÙ æ @ http//datamarket.com/data/set/22vj/annual-number-of-lynx-trapped-mackenzie-river- 1821-1934 Mise à jour disponible 


et ensuite en cliquant sur Short URL, vous obtiendrez le lien direct d'accès à la source de 
données: 
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Xt Annual number of lynx... X 


<< - D O7 @Web | datamarket.com/data/set/22vj/annual-number-of-lynx-trapped-mackenzie- % | | + Rechercher avec Google 


Short URL 


Select and copy this short link: 


Mise à jour disponible 


FR Fichier Edition Voir Misc Packages Fenêtres Aide 


install.packages ("rdatamarket") 
Installing package into ‘C:/Users/Is Vincent/Documents/R/win-library 
“lib” is u cified) 
i de l'URL 'http cran.rstudio.com/bin/windows/contrib/3. 1/rdatamarket 0 «6 
itent type 'application/zip' length 467 bytes { Kb) 
URL ouverte 
downloaded 37 Kb 


‘rdatamarket’ a ét : t les sommes MDS ont été 


1C 
ataiLocaliTemp\RtmpKôéw2IN\ downloaded packag 


R 


suivants sont masqu O ‘package:hase’: 


-Numer1c 


et ensuite: 
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KR Fichier Edition Voir Misc Packages Fenêtres Aide 


> library(rdatamarket) 
> deaths <- dmseries("http://data.is/Ky69xY") 
> deaths 
Annual.number.of.lynx.trapped..MacKenzie.River..1521.1934 
1521 269 
1822 321 
1523 585 
1524 871 
1525 1475 
1526 2821 
1527 3928 
1528 5943 
1829 4950 
1530 2577 
1531 523 
1532 95 
1533 154 
1534 279 
1535 409 
15836 2285 
1837 2685 
1538 3409 
1539 1524 


4 


et voilà! 
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Contrôler la mémoire 


Lorsque vous travaillez sur des jeux de données énormes, il va vous falloir maîtriser la 
mémoire que R utilise. Nous verrons plus tard quand nous manipulerons des variables 
scalaires, vectorielles, matricielles ou autres comment supprimer celles-ci de la mémoire mais 
ici nous nous intéressons vraiment à un cas plus général. 


D'abord deux infos: 


e KR 32 bits est limité 4GB (en pratique c'est plutôt 3GB car l'OS a besoin de 


fonctionner) 


e R 64 bits est limité à 128TB sous LINUX (en pratique il faut trouver de la place pour 
mettre tout cela...) et 8TB sous Microsoft Windows... 


Pour étendre la mémoire disponible à R ou la limiter, vous allez simplement dans les 
propriétés du raccourci de R pour rajouter en Mb la taille désirée: 


Général! Raccourci 


re R «64 3.0.2 


Type de cible : 
Emplacement : 


Cible : 


Démarrer dans : 


Touche de 
raccourci : 


Exécuter : 


Commentaire : 


&pplication 


Compatibilité | Sécurité | Détaits| 


#64 
1 0.2\bin\x64\Rqui.exe" --max-mem-size=3500M 


"C:\Users\soz Vincent\Documents" 


Aucun 


| Fenêtre normale Le | 


Emplacement du fichier | | Changer d'icône.. || hyancé... ] 


Vous pourrez alors contrôler après l'ouverture de R: 
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R Fichier Edition Voir Misc Packages Fenêtres 


> memory.limit{) 


[1] 3500 


> | 


Ensuite, on peut faire un état des lieux avec la commande du garbage collector qui au passage 
détruit les objets inutiles dans la mémoire ge ): 


Gui (64-bit - [R 
R Fichier Edition Voir Misc Packages Fenétres Aide 


> ge) 


used (Mb) ge trigger (Mb) max used (Mb) 
Ncells 183077 9.8 407500 21.8 350000 18.7 
Vcells 278241 2.2 786432 6.0 786387 6.0 
> | 


ou en comparant avec la fonction mem_used( ) du package pryr: 


R RGui (64-bit) - [F nsolel _ 
R File Edit View Misc Packages Windows Help - 5x 


> library("pryr") 
> mem used\() 
30.5 MB 


> gc() 

used (Mb) gc trigger (Mb) max used (Mb) 
Ncells 432875 23. 750400 40.1 592000 31.7 
ES 809312 6. 2689394 20.6 3022359 23.1 
> 


Là 1) 


Sinon on peut aussi changer la mémoire allouée à la volée directement dans R plutôt qu'à 
l'ouverture (cependant cela n'est pas toujours permis par le système!): 
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RGu (64 bit - IRC 


R Fichier Edition Voir Misc Packages Fenétres Aide 


> memory.limit (size=3600) 
[1] 3600 


> memory.limit{() 
[1] 3600 
> | 


Gérer les variables dans la mémoire 


Pas grand chose à dire car c'est assez simple. Il suffit de lire pour comprendre comment 
utiliser les options de base des commandes Is() et rm() et supprimer ou lister les objets en 
mémoire: 


UT RGui (64-bit) - [RC 
R Fichier Edition Voir Misc Packages Fenêtres Aide 


> 2*9 # le résultat n'est pas stocké comme nous le savons... 
[1] 18 

> resultat<-2*9 #ce résultat est stocké comme nous le savons... 
> resultat #effectivement 

[1] 18 

> 1si) #nous listons les objets en mémoire 

[1] "resultat" "x 

> rmix) #nous effacons l'objet x 

> 1s() 

[1] "resultat" 

> rmilist=1ls()) #nous effacons tout 

> 1s() 

character (0) 

> | 


« 


Avec la fonction object.size( ) nous pouvons aussi obtenir la taille mémoire d'une variable: 
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R RGuï (64-bit) - [R Console] — O * 


KR File Edit View Misc Packages Windows Help F5 x 


> resultat<-2*9 

> object.size ("resultat") 
104 bytes 

> | 


À remarquer que nous pouvons obtenir une vision plus structurée des variables créées à l'aide 
de la commande Is.str( ) : 


KR RGui (64-bit) - [R Console] ] 


R "ie Edit View Misc Packages Windows Help 


> texte<-"Hello" 

> resultat<-2*9 

> ls.str({() 

a : nums 

b : num 10 

resultat : num 18 
ST : chr "Hello" 
> 


Nous pouvons aussi voir la taille d'un objet ou de plusieurs dans la mémoire: 
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[R Fichier Edition Voir Misc Packages Fenêtres Aide 


> a<-2 

> b<-3 

> object.size(a) #info par objet 

45 bytes 

> sorti sapply(ls(),function(x){object.size(geti{x))})) #pour tous les objets 


showMemoryUse <- function(sort="size", decreasing=FALSE, limit) { 


chjectList <- ls(parent.frame()) 


oneKB <- 1024 
oneMB <- 1048576 
oneGB <- 1073741824 


memoryUse <- sapply(objectList, function(x) as.numeric(object.size(eval(parse(text=x))))) 
memListing <- sapply(memoryUse, function(size) { 
if (size >= oneGB) return(paste(round(size/oneGB,2), "GB")]}) 
else if (size >= oneMB) return(ipaste(round(size/oneMB,2), "MB")) 
else if (size >= oneKB) returnipaste(round(size/oneKB,2), "kB")) 
else returnipaste(size, "“bytes")) 
}) 


memListing <- data.frame (objectName=names (memListing) ,memorySsize=memListing,row.names=NULL) 


if (sort=="alphabetical") memListing <- memListing[order (mmListing$objectName,decreasing=decreasing),] 
else memListing <- memListing{order (memoryUse,decreasing=decreasing),] #will run if sort not specified or "size" 


if(!'missing(limit)) memListing <- memListing[l:limit,] 


print (memListing, row.names=FALSE) 
return(invisible (memListing)} 


Ce qui donne: 


R Statistical Software 141/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> a<-2 
> b<-3 
> showMemoryUse (decreasing=TRUE, limit=5) 


objectName memorysize 
showMemoryUse 32.55: KB 
48 bytes 

48 bytes 

<Nà> 

<Ni> 
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Sciences.ch 


Benchmarker son ordinateur 


Comme dans le cours MATLAB, au début de celui-ci, voyons comment nous pouvons 
benchmarker la performance de notre ordinateur relativement à ses performancs avec R en 


utilisant le package benchmarkme: 


ws Help 


: there is no package called ‘benckmark’” 


: there is no package called ‘benchmark’ 


mming benchmarks (5 tests): 
3,500,000 Fibonacci numbers calculation (vector calc): 0.44 (sec). 
3 of 1,000,000 pairs (recursion): 0.52 (sec). 
x 3,500 Hilbert matrix (matrix calc): 0.18 (sec). 
x 3,000 Toeplitz matrix (loops): 0.547 (sec). 
60 matrix (mixed): 0.747 (sec). 


Escoufier's method on a 60 
# Matrix calculation be: 


1 0.577 (sec). 


(sec). 
ü x 500 matrix (c= a \ b'): 0.613 (sec). 


# Matrix function benchmarks (5 test. 
Cholesky decomposition of a 
Determinant of 2 
Eigenvalues 


00 x 3,000 matrix: 3.81 (sec). 
random matrix: 2.64 (sec). 
9 (sec). 


Creating temporary file 

Getting system specs. This can take a while on Macs 
Uploading results 

Upload complete 

Tracking id: 


nked 24 out of 749 machines. 
Press return to get next ploc | 


rix: 0.467 (sec). 


Total timing (secs) 


Ve 


50 


20 


Benchmark: prog 


CES] 


Benchmark: prog 


oc c%00 00 


Relative timing 


20 


10 


u 


oc c%oo 00 


200 400 600 
Rank 


avec un zoom sur la partie script au cas où ce serait trop petit: 
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Sciences.ch 


R RGui (64-bit) - [R Console] — 
R File Packages Windows 


EI [S| 


> library("benchmarkme") 

> res = benchmark std() 

# Programming benchmarks (5 tests): 
3,500,000 Fibonacci numbers calculation (vector calc): 

| Grand common divisors of 1,000,000 pairs (recursion): 0.697 (sec). 
Creation of a 3,500 x 3,500 Hilbert matrix (matrix calc): 
Creation of a 3,000 x 3,000 Toeplitz matrix (loops): 0.903 (sec). 
Escoufier's method on a 60 x 60 matrix (mixed): 0.657 (sec). 

# Matrix calculation benchmarks (5 tests): 
Creation, transp., deformation of a 5,000 x 5,000 matrix: 
2,500 x 2,500 normal distributed random matrix*1,000: 0.603 (sec). 
Sorting of 7,000,000 random values: 0.587 (sec). 
2,500 x 2,500 cross-product matrix (b = a' * a): 6.92 (sec). 
Linear regr. over a 5,000 x 500 matrix (c = a \ b'): 0.57 (sec). 

| # Matrix function benchmarks (5 tests): 
Cholesky decomposition of a 3,000 x 3,000 matrix: 3.84 (sec). 
Determinant of a 2,500 x 2,500 random matrix: 1.61 (sec). 
Eigenvalues of a 640 x 640 random matrix: 0.43 (sec). 
FFT over 2,500,000 random values: 0.173 (sec). 
Inverse of a 1,600 x 1,600 random matrix: 1.37 (sec). 

> upload results(res) 

Creating temporary file 

Getting system specs. This can take a while on Macs 

Uploading results 

Upload complete 

| Tracking id: 2020-04-05-75947718 

[1] "“2020-04-05-75947718" 

| > plot(res) 

You are ranked 6 out of 236 machines. 


Edit View Misc 


Help 


Press return to get next plot > | 


< 


0.463 (sec). 


0.16 (sec). 


0.47 (sec). 


X 


EE 
K 
Ÿ 


C'est intéressant de comparer ce résultat avec Celui obtenu avec Microsoft R Open: 


Vie Misc Packages Windows Help 


EROBCEUE 


CE 


Library (*benchmarime®) 


k 
Press sevurn &o ges nexs plor | 


Total timing (secs) 
%, 
Relative timing 
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Mettre à jour R 


Mettre à jour R reste à ce jour un peu pénible car il faut aller sur le site web du CRANS, 
télécharger, etc. etc. etc. 


Heureusement un package installr a été développé pour faciliter l'opération: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


SIA] 


> install.packages("installr") 

Installing package into ‘C:/Users/lsoz Vincent/Documents/R/win-library/3.1” 

{as ‘lib’ is unspecified) 

--- SVP sélectionner un miroir CRAN pour cette session --- 

essai de l'URL 'http://cran.rstudio.com/bin/windows/contrib/3.1/installr 0.15.3.zip' 
Content type 'application/zip' length 233631 bytes (228 Khj 


URL ouverte 
downloaded 2268 Kb 


le package ‘installr’ a été décompressé et les sommes MD5 ont été vérifiées avec succés 
Les packages binaires téléchargés sont dans 


C:\Users\Isoz Vincent\ippDataiLocal\Temp\ RtmpWO4guws\ downloaded packages 
> | 


Une fois installé, nous le chargeons et l'exécutons: 


2 
À RGui (64-bif) - [R Console 


KR Fichier Edition Voir Misc Packages Fenêtres Aide Update 


> library(installr) 
> updatekR({) 


You are using R version: 3.1.0 (2014-04-10) 
And the latest R version 15: 3.1.1(2014-07-10) 


Nous validons par OK: 
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F2 RGui (64-bit) - [R Conso 


CA Edition Voir Misc CI Fenêtres Aide Update 


Si nous cliquons sur Oui, nous avons: 


| @ Web | cran.rstudio.com/bin/windows/base/NEWS R-3 % || EM - Rechercher avec Google | ‘& () 


R Documentation [3 


CHANGES IN R 3.1.1 
NEW FEATURES 
+ When attach() reports confhcts, it does so compatibly with library() by using message( ). 


° R CMD Sweave no longer cleans any files by default, compatibly with versions of R prior to 3.1.0. There are new 
options --clean, --clean=default and --clean=keepOuts. 


* tools::buildvVignette() and tools: :buildVignettes() with clean = FALSE no longer remove any created files. 
buildvignette() gains à keep argument for more cleaning customization. 


+ The Bioconductor ‘version’ used by setRepositories() can now be set by environment variable 
R_BIOC_ VERSION at runtime, not just when R is installed. (It has been stated that Bioconductor will switch from 
‘version’ 2.14 to ‘version’ 3.0 during the hfetime of the R 3.1 series.) 


+ Error messages from bugs in embedded Sexpr code in Sweave documents now report the source location. 


e type.convert(), read.table() and similar read.*() functions get a new numerals argument, specifying how numeric 
input is converted when its conversion to double precision loses accuracy. The default value, "allow. loss" allows 
accuracy loss, as in R versions before 3.1.0. 


D + @à 


Il vient ensuite: 
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R Fichier Edition Voir Misc Packages Fenêtres Aide Update 


> libraryiinstallr) 
> updatekRi) 


Nous cliquons sur Oui et attendons: 


R Fichier — Voir Misc Packages Fenêtres Aide Update 
ssl] 


> libraryi(instalilr) 
> updatekRi) 


Une fois le téléchargement terminé, l'installation classique se fait et une fois celle-ci terminée, 
nous avons: 
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R Fichier Edition Voir Misc Packages Fenêtres Aide Update 


Once your packages are copied to the new R, 

do you wish to KEEP the packages from the library in the OLD R 
installation? 

{if you choose "NO - you will erase your packages in the old R version) 


R Fichier Edition Voir Misc Packages Fenêtres Aide Update 


Et si vous cliquez sur Oui c'est terminé. 
Il faut savoir que même s1 cela installe la nouvelle version, cela ne supprime pas l'ancienne! 


Notez enfin que ce package ajoute le menu suivant à R: 
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R RGui (64-bit) - [R Console] 
ŒR Fichier Edition Voir Misc Packages Fenêtres Aide | installr 


Update R packages 
> | Install software 


Manage Windows 


Load ‘installr on startup 
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Fermer R 


Quand vous ferrez du scripting, il vous sera utile de connaître la commande qui ferme R. Soit 
vous utilisez alors la commande q( ) seule qui aura l'effet suivant: 


R Fichier Edition Voir Misc Packages Fenétres Aide 


> qi) uestio 


[7] Sauver une image de la session ? 


R 


soit vous savez d'avance qu'il ne faut pas enregistrer et dès lors vous passez la valeur no en 
paramètre: 


UR RGui (64-bit) - [R Console] — Û 


GR File Edit View Misc Packages Windows Help RE: 


> q (save="no")| 
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Envoyer un courriel (email) via R 


Voici une méthode utilisant la fonction send.mail( ) du package mailR pour envoyer par 
courriel des résultats de calculs ne nécessitant pas de passer par du VBScript ou par GMail 
(ici seul un exemple au format texte brut est fait, je développerai si un client me demande un 
cas plus compliqué): 


Évidemment il faut changer dans le script ci-dessous l'adresse e-mail de l'expéditeur, du 
récepteur, le protocole, le nom d'utilisateur, le mot de passe, bref tous les paramètres 
techniques (maïs j'ai testé et cela marche!): 


R Fichier Edition Packages Fenêtres Aide 


library("mailR") 
x=5 
send.mail(ifrom="isozféuser.ch", 
to="einsteinfuser.com", 
subject="Sujet du courriel", 
bhody=paste("Le résultat esti",x), 
smtp=list (host.name="mail.useR.com", 
port=465, 
user.name="isozéuser.ch", 
passwd="mon mot de passe mail”, 
3831=TRUE), 
authenticate=TRUE, 
send=TRUE) 


Pour envoyer des beaux e-mails au format HTML, il existe un package nommé blastula que 
je n'ai pas eu le temps de tester complétement. 


blastuls 
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Envoyer un SMS via R 


Très utile quand on ne veut pas attendre devant sont ordinateur le résultat d'un calcul pendant 
des heures... (et évidemment d'autres applications sont possibles!). 


D'abord créez un compte sur Twilio: 


https://www.twilio.com/ 


Fichier Édition Affichage Historique Marque-pages Outils Aide 


< (t Al \ twilio.com 


Getting Started (@) Instagram lb SharePoint DE- Home... Microsoft 365 


NEW 10-DIGIT LONG CODE REQUIREMENTS ARE COMING — LEARN MORE E &X +49 89 143777310 SUPPORT LOG IN 


[@) twilio Products Solutions Developers Services & Support Pricing Talk to an expert 


@twilio + = segment 


// It's time to build 
FA intelligent 
fa customer engagement 


= 
& 
2 
& 
œ 
[ns 
B 


Une fois le compte crée vous pourrez accéder à votre SID et TOKEN: 
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Sciences.ch 


My first Twilio. TRIAL V Upgrade Project 2 


ti 


Dashboard 


Billing 


Usage 


Settings 


Upgrade 


© Learn the basics of Twilio How does Twilio Work? 


My first Twilio project Dashboard 
Project Info 


TRIAL BALANCE 


$15.50 Get a Trial Number 


REFERRAL PROGRAM 
Welcome! 
Refer your network to Twilio — 


ACCOUNT SID We've customized your onboarding guide to 
match what you've told us. To get started, get 


AUTH TOKEN a trial phone number. 


Show 


Here's how your Twilio Trial account works: 


e You can send messages and make calls to verified numbers. 
. Messages and calls include a note about this coming from a "Twilio trial account." 


Learn more about your trial 21 or upgrade to remove restrictions. 


PROJECT NAME PROGRAMMING LANGUAGE 
My first Twilio proje. 4 Other 


Ensuite pour envoyer le SMS on utilisera: 


| RG JU À 
pR File 


Edit 


View Misc Packages Windows Help 


& 7? & 
A 
D 
GO 
= | 2% 


+++ VV V V 


library("twilio") 
Sys.setenv(TWILIO SID = "Your SID") 
Sys.setenv(TWILIO TOKEN = "Your Token") 
tw_ send message ( 


] 


Lo. = 
from 
body 


"+16035551212", 
"+15088970700", 
paste("I am sending this message from an R script!") 


R Statistical Software 


153/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


5, Fichiers R 


Il existe trois types de fichier dans R: 


Les fichiers: *.Rhistory 

Les fichiers: *.RData 

Les fichiers: *.R pour les scripts (voir page 2894) 

Le fichier de config: *.Rprofile (voir page 83 ou 105) 


Historique et fichiers *.Rhistory 
Nous allons commencer par découvrir le type le plus trivial de fichier qui est le *.Rhistory. 


Il s'agit simplement d'un type de fichier qui va sauvegarder l'historique de vos commandes. 
Pour voir cela, nous nous ouvrons R et écrivons: 


RGui (64-bit IRC 


R Fichier Edition Voir Misc Packages Fenétres Aide 


> #Ma ligne 1 
> 0+0 


[1] O0 
> #cela ne fait donc pas la tête à toto.... 
> | 


D'abord faisons un Ctrl+L pour effacer la console et utilisons la fonction history( ): 


R RGui (64-bit) - [R Console] — O X 
KR File Edit View Misc Packages Windows Help 5 x 


> history (3) 


Cela donne: 


R Statistical Software 154/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


R RGuiï (64-bit) - [R History] — O X 
R File Edit Windows - ex 


EIRE | 


#Ma ligne 1 

0+0 

fcela ne fait donc pas la tête à toto.... 
history(3) 


ù 


et ouvre donc le fichier R History uniquement pour le nombre de commandes demandées! 
Maintenant, nous allons dans le menu Fichier/Sauver l'historique des commandes: 


RGui (64-bit} - [R 
ition Voir Misc Packages Fenêtres Aide 
Editi Voi i Packages Fenétres Aid 


Sourcer du code R... 


Nouveau script 
Ouvrir un script... 
Afficher le(s) fichier(s).… 


Charger l'environnement de travail... 


Sauver l'environnement de travail... 


Charger l'historique des commandes... 


Sauver me des commandes. 


Changer le répertoire courant... 


Imprimer... 


Sauver dans le fichier... 


Sortir 


Et il vient: 
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JA  » Ordinateur + OS(C) » IDE » = 


Organiser + Nouveau dossier 


Æ Vidéos GS Nom Modifié le 
SkyDrive £ : ; 
à Common? 01.06.2011 19:05 Dossier de fic 
BE Bureau 

Bibliothèques 

*® Groupe résidentiel 

A Is0z Vincent 

1 Ordinateur 

eu Réseau 

ES Panneau de configuratic 

#, Corbeille 


Nom du fichier:  Formationk 
Type: | All files (*.*) 


+ Cacherles dossiers 


où nous avons déjà mis le nom désiré devant l'extension du fichier. Nous pouvons utiliser 


aussi la commande savehistory( ): : S 
R RGui (64-bit) - [R Console] — 0 X 
R File Edit View Misc Packages Windows Help - x 


> #Ma ligne 1 

> 0+0 

[1] © 

> fcela ne fait donc pas la tête à toto.... 
> en 

> 


S1 nous fermons R et le rouvrons, nous pouvons recharger les commandes passées en allant 
dans Fichier/Charger l'historique des commandes: 
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Fenêtres Aide 


c Sourcer du code R... 


Nouveau script 
Ouvrir un script... 
Afficher le(s) fichier(s).…. 


Charger l'environnement de travail. 


Sauver l'environnement de travail... 


Charger l'historique des commandes. 


Sauver l'historique des commandes... 
Changer le répertoire courant... 


Imprimer... 


Sauver dans le fichier... 


Sortir 


ou avec la fonction loadhistory( ): 


R RGui (64-bit) - [R Console] — Ü X 
f File Edit View Misc Packages Windows Help - x 


> loadhistory("FormationR.Rhistory") 
> | 


Mais rien n'apparaîtra quand vous chargerez votre fichier *.Rhistory. Effectivement pour 
retrouver vos commandes, il vous faudra jouer avec les flèches du clavier Î ou £ pour 
remonter ou descendre dans l'historique des commandes. 


On comprend alors mieux l'intérêt de sauvegarder l'historique des commandes dans un fichier 
script *.R (voir page 2682 pour rappel). 
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Journalisation 


Alors que les fichiers de journalisation SAS sont considérés comme essentiels dans les essais 
cliniques, R fournit une approche alternative pour générer des journaux via la fonction de 
sink( ). La fonction sink( ) dans R permet à l'utilisateur de rediriger la sortie de la console vers 
un fichier, créant ainsi un fichier journal. La fonction de puits est personnalisable et peut 
capturer une large gamme de sorties, y compris des avertissements et des erreurs. De plus, le 
fichier journal peut être examiné et analysé après les faits. 


Voici un exemple de création d'un fichier journal simple à l'aide de sinK ) : 


° RGui (64-bit) - [R Console] 
R File Edit View Misc Packages Windows Help 


sink("mon fichier log.txt") 
fcode à être exécuté 

cat ("Démarrage analyse...\n") 
x<-1+2 

cat ("Valeur de x: “,x,"\n") 
cat ("Analyse complétée.\n") 
sink() 


> 
> 
> 


V OV V V 


V 


Ce qui donnera: 


Ë] mon _fichier_log.txt - Notepad 
File Edit Format View Help 


Démarrage analyse... 
Valeur de x: 3 
Analyse complétée. 


En 1, Col 1 100% Windows (CRLF) ANSI 


La fonction de sink( ) de R n'est peut-être certes pas être aussi complète que les fichiers 
journaux de SAS. Cela vaut également la peine de préciser que R a des packages tels que 
logging et logdr qui fournissent des capacités de journalisation plus avancées. 
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Fichiers *.Rdata 


Les fichiers *.Rdata (fichiers binaires très rapides à charger et à enregistrer) vont stocker 
toutes les variables, dates frames, listes, matrices, vecteurs, etc. que vous avez créés ou 
modifiés pendant une session de travail R. 


Cela peut paraître a priori inutile mais en réalité c'est très utile lorsque l'on fait du calcul 
massif (big data). 


Effectivement, si vous êtes sur une machine dont la mémoire vive est limitée pour des raisons 
de budgets il est alors possible de jouer de façon subtile avec ces fichiers pour libérer 
temporairement de la mémoire. 


Voyons une démonstration simple de cela. 


Nous créons une simple variable à laquelle nous affectons une valeur scalaire: 


FR Fichier Edition Voir Misc Packages Fenétres Aide - 


Nous pouvons créer un fichier *.RData en quittant R mais ici le but est d'avoir un contrôle 
total sous forme de lignes de commandes (pour intégrer cela plus tard dans des scripts). Pour 
enregistrer une variable de la mémoire de l'espace de travail en cours de R nous utilisons la 
fonction save( ) (si nous ne spécifions pas le dossier donc il prendra l'espace de travail par 
défaut actif!): 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> a<-2 


> savela, file = "FirstStepCalculations.RData’”) 
> | 


Ou pour deux variables parmi plusieurs: 
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R RGui (64-bit) - [R Console] — CO x | 
R File Edit View Misc Packages Windows Help  - : 
> a<-—2 

> b<-3 

> c<—-4 

> save(list=c("a","b"}), file="FirstStepCalculations|. RDa$ 
< > 


ou pour toutes les variables de l'environnement active, on utilisera save.image( ): 


FR RGui (64-bit) - [R Console] = O X 


R File Edit View Misc Packages Windows Help _ FX 


> a<-2 
> save.image("FirstStepCalculations.RData") 
> | 


R 


Ce qui donnera sur votre disque un petit fichier *.RData: 


| R FirstStepCalculations.RData 


Maintenant nous effaçons cette variable de la session en cours et vérifions qu'elle n'existe 
plus: 


KR Fichier Edition Voir Misc Packages Fenêtres Aide 


> a<-2 


> savela, file = "FirstStepCalculations.RData'") 
> rmia) 
> a 


Erreur : objet 'a' introuvable 
> | 


« 


Mais nous pouvons la rappeler avec la commande load ): 
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ER pit: - [R 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> a<-2 

|> save(a, file = "FirstStepCalculations.RData") 
L 
> 


rmia) 
a 
Erreur : objet 'a' introuvable 
> load(ifile="FirstStepCalculations.RData'") 


S1 vous utilisez la syntaxe suivante, il va enregistrer dans le fichier *.RData par défaut de 
votre installation de R: 


R Fichier Edition Voir Misc Packages Fenétres Aide [Is] x] 


> a<-2 


> b<-3 


> save.image({) 
> | 


Effectivement: 


FR RData 


KR FirstStepCalculations.RData 


Nous voyons alors vite la possibilité de créer autant de fichiers *.RData que désirés et de les 
décharger ou recharger à loisir quand cela est nécessaires (dans les grosses applications on 
aura typiquement un fichier *.RData pour chaque gros data frame de manipulé). 


Petit truc à savoir. Si vous sauvegardez tout un espace de travail et en rechargez tout le 
contenu de suite après, cela peut faire gagner parfois un peu plus de 50% de la mémoire 
utilisée. 
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Fichiers *.txt 


Il est possible dans R d'exporter les lignes de commande et leurs résultats dans un fichier texte 
manuellement simplement soit par copier/coller ou par un menu. Pour ceci on ira dans le 
menu Fichier/Enregistrer le fichier sous..…: 


 RGui (64-bit) - [R Console] — (m] X 


R File Edit View Misc Packages Windows Help FX 


E Source R code... | 


New script 
> Open script... 
[1 Display file(s).… 
> 


Load Workspace... 
Save Workspace.. Ctri+S 


Load History... 
Save History... 


Change dir... 


Print. Ctrl+P 
Save to File... N 


Exit 


Ce qui ouvrira la boîte de dialogue habituelle: 


# MM; ThisPC Desktop 
Organize + New folder 
 OneDrive - ThinkT(1) Name Date modified 
X Vincent Isoz 
BA This PC 
A 30 Objects 
EM Desktop 


No items match your search. 


B Documents 


L Downloads 

À Music 

FA Pictures 
Videos 


FT (e) 


File name: | Export_Console.txt 


Save as type: | Text files (*.txt) 


A Hide Folders 
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Sciences.ch 


Le résultat donnera dans le cas présent: 


3 


File Edit Format View 


> 1+1 
[172 
F. 


Help 


Dans une certaine mesure, on peut exporter automatiquement avec un script. Ilustrons cela 
avec l'exemple suivant, faisant usage de la fonction capture.output( ), qui a une importance 
particulière pour ceux travaillent avec Microsoft Power BI et R comme nous le verrons plus 
loin, ainsi que la fonction paste( ) pour concaténer des chaînes caractères et la fonction cat() 
qui concatène (au maximum deux chaînes de caractères!) et qui peut exporter en même temps: 


R File Edit View Misc Packages 


SI] 


Windows Help 


data(iris) 
modele<-summary (aov(Sepal.Length - 
out <- capture.output (modele) 


NONONON NON 


cat (paste("\n","My title", date(),"\n"), 
cat (paste("\n","My title", date(),"\n"), 
cat (paste("\n","My title", date(),"\n"), 


sr data=iris)) 


out, 
out, 
out, 


file="Export.txt", 
file="Export.txt", 
file="Export.txt", 


sep="\n", append=TRUE) 
sep="\n", append=TRUE) 
sep="\n", append=TRUE) 
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6. Calculs arithmétiques élémentaires 


Contenu 
Exemple L:ROPBÉTAUONS SUr SCAIAITES LES Ce Sn SL en Ce de 164 
Exemple 2:: Fonctionstrigonomeétriques. 58 Msn iitee 167 
Exemple 3.: Opérateurs booléens et relations d'ordre 7 
Exemple 4.: Manipulations de variables scalaires …................................................. 175 
Exemples Arondit dés caloules ss hist nt A MR re aete 176 
Exemple 6.: Options de formatage des nombres 4% ss 177 
Exemple 7.: Nombres et variables complexes... 179 
Exemple 8.: Séries arithmétiques ou géométriques ou autre... 181 
Exemple. Nombres DEÉRICES. sen ne Ne D RE ne tre 182 
Exemple 10.: Manipulation d'ensembles (un peu de théorie des ensembles)... 186 
Exemple l1.:Opérations avec dés data (rames nine Lis nt tt is ste 190 
Exemple 12.: Statistiques descriptives élémentaires univariées de data frame... 195 
Exemple 13.: Kurtosis (aplatissement) et Skewness (asymétrie) ….................................. 208 
Exemple 14.: Statistiques descriptives élémentaires multivariées de data frame... 213 


Exemple 1.: Opérations sur scalaires 
R 3.02 


Le but final de R est sur le plus ou moins long terme, lorsque l'on est utilisateur, d'écrire des 
scripts qui vont automatiser un travail répétitifdè manipulation de données, de calculs et 
tests/analyses statistiques (comme le VBA dans la suite Microsoft Office par exemple). 


Dès lors, au même titre qu'un utilisateur Excel aura des difficultés à faire du code s'il ne 
connaît les structures et opérateur algébrique de base, 1l en sera aussi souvent de même pour 
l'utilisateur R. 


Donc nous allons commencer par les mathématiques élémentaires ceci dans le but de préparer 
bien plus tard un terrain propice au scripting de haut vol. 


D'abord commençons par quelques opérations algébriques élémentaires comme l'addition, la 
soustraction, la division, la multiplication, le logarithme naturel avec la commande log( ), la 
racine carrée avec la commande sgrt( ), la valeur absolue avec la commande abs( ) ou encore 
l'exponentielle avec la commande exp( ), la factorielle avec gamma ) et le coefficient 
binomial avec la commande choose( ) ou encore le modulo avec % %: 
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RGui (64-bit) - 
R Fichier Edition Voir Misc Packages Fenétres Aide 


> 5+2 

[il] 7 

> 5-2 

[1] 3 

> 5*2 

[1] 10 

>. 5/2 

[i] 2.5 

> sqrt(2) 

[1] 1.414214 

> 2*(1/2) 

[i] 1.414214 

> abs(-5) 

[i] 5 

> exp(i) 

[1] 2.718282 

> log(3.14,base=exp(1)) 

[1] 1.144223 

> 18 $/% 4 #division entière (euclidienne) 
[i] 4 

> 18 %% 4 #modulo 

[1] 2 

> gamma(4+1) #factorielle de 4: 4! 
[i] 24 

> choose(5,2) #coefficient biomial 
[i] 10 

> | 


S 


Ÿ 
Pour ceux qui veulent savoir les valeurs les réelles ou entières les plus petites ou plus grandes 
gérées par R on peut utiliser la fonction d'environnement .Machine: 


R RGui (64-bit) - [R Console — CO 


& Fichier Edition Voir Misc Packages Fenêtres Aide E x 


> .Machine$double.eps 
[1] 2.220446e-16 

> .MachineS$double.neg.eps 
[1] 1.110223e-16 

> 

> .MachineSinteger.max 
[1] 2147483647 

> 

> .MachineS$double.xmax 
[1] 1.797693e+308 

> .MachineS$double.xmin 
# 2.225074e-308 

> 


Sinon, pour créer des nombres avec la notation d'ingénierie (on peut aussi les créer en utilisant 
LL PAL 


un "e" minuscule au lieu du "E" majuscule bien évidemment!): 
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[ 
| R RGui (64-bit) - [R Console] — O0 


| Fichier Edition Voir Misc Packages Fenêtres Aide 


GE 


> 1E-9 
[1] 1e-09 
> 1E-6 
[1] 1e-06 
| > 1E-3 
[1] 0.001 
| > 1E0 
[11 1 
> 1E3 
[1] 1000 
> 1E6 
| [1] 1e+06 
> 1E9 
| [1] 1e+09 
| > 


Avec le coefficient binomial nous pouvons reprendre l'exemple du cours d'Arithmétique en se 
demandant combien il y a de manières de créer un mot de passe de n caractères (n allant de O 


à 24) sachant qu'on peut utiliser seulement un alphabet de 24 lettres (sans remise). Cela nous 
donne: 


R R Console 


> plot (0:24,choose(24,0:24) ,type="s",main="Coefficients binomiaux") 
> c 


Coefficients binomiaux 
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Exemple 2.: Fonctions trigonométriques 
R 3.4.2 


Nous savons quelle est l'importance des fonctions trigonométriques dans tous les domaines 


des maths, de l'ingénierie, de la finance et de la Data Science. Voyons alors comme utiliser 
ces dernières. 


Commençons avec la fonction cos( ) et quelques valeurs remarquables: 


R File Edit View Misc Packages Windows Help 
EE] 


> cos(0) 

[1] 1 

> cos(pi/2) 
[1] 6.123032e-17 
> cos(pi) 

[11 -1 

> cos(pi/4) 
[1] 0.7071068 
> cos(3*p1i/4) 
[1] -0.7071068 
> 


Et pour la fonction sin( ): 
| M RGuï (64-bit) - [R Console] 


| BR File Edit View Misc Packages Windows Help 
ES) ee] ©] E] 


|> sin(0) 

| [1] O 

|> sin(pi/2) 

| [1] 1 

|> sin(3*pi/2) 
[1] -1 

|> sin(pi/4) 
[1] 0.7071068 
> sin(3*pi/4) 
[1] 0.7071068 
> sin(5*pi/4) 
[1] -0.7071068 
> 


Et pour la fonction tan( ): 
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R RGui (64-bit) - [R Console] 


R File Edit View Misc Packages Windows Help 


> tan(0) 

[1] O0 

> tan(pi) 

[1] -1.224647e-16 
> tan(pi/2) 

[1] 1.633124e+16 
> tan(-pi/2) 

[1] -1.633124e+16 
> tan(-0.5/-0.5) 
[1] 1.557408 

> tan(0.5/0.5) 

[1] 1.557408 

> | 


Maintenant gardez bien en tête cet exemple: 


R RGui (64-bit) - [R Console] 


GR File Edit View Misc Packages Windows Help 


|> tan(-0.5/0.5) 

| [1] -1.557408 

|> tan(0.5/-0.5) 
[1] -1.557408 

> 


Et maintenant introduisons la fonction inverse atan( ) et atan2( }* dont les graphs 
correspondants sont: 


3 Puisque nous savons que pour cos( } et sin ) il n'y a pas le problème de dénominateur qui peut être positif ou 
négatif puisque l'hypoténuse est toujours positive. 
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arctan(x) 


T 
2 


et pour arctan2: 


Donc nous avons: 


R RGuï (64-bit) - [R Console 


| GR File Edit View Misc Packages Windows Help 


[> atan(-1.557408) 
[21,2 

> atan2(-1.557408,-1) 
| [1] -2.141593 

> atan2(-1.557408,+1) 


[1] -1 
> | 
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Enfin, une parenthèse pour les profs qui souhaiteraient plotter le cercle trigonométrique avec 
certains angles spécifiques visibles, il est possible d'utiliser le package circular: 


QAR Console 


> library(circular) 

> x <- circular(c(pi, pi/3, pi/4),units="rad") 
> plot(x) 

si 


RE Graphics Device 2 (ACTIVE) 
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Exemple 3.: Opérateurs booléens et relations d'ordre 
R 3.0.2 


Lorsque vous allez faire du scripting, vous aurez parfois besoin de faire des tests logiques 
utilisant les valeurs booléennes. Il est donc important de revoir les cas les plus courants. 


Nous avons d'abord la syntaxe suivante pour les relations d'ordre les plus courants: 


> 0<1 

[1] TRUE 
> 1<0 

[1] FALSE 
> O>1 

[1] FALSE 
> 1>0 

[1] TRUE 
> D<=1 
[1] TRUE 
> 1>=0 
[1] TRUE 
> O>=1 
[1] FALSE 
> 1==1 
[1] TRUE 
> 1==0 
[1] FALSE 
> l'=1 
[1] FALSE 
> 1!=0 
[1] TRUE 
> | 


« 


et un peu d'algèbre booléenne élémentaire: 
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[IR Fichier Edi Fichier Edition Voir Misc Packages Fenêtres Aide |- | | 


> !1 #inverse logique de 1 
[1] FALSE 

> !FALSE #inverse logique de FAUX 
[1] TRUE 

> 011 #OU logique 

[1] TRUE 

> 010 

[1] FALSE 

> LIL 

[1] TRUE 

> 161 #ET logique 

[1] TRUE 

> 1€0 

[1] FALSE 

| 


Signalons également le piège suivant à cause de la manière dont fonctionnent les ordinateurs 
avec le binaire lorsque nous comparons des cales avec un résultat étalon: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> 0. 


[1] 


> 0. 


[1] 


> 0. 


[1] 


3/01 

3 

3/0.1-3 
-4.440892e-16 
3/0.1== 

FALSE 


> all.equal(0.3/0.1,3) #la solution pour étre sûr 


[1] 
> | 


TRUE 


Donc le problème se résout à l'aide de la fonction all.equal( ). 


Sinon une liste de pseudo-curiosités (bon on a encore de la marge par rapport au 


Javascript..…): 
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M RGui (64-bit) - [R Console] 


OR File Edit View Misc Packages Windows Help 


> class (NaN) 

[1] "“numeric" 

> 999999999999999g 
[1] 10000000000000000 


> 0.5+0.1==0.6 
[1] TRUE 

> 0.1+0.2==0.3 
[1] FALSE 

> | 
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Et pour les profs qui souhaitent construire une table logique dans R avec leurs élèves en 
utilisant la fonction outer( ) : 


| GR Fichier Edition Voir Misc Packages Fenêtres Aide - & X 
ESCBCeCE | 


> x <— c(NA, FALSE, TRUE) 

> names(x) <-— as.character(x) 

> outer(x, x, "&") ## AND table 
<NA> FALSE TRUE 


| <NA> NA FALSE NA 
| FALSE FALSE FALSE FALSE 
TRUE NA FALSE TRUE 
> outer(x, x, "“|") ## OR table 
| <NA> FALSE TRUE 
| <NA> NA NA TRUE 


| FALSE NA FALSE TRUE 
TRUE TRUE TRUE TRUE 
>| 


nn 


Rappelons que outer( ) correspond au "produit dyadique" ou "outer product" et qu'il a une 
place très importante en statistiques avancées comme nous l'avons démontré dans le cours 
théorique (estimation de paramètres via la méthode de vraisemblance et particulièrement via 
la matrice de Fisher). 


Lo 
Lo 
NI 


R Statistical Software 174/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Exemple 4.: Manipulations de variables scalaires 
R 3.0.2 


Pas grand chose à dire ici tellement c'est élémentaire (mais attention! si possible respectez 
dans la pratique industrielle la nomenclature de Leszinsky-Reddick pour le nommage de vos 
variables): 


À RGui (64-bit) - [R Conso 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


x<—2 
a<—--3 
b<-2 


c<—-1 
atx*2+bfx+c 
1] -7 


Autre manière d'écrire cependant parfois plus claice pour les petites classes: 
oŸ 


+ RGui (64-bit} - [R Co 
R Fichier Edition Voir Misc Packages Fenêtres Aide 


Q © D * 
MN SU 
EH D I D 

Le] 


atx*2+btx+c 


[1] -7 
> | 
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Exemple 5.: Arrondir des calculs 
R 3.02 


Là encore une fois le but est de faire un petit parallèle avec un tableur. Voyons que nous 
pouvons effectivement arrondir les résultats de calculs avec les commandes natives floor( ), 
ceiling( ), round ), signif( ) et trunc( ): 


& RGui (64-bit) - [R Conso 
R Fichier Edition Voir Misc Packages Fenêtres 


> flooripi) 

[1] 3 

> ceilingipi) 

[1] 4 

> roundipi,digits=0) 
[1] 3 

> roundi(ipi,digits=3) 


[1] 3.142 

> signif(pi,digits=0) 
C1]: 3 

> signif(pi,digits=3) 
[1] 3.14 

> trunc{(pi}) 

| [C1] 3 


Sinon pour arrondir au 5 centimes près, il faudra passer par la même astuce qu'on utilisait 
dans les très vieux tableurs: 


À RGui (64-bit) - [R Console! 


R Fichier Edition Voir Mise Packages Fenêtres Aide 


> roundipi*(1/0.05),digits=0)/(1/0.05) 


[11 3.45 
> | 
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Exemple 6.: Options de formatage des nombres 
R 3.0.2 


Quelques classiques pour afficher les nombres comme le proposent les calculatrices en 
utilisant la commande formatC ): 


R Fichier Edition Voir Misc Packages Fenétres Aide 


> formatC(pi,format="e", digits=-2) #format ingénieur 
[1] "3.14e+00" 


> formatC(pi*1000,format="f",digits-=2,big.mark="'") #fformat général 
[1] "3'141.59" 
> | 


Pour mettre par défaut le format ingénierie au démarrage de R vous pouvez mettre l'option 
scipen=-100 dans votre fichier .Rprofile: 


«| Rprofile - Notepad 
File Edit Format View Help 


pP P 
.libPaths("C: TESTS MSC k" ) 


Inversement pour éliminer le format d'ingénierie dans toutes les sorties de type ANOVA et 
régressions linéaires vous pouvez mettre: 


R Statistical Software 177/3133 


Vincent ISOZ, Daname KOLANI 


2 Rprofile - Notepad 


File Edit Format View Help 


options (= scipen=-999 ,digits=4) 
1 


C:/Documents YRPack" )| 
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Exemple 7.: Nombres et variables complexes 
R 3.0.2 


On retrouvera dans la pratique les nombres complexes dans certains modèles de fractales ou 
également dans la transformée de Fourier. Donc vérifions que les éléments de base sont bien 
là comme dans n'importe quel tableur: 


> x<-3+2i fun complexe... 

> Rex) #la partie réelle 

[1] 3 

> Imix) #la partie imaginaire 

[1] 2 

> X+X #la somme de deux complexes 

[1] 6+4i 

> X-X #la soustraction de deux complexes 
[1] O+0i 

> x°3 #la puissance d'un complexe 

[1] -9+46i 

> x/x*2 #la division d'un complexe avec un autre 
[11] 0.2307692-0.1538462i 

> z<-complex(real=-3,imaginary=2) #une autre manière de définir un complexe 
> £ 

[1] -3+2i 

> Modiz) #le module d'un complexe 

[1] 3.605551 

> Argiz) #l'argument d'un complexe 

[1] 2.55359 

> Conj(z) #le conjugué d'un complexe 

[1] -3-2i 

> | 


Faisons quelques tests de typage pour voir comment réagit R: 
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R Fichier Edition Voir Misc Packages Fenêtres Aide 


> x<—3 

> is.integer(x) 
[1] FALSE 

> as.integer(x) 
[1] 3 

> is.integer(x) 
[1] FALSE 

> x<-3L 

> is.integer(x) 
[1] TRUE 

> is.complex(x) 
[1] FALSE 

> x<-3+1i 

> is.complexi(x) 
[1] TRUE 

> as.character(x) 
CI] T3+Lir 

> XC=3 


> as.complex(x) 
[1] 3+0i 
> | 


Actuellement dans R on a: 


: , Fe) 
e _is.logical 
e _is.integer 
e _is.numeric 
e _is.complex 
e _is.character 


Il faut être très prudent quant à l'utilisation de is.integer( ) comme on le voit dans l'exemple 
ci-dessous: 


8e RGui (64-bit) - [R Console] Ü 


& Fichier Edition Voir Misc Packages Fenêtres Aide 4-6 


> is.integer (0.2*5) 
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Exemple 8.: Séries arithmétiques ou géométriques ou autre 
R 3.4.1 


Dans le cours théorique nous avons démontré la série fameuse suivante: 


Soit quand: 


Voyons cela avec R: 


| R File Edit View Misc Packages Windows Help 


> summzeta <- function(n) 1/n°2 
> .MachineSdouble.eps”(-1/2) 
| [1] 67108864 | 
> 
#On prend une valeur un peu au-dessus 
N <— 67108865 


#On calcule la somme avec ce qui donne: 

sum(summzeta(il:N)) 

[1] 1.644934 

> 

> #La différence entre l'approche numérique et formelle est donc de: 
> sum(summzeta(i:N))-pi"2/6 

“ —-1.490116e-08 

> 


> 
> 
> 
> 
> 


Cette différence est beaucoup plus grande que la précision numérique. 
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Exemple 9.: Nombres premiers 
R 3.6.2 


Comme dans le cours théorique, voyons la fonction de comptage de primalité (quantité de 
nombres premiers inférieurs ou égaux à un nombre donné) à l'aide du package RcppAlgos et 
sa fonction primeCount( ): 


R File Edit View Misc Packages Windows Help … FX 


> library("RcppAlgos") 

> primeCount (0) 

Error in PrimeCountRcpp{(n, nThreads, pkgEnvS$nThreads) 

n must be a positive whole number 

| > primeCount (1) 

[1] 0 

> primeCount (2) 

1 1 Î 

> primeCount (3) | 
[1] 2 | 
> primeCount (4) 

[1] 2 

> primeCount (5) 

[1] 3 

> primeCount (7) 

[1] 4 

> primeCount (11) 

[1] 5 

> | 


Nous pouvons aussi en faire un graphique à l'aide des packages numbers, data.table et 
latex2exp: 


R Statistical Software 1832/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


MR EGui (64: bit) - [R Console] _ 0 


GR File Edit View Misc Packages Windows Help - F7 x 


BROSSE 


library ("numbers") 
library("data.table") 
library("latex2exp") 

x <— data.table(A=c(0:50)) 

X$B <- as.numeric(isPrime(x$A)) 
xX[ , C := cumsum(B)] 

head(x, 10) 


| 4. di D: 


© Lo © -J on O1 4 ( IN a 
© © -J où U1 BB Nb © 
1 1 (4 0 NE © © N 


plot (xSA,xSC,pch=21, 

main=TeXx ("The prime counting function: S\\pi(x)S"), 
xlab=Tex("SxS"), ylab=TeX("£$\\pi(x)S"), lwd=4, 
col=rainbow(start=.7, 51), bg=rainbow(200), 

cex=2, cex.lab=2, cex.main=1.5, cex.axis=1.5) 


V++++VE 
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RG CIE 
The prime counting function: r(x) 
[esse 
Lesce) 
Lee) 
D 
Lescsse 
G293D 
< Lssse) 
4 œ 
Lrsse) 
Lee) 
Lecce) 
0 10 20 30 40 50 


Fonction indicatrice phi-d'Euler (qui donne la quantité de nombre relativement premier à un 
nombre donné) à l'aide de la fonction phi( ) du package VeryLargelntegers: 


1834/3133 
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R RGui (64-bit) - [R Console] 


Lou 
| ŒR File Edit View Misc Packages Windows Help 


> library("VeryLargelntegers") 
> phi(0) 

Very Large Integer: 
ÉEI. 0 

> phi(i) 

Very Large Integer: 
[11 1 

> phi(2) 

{Very Large Integer: 
[11 1 

> phi(3) 

{Very Large Integer: 
ELT, 2 

> phi(4) 

Very Large Integer: 
| [1] 2 

|> phi(s) 

Very Large Integer: 
| [1] 4 

> phi(6) 

| Very Large Integer: 
| [11 2 

> phi(7) 

Very Large Integer: 
[1] 6 

> phi(8) 

Very Large Integer: 
[1] 4 

> phi(9) 

Very Large Integer: 
| [1] 6 

>| 
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Exemple 10.: Manipulation d'ensembles (un peu de théorie 


des ensembles) 
R 3.0.2 


Voici quelques éléments de la théorie des ensembles qui rappelleront des souvenirs de la 
petite école à de nombreux lecteurs: 


KR Fichier Edition Voir Misc Packages Fenêtres Aide 


> A<-c(2,4,6,7) $un premier ensemble 

> B<-c(2,1,7,3) #un deuxième ensemble 

> vec<-c(2,3,7) #fquelques éléments 

> is.element (vec,A) f#est-ce qu'il y a appartenance? 

[1] TRUE FALSE TRUE 

> alliA $in* B) #est-ce que À est inclus dans B? 

[1] FALSE 

> all(iB +in* À) #est-ce que B est inclus dans À? 

[1] FALSE 

> intersect(A,B) #éléments de À étant aussi dans B (intersection) 
FL 27 

> union(Aä,B) #union... 

[11462713 

> setdiffiA,B) #différence 

[1] 46 

> setdiff(union(A,B),intersect (A,B)) #différence symétrique 
[1] 4613 

> | 


La commande intersect( ) est particulièrement utilisée en finance lorsque nous possédons 
deux séries temporelles dont nous souhaitons extraire que les dates communes! Une fois que 
nous avons le vecteur des dates communes, nous pouvons utiliser les techniques de filtrage 
habituelles sur les jeux de données initiaux. 


Comme intersect( ) ne prend que deux éléments en entrée, une manière pour généraliser est 
d'utiliser la commande reduce ): 
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A rene Fichier Edition Voir Misc Packages Fenêtres Aide 


ÉROISESIOIE 


E a=c [eRT, Li ces RE M CE 

+ b=c 1°D7; Li A gi a 

> C=cC ÈS « LL CAS RER me] 

> Reduce{(intersect, list{(a,b,c)) 
[1] el LL, 


Il y a aussi la commande isin( ) du package prob que nous aurions pu signaler au tout début 
(mais que nous avons oublié d'indiquer) qui permet de savoir si un ensemble (ou vecteur) est 
totalement inclus dans un autre ensemble (vecteur) et donc évite de faire un test (if) sur le 
résultant de l'usage de %in% comme vu précédemment: 


BR RGuï (64-bit) - [F e e C] 
8 File Edit View Misc Packages Windows Help x 


> library(prob) 
A<-c(2,4,6,7) 

> B<-c(2,3,7) 

> isin(A,B) 

[1] FALSE 


> 


Sinon il y aussi la fonction combn( ) qui n'est pas qu'utile pour avoir toutes les combinaisons 
d'un certain ordre d'un ensemble mais aussi pour le calcul de certaines statistiques non 
paramétriques (dont la quasimédiane!). 
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UR RGui (64-bit) - [R Console] 
GR File Edit View Misc Packages Windows Help 


> combn(letters[1:4],1) 
[1] [,2] [,3] [,4] 
EST Par "5". 7e" "dd 
> combn(letters[1:4],2) 
[:1] [,2] [,3] [,4] [,5] [,6] 
EE Par eat at V7 FT. "E” 
218 CR RP SRE CR Li 
> combn(letters[1:4],3) 
[/1] [,2]1 [,3] [,4] 
[1,] "a" "a" "a" "bp" 
LAS DT PDT CET FE” 
IS er Cd” 
> combn(letters[1:4],4) 
[1] "a" "b" "c" "qd" 
> 


> combn(segq(1:5),1) 
[1] [,2] [,3] [,4]1 [,5] 
[1,1] 1 2 3 4 5 
> combn(seg(1:5),2) 
[,1] [,2] [,3] [,4]1 [,5] [,6] [,7] [,8] [,9] [,10] 


> combn(seg(1:5),5) 
[LT Z 2.3 #45 
> | 


Le h 1 a 1 2 2 2 3 3 4 
[2,1] 2 3 à 5 3 el 5 d 5 5 
> combn(seg(1:5),3) 

[,1] [,2] [,3] [,4]1 [,5] [,6] [,7] [,8] [,9] [,10] 
[Li É 1 L 1 1 s À 2 à 2 3 
[241 2 2 2 3 3 à 3 3 el d 
[3,1 3 e 5 e 5 5 E 5 5 5 
> combn(seg(1:5),4) 

[-1] [,2] [,3] [,4] [,5] 
[1,] 1 1 1 1 2 
[2,1] 2 2 2 3 3 
[3:1 3 3 E - - 
[4,] 4 5 5 5 5 


Ou sinon au niveau des permutation et combinaisons on peut avoir les classiques avec le 


package gtools et les fonctions permutations( ) et combinations( ): 


R Statistical Software 


1883/3133 


Vincent ISOZ, Daname KOLANI 


Sciences.ch 


[1,1] 
[2,1] 
[3,1] 


[1,1] 

[2,1] 

[3,1] 

[4,1] 

[5,1] 

[6,1] 
> 


[1,1] 
[2,1] 
[3,1] 
[4,] 
[5,1] 
[6,1] 


[1,1] 
[2,1] 
[3,1] 
[4,1] 
[S,] 
[6,1] 
[7,] 
[8,1] 
[9,1] 


GR RGui (64-bit) - [R Console] 
R File 


Edit View Misc Packages Windows 


[1] 


a 


a 
mp" 


[1] 


a 


a 


a 
np" 
"p" 


c 


[1] 


a 


a 
mp" 
"bp" 


Les 


c 


[71] 


a 


a 


a 
"p" 
"pb" 
"bp" 


Les 


c 


Les 


> library("gtools") 
> combinations(3,2,letters[1: 


[,2] 
"b" 
LS 


LL LL 


Les 


> combinations(3,2,letters{i: 


[2] 


a 
"pb" 


Les 
el x id 


[es 


c 


> permutations(3,2,letters{i: 


[,2] 
*“L" 


[es 


a 


c 


a 
mp" 


> permutations(3,2,letters{1i: 


[,2] 


a 
np" 


c 


a 
"pb" 


c 


a 
"p" 


LL LL 


c 


Help 


3]) 


3],repeats=TRUE) 


3]) 


3],repeats=TRUE) 


Mais le package arrangements (pour les curieux) est bien plus complet pour information! 
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Exemple 11.: Opérations avec des data frame 
R 3.0.2 


Il peut arriver dans R que nous ayons parfois besoin de faire des calculs arithmétiques 
élémentaires. Voyons un exemple. Ouvrez le fichier CalculsSimple.csv: 


_ 


NI M OLA LA Lu & OO un 


Remarquez bien qu'il n'y a pas d'espaces dans les titres et que le séparateur est bien la virgule 


mn 


et non le ";". 


Nous allons d'abord le charger dans R avec la commande read.csv( ) et afficher son contenu: 
Ÿ 


Q 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> setwd{"C:/") 
> mydata = read.csv("CalculsSimples.csv") 
> mydata 

Productionitelieri Productionitelierz 


Le) 


© Oo © nn in © Oo © in 


1 

2 (a) 
3 2 
4 4 
5 4 
6 (a) 
7 (a) 
8 (a) 
9 S 
1 1 
> 
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Remarquez que s1 le fichier avait eu la structure suivante: 


"| CalculsSimples_PV.csv - E 


Edition Format Affichage 2 


NM On An Lo & OM On 


nous aurions pu aussi l'importer ainsi en étant encore plus complet: 


R RGui (64-bit) - [R Console] 
OR File Edit View Misc Packages Windows Help 


> setwd("C:/") 
> mydata<-read.csv("CalculsSimples PV.csv",header=T,sep=";",dec=".",encoding="UTr-8" )| 
> mydata 
ProductionAtelieri ProductionAtelier2 
.6 


V 2 10 © -J On O1 4 Où MN) 1 
kB OU © © © # #& D oO 
DOVE TO Nr CE 
D OO © Où Un & 4 © 


ou utiliser simplement: 
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R RGuï (64-bit) - [R Console] — O X 
KR File Edit View Misc Packages Windows Help F5 x 


> mydata=read.csv2("CalculsSimples PV. csv} sheader=T) 


mont 


puisque la fonction read.csv2( ) par défaut considère le séparateur comme un ";". 


Et nous pouvons demander un petit résumé avec la commande str: 


RGui (64-bit) - [R Conso 
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Productionitelieri Productionitelier2 
21.6 24.5 
Se 25.0 
15: 23.6 
20. 21.4 
19. 2453 
17. 20.5 
15. 24.5 
20. 25.0 
19. 23.6 
10 dde 23.2 
> strimydata) 
'data.frame!: 10 obs. of 2 variables: 
$ Productionitelieri: num 21.6 22 15.2 20.4 19.4 17 18 20 19.5 23.1 
$ Productionäitelier2: num 24.5 25 23.6 21.4 23.3 20.5 24.5 25 23.6 23.2 


SOJonEoun H 
HO OO&eER © 


et demander d'afficher les dimensions avec la commande dim( ) (lignes, colonnes): 
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R Fichier Edition Voir Misc Packages Fenêtres Aide 


25.0 

23.6 

21.4 

23.3 

20.5 

24.5 

25.0 

23.6 

10 . 23% 

> strimydata) 

‘'data.frame!: 10 obs. of 2 variables: 

$ Productionitelieri: num 21.6 22 15.2 20.4 19.4 17 15 20 19.5 23.1 
$ Productionitelier2: num 24.5 25 23.6 21.4 23.3 20.5 24.5 25 23.6 23.2 

> dimimydata) 

[1] 10 2 

> | 


2 
3 
4 
5 
6 
Fi 
8 
9 


4 


Remarque: str( ) signifie "structure" 


Maintenant, nous souhaiterions simplement une colonne qui contient la différence des deux. 
Pour se faire, nous allons utiliser la commande data.frame( ) qui permet de recréer des arrays 
dans la mémoire: x 


RGui (64-bit} - [R Con 


R Fichier Edition Voir Misc Packages Fenétres Aide 


sl] 


[1] 10 2 
> Mi<-mydatal, 1] 
> H2<-mydatal,2] 
> H3<-mydatal[,1]-mydatal,2] 
> NewMat<-data.frame (M1,M2,M3) 
> NewlMat 
Mi M2 M3 
21e 
22.0 
1558 
20.4 
19.4 
17.0 
18.0 
20.0 
19.5 


1 
2 
E 
4 
S 
| 6 
Fe 
8 
9 
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ou pour faire comme dans le livre Minitab avec la valeur absolue en utilisation fonction 
abs ): 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


BEC) 


> M3<-abs imydata[,1]-mydatal[,2]) 

> NewMat<-data.frame(M1i,M2,M3) 

> NewlMat 
Mi 

ele 

PTE 


= 
(=) 
= 
æ) 


15. 
20. 


0 © -J o Un & © DH 
© 4 On o © CO H O0 ON 
H k © On in 0 © + © 


HnO0O0O00O04#&EN 0 
So OU in oo EE o Oo in 


A noter que la première ligne ci-dessus aurait aussi pu être écrite: 
AC 


R RGui (64-bit) - [R Console] — 


KR File Edit View Misc Packages Windows Help = # x 


> M3<-abs (mydata{"M1"]-mydata{"M2"]) | 


Nous reviendrons plus en détails sur la manipulation des data frames dans un chapitre qui sera 
consacré à ce sujet à la page 498. 
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Exemple 12.: Statistiques descriptives élémentaires univariées 


de data frame 
R 3.0.2 


Nous importons le fichier suivant: 


E Format Affichage 2? 


l'N..Client"; "Activité"; "N..de.Commande";"Date.de.commande"; "Article"; "Quantité"; "Prix.par « 
"1":100; "Assurances" ;1;"03.01.2000"; "Compaq Presario 100'";:12;1650;"1.50%'";19503; "oui" E 
"2"":123;"Machines/Outils":2;"03.01.2000"; "IBM 500";2;2299:"0.00%'":4598; "oui" 
"3":109; "Éducation "';3;:"03.01.2000"';"AST Intel 150";5;:2690;"0.00%'";13450;: "oui" 
"4":104; "Éducation" ;4:"03.01.2000";"AST Intel 200";3;3190;"0.00%'";:9570; "oui" 
"5":117; "Banques" ;5;"04.01.2000"; "Compaq Presario 100";13;:1650;"1.50%";21128.25; "Oui" 
"6":103; "Assurances ":6: "04.01.2000": "AST Intel 150";:2;2690;"0.00%";5380;'"oui" 

; ;''Éducation";7;"04.01.2000"; ""AST Intel 200'";2;3190; "0.00% ;6380; ‘Oui 
"8";111;"Alimentaire":8; "04.01.2000"; "IBM 500";4;2299; "0.00%"; 9196; "out" 
°9":113; "Construction ";9;"04.01.2000"; "Compaq Presario 100";:4;:1650; "0.00%"; 6600; Oui" 
"10";116; Pharmaceutique" ;10;"04.01.2000"; "IBM 500";2;2299:"0.00%'";4598;'"oui" 
"11";:110;"Distribution";11;"05.01.2000";"AST Intel 200";:6:3190;"1.50%";:18852.9:"ou1" 
"12":112; "Machines/Outils";12;"05.01.2000"; "Compaq Presario 100'":6:1650;"1.50%";9751.5;"C 
"13":123;"Machines/Outils":13;"05.01.2000": "IBM 500'";6;:2299;:"1.50%";:13587.09:"Oui" 
"14":113; "Construction ":14;"05.01.2000";"AST Intel 150'";:3;:2690:"0.00%'";8070; Oui" 
"15":115; "Distribution" ;15; "05.01.2000"; "Compaq Presario 100";:8;1650;"1.50%";13002; "oui" 
"16";124; "Éducation" ;16; "05.01.2000"; "AST Intel 200'";:8;:3190;"1.50%';25137.2; Oui" 
"17":124; "Éducation" ;17;"05.01.2000"; "Compaq Presario 100";:11;:1650; "1.50%";:17877.75; "oui 
"18";:106; "Construction" ;18; "05.01.2000"; "AST Intel 200";11; 3190; "1.50%"; 34563.65;'"oui" 
"19";101; "Construction" ;19;"05.01.2000"; "Compaq Presario 100";14;1650;"1.50%";22753.5; "Nc 
"20";116; Pharmaceutique" ;20;"06.01.2000"; "IBM 500";7;2299;"1.50%";15851.605; ‘Non 
"21":112; "Machines/Outils";21;"06.01.2000":"AST Intel 150'":6:2690;"1.50%'";:15897.9;"oui" 
22"5125; "Construction";22; "06.01.2000"; "Compaq Presario 100":23:1650;"3.00%'";36811.5:"OL 
"23":100; "Assurances "';23:"06.01.2000"; "IBM 500";3;2299:"0.00%'":6897; "oui" 
“24":125; "Construction" ;24;"06.01.2000";"AST Intel 200";2;3190;"0.00%'";6380; "Oui" 
"25";:104; "Éducation" ;25;"07.01.2000";"AST Intel 150":12;:2690;"1.50%'";:31795.8;'"Oui" 
"26";126; '"Machines/Outils";26; "07.01.2000"; "AST Intel 150'";:24;:2690;"3.00%'";:62623.2;"oui" 
“27":121; "Pharmaceutique" ;27;"07.01.2000"; "IBM 500";8;2299;:"1.50%'";:18116.12; "Non" 
"28";114; "Distribution" ;28; "07.01.2000"; "AST Intel 200";9;3190;"1.50%";28279.35;"oui" 
"29";:103; "Assurances ";29;"07.01.2000"; "Compaq Presario 100";6;1650;"1.50%";9751.5;'"Oui" — 


« | (l 0 


Ce qui donne: 


1 Fichier Edition Voir Misc Packages Fenétres Aide [-Is|x] 


setwd("C:/") 


mydata=read.csv("Ventes.csv", header=T,sep=";") 
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Nous demandons quelques statistiques descriptives élémentaires comme max ), sd( ) , var) 
, median() , quantile() (attention!!! Se rappeler qu'il y neuf manières de calculer les 
quantiles à ce jour et donc les résultats différent d'un logiciel à un autre!), iqr() , mad() 
(respectivement: maximum, écart-type, variance, médiane, quantile — ou déciles, écart 
interquartile, déviation absolue de la médiane) d'une colonne particulière: 


R File Edit View Misc Packages Windows Help | lei 2e 


OISE SIIE) 


> mydata<-read.csv("c:/tmp/VentesClean.csv",header=T,sep=",") 

> attach(mydata,warn.conflicts = FALSE) #pour faciliter la suite 
|> 

|> (n<-length(Quantite)) #comptage 

[1] 109 

> sum(Quantite) #somme 

[1] 884 

> mean(Quantite) #moyenne 

[1] 8.110092 

> max(Quantite) #maximum 

[1] 33 

> min(Quantite) #minimum 

A] À 

|> range (Quantite) #étendue 

[1] L 33 | 
> diff(range (Quantite)) #étendue calculée 

[1] 32 

|> names (table (Quantite)) [table (Quantite)==-max(table (Quantite))] #valeur modale (sans package) 
[ET "2" 

> var(Quantite) #variance biaisée 

[1] 39.87666 

> var (Quantite)*n/(n-1) #variance non biaisée 

[1] 40.24588 

> sd(Quantite) #écart-type biaisé 

[1] 6.314797 

|> sd(Quantite)*(n/(n-1))"2 #écart-type non biaisé 

[1] 6.432279 

> 

> median(Quantite) #médiance 

| [1] 6 

|> quantile (Quantite,0.5) #quantile 

| 50% 

6 

|> IQR(Quantite) #étendue interquartile 

[1] 7 

> mad(Quantite) #déviation absolume moyenne à la médiane 

[1] 4.4478 

x 

> sd(Quantite)/mean(Quantite) #coefficient de variation paramétrique 

| [1] 0.7786344 

> mad(Quantite)/median(Quantite) #coefficient de variation non-paramétrique | 
[1] 0.7413 

> 

> abs (mean (Quantite)-mean(sample (Quantite,50))) #biais de la moyenne 
| [1] 0.4899083 

>| 


ou encore les semi-variance ou semi-écart-type très utilisé en finance: 
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UR RGui (64-bit) - [R Console] — O 


GR File Edit View Misc Packages Windows Help & X 


> library(PerformanceAnalytics) 
> SemiDeviation(mydata$Quantité) 
[1] 3.286143 

> SemiVariance (mydata$Quantité) 
[1] 3.988263 

> | 


Pour le coefficient de variation on peut aussi utiliser la fonction cvar() du package BioStatR 
au besoin: 


GR RGui (64-bit) - [R Console] = 


O 


GR File Edit View Misc Packages Windows Help 


> library("BioStatR") 

> cvar (mydata$Quantité) 

[1] 77.86344 

> TFou: :5 

> sd(mydata$Quantité)/mean(mydata$Quantité) 
[1] 0.7786344 

> | 


Les quantiles étant importants dans la pratique, investiguons un peu quelques syntaxes 
possibles: 
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> quantile imydata$Quantité,probs=c(0.1,0.9)) 
10% 90% 


3.2 23.8 

> quantile (mydata$Quantité,probs=1:10/10) 

10% 20% 30% 40% 50% 60% 70% 680$ 90% 100* 
3.2 5.4 7.6 9.8 12.0 14.2 17.2 21.6 23.8 33.0 
> | 


ou la commande fivenum() qui renvoie respectivement le minimum, le 1° quartile de Tukey, 
la médiane (50°"° centile), le 3°" quartile de Tukey (75° centile) et le maximum: 


KR Fichier Edition Voir Misc Packages Fenétres Aide 


> fivenumimydata$Quantite) 
[1] 1 4 6 11 33 
> | 


Il y a aussi la commande summary( ) : 


KR Fichier Edition Voir Misc Packages Fenêtres Aide 


> summary (mydata$fQuantité) 

Min. ist Qu. Median Mean 3rda Qu. Max. 

1.00 4.00 6.00 8,11 11.00 33.00 

> summary(imydata[,1:6]) 

N..Client Activité N..de.Commande Date.de.commande Article Quantité 
Min. :100. Construction :21 Min. 5 1 19.01.2000:10 AST Intel 150 :21 Min. 5 1. 
ist Qu.:105. Éducation :19 ist Qu.: 28 05.01.2000: 9 AST Intel 200 2:32 ist Qu.: 
Median :113. Machines/Outils:18 Median : 55 26.01.2000: 9 Compaq Presario 100:29 Median : 
Mean :112. Distribution :13 Mean 5.55 18.01.2000: 8 IBM 500 1:27 Mean 
3ra Qu.:120. Pharmaceutique :12 3rd Qu.: 82 04.01.2000: 6 3rd Qu.:11. 

1127 Assurances 210 Max. :109 07.01.2000: 6 Max. 133: 
(Other) :16 (Other) :61 


> | 
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dont il est possible de voir toutes les méthodes puisqu'il s'agit d'une méthode the type "S3" 
(permettant de voir alors toutes les analyses sur lesquelles la commande summary( ) 


s'applique par défaut dans R): 


fe RGui (64-bit) - [R Console] 


ŒR File Edit View Misc 


BROSSE 


> methods (summary) 


[1] 

[3] 

[S] 

[7] 

[3] 
[11] 
[13] 
[15] 
[17] 
[19] 
[21] 
[23] 
[25] 
[27] 
[23] 
[31] 
[33] 


>| 


summary. 
summary. 
summary. 
summary. 
summary. 
summary. 
summary. 
summary. 
summary. 
summary. 
summary. 
summary. 
summary. 
.proc time 
summary. 
summary. 
summary. 
see ‘?methods' 


summary 


aov 
aspell* 
connection 
Date 

ecdf* 

glm 

1m 

manova 

mlm* 
packageStatus* 
PDF_Stream* 
POSIXIt 
prcomp* 


srcref 
stl* 
tukeysmooth* 


Packages Windows 


Help 


summary.aovlist* 
summary.check packages in _dir* 
summary.data.frame 
summary.default 
summary.factor 
summary.infl* 
summary.loess* 
summary.matrix 
summary.nls* 
summary.PDF Dictionary* 
summary.POSIXct 
summary.ppr* 
summary.princomp* 
summary.srcfile 
summary.stepfun 
summary.table 


for accessing help and source code 


ou encore avec les commandes unique( ) et length( ) : 
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OISGESIOIE 


> unique (imydata$fQuantité) 
[1] 12 2 5 3 13 4 6 8 11 14 723 24 9 16 1 21 10 22 33 15 19 31 
> unique (mydata$ärticle) 
[1] Compaq Presario 100 IBM 500 AST Intel 150 AST Intel 200 
Levels: A5T Intel 150 A5T Intel 200 Compaq Presario 100 IBM 500 
> lengthimydatafäirticle[mydata$ärticle==' IBM 500']) 
[1] 27 
> lengthiunique imydataf$irticle)) 
[1] 4 
> table (mydata$irticle) 


AST Intel 150 AST Intel 200 Compaq Presario 100 IBM 500 
21 Se 29 27 
> tapply(mydata$N..Client,mydatafairticle, FUN=length) #presque tjs plusieurs manières d'obtenir la même chose 
AST Intel 150 AST Intel 200 Compaq Presario 100 IBM 500 
21 32 29 Fi 
> | 


« 


ou Encore: 


R … 
KR File Edit View Misc 


> mydata<-read.csv("c:/tmp/VentesClean.csv",header=T,sep=";:") 
> summary (cut (mydata$Quantite,breaks=seq(0,20,length.out=5),right=F)) 
| [0,5) [5,10) (10,15) [15,20) NA's 

35 42 19 4 9 


RARE RE ON HU de ent NME D de de SL Se on M D do 9 En 


ou encore pour avoir la catégorie modale textuelle (11 existe de nombreuses techniques) en 
d'autres termes. une table des fréquences: 
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setwud{i"C:/"] 
mydata<-read.csv{("Ventes.csv",header=T,sep=":") 
mydata<-aggregate (mydata[1],by=1list (Activité) ,FUN=length) 
colnames (mydata) <-c{"Secteurs","Fréquences") 
mydata<-mydata[order (mydatafFréquences,decreasing = TRUE),] 
mydata 

Secteurs Fréquences 
4 Construction 21 
6 Éducation 19 
7 Machines/Outils 
5 Distribution 
8 Pharmaceutique 
z issurances 
3 Banques 
1 ilimentaire 
> mydata[1,1] #Première secteur (valeur modale textuelle) 
[1] Construction 
5 as Alimentaire issurances Banques ... Pharmaceutique 
> 


CO 
NS 
2 2 x AN 
et pour des valeurs numériques l'idée est la mêfñe: 
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setwd("C:/"] 
mydata<-read.csv("Ventes.csv",header=T,sep=";:") 
mydata<-agqregate (mydata[1] ,by=1list (mydata$ Quantité) ,FUN=length) 
colnames (mydata) <-c ("Quantité",'"Fréquences") 
mydata<-mydata[order (mydatafFréquences,decreasing = TRUE),] 
mydata[1:5,] 
Quantité Fréquences 

2 13 

6 12 

4 LL 

5 11 

3 9 
mydata[1i,1i] #valeur modale 
ll. 


h 


VMNMNNNVV 
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NO 
Ou en passant par la fonction mlv() du packagë modeest: 


RGui (64-bit) - [R Console. 


R File — View Misc Packages Windows Help 


> library (modeest) 

> mlyv(mydata$Quantite) 

Mode (most frequent value): 2 
Bickel's modal skewness: 0.84404 

Call: mlv.integer(x = mydata$Quantite) 
> mlv(mydata$Quantite) [1] 

SM 

[1] 2 


> | 


Il y a aussi la commande describe( ) du package psych qui permet de se faire une idée du 
contenu d'un data frame: 
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> describe (mydata) 
Description of mydata 


Numeric 

mean median var sd 
NClient 112,6 113 68.73 8.29 
NCommande 55 55 999.2 31.61 
Quantite Es LL 6 39.68 6.315 
PrixParPiece 2463 2299 3.508e+05 592.3 
PrixTotalivecRabais 1.6876e+04 1.359e+04 2.287%7e+08 1.512e+04 


Factor 


ictivite 

Value Count Percent 
Construction 21 
Éducation 19 
Machines/Outils 18 
Distribution 

Pharmaceutique 12 
Assurances 10 

Banques 9 8.26 
Alimentaire 7 6.42 
mode=Construction Valid n=109 


DateDeCommande 
Value Count Percent 
19.01.2000 10 

05.01.2000 
25.01.2000 
15.01.2000 
04.01.2000 
07.01.2000 
12.01.2000 
24.01.2000 
27.01.2000 


non on on © (0 WW 
Un On Ün On On -J © © 


« 


Il y a aussi la commande native brkdn() qui signifie "breakdown" qui donne quelques 
informations triviales: 
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> mydata<-read.csv("C:/VentesClean.csv",sep=":", header=T): 
> brkdn(Quantite - Article,mydata) 


EBreakdowun of Quantite by drticle 
Level mean var valid.n 
AST Intel 150 8.38 70.35 
AST Intel 200 7 33.55 
Compaq Presario 100 11:95 38.97 
IEM SO0 5.52 7.8 
> | 


Comme la skewness (coefficient d'asymétrie) et le kurtosis (coefficient d'aplatissement) ne 
sont pas intégrés dans R, voyons comment les calculer en évitant d'installer des packages pour 
ce genre de détails: 


R Fichier Edition Voir Misc Packages Fenétres Aide 


> skew<-function(x) {mean((x-mean(x))"3)/sdix)"3} 
> skewimydataf$Quantité]) 


[1] 0.549452 
> kurtosis<-function(x) {mean((x-mean(x))*4)/sdix)*4} 
> kurtosis (mydata$fQuantité) 


[1] 2.272146 
> | 


Attention, 1l y a plusieurs manières de calculer la skewness et le kurtosis (en prenant la 
variance biaisée par exemple au lieu de la non biaisée ou encore simplement en se basant sur 
d'autres définitions). Par exemple, en installant le package moments: 
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> install.packages( "moments")| 


Nous avons alors: 
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> libraryimoments) 

> skewness (mydatafQuantité) 
[1] 0.5873372 

> kurtosis(mydatafQuantité]) 
[1] 2.272146 

> | 


De même avec la package PerformanceAnalytics, etc. 


Sinon, toujours en restant dans le domaine des packages, nous avons en utilisant le package 
pastecs: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> install.packages ("pastecs") 

Installing package into ‘C:/Video2Brain/Packages’ 

{as ‘lib’ is unspecified) 

essai de l'URL 'http://cran.rstudio.com/bin/windows/contrib/3.0/pastecs 1.3-15.zip' 
Content type 'application/zip' length 1630115 bytes (1.6 Mb] 

URL ouverte 

downloaded 1.6 Mb 


le package ‘pastecs’ a été décompressé et les sommes MDS5 ont été vérifiées avec succés 


Les packages binaires téléchargés sont dans 

C:\Users\lsoz Vincent\äppDataiLocal\Temp\RtmpOuiqCe downloaded packages 
> library(pastecs) 
Le chargement a nécessité le package : boot 


ittachement du package : ‘hoot’ 
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nous avons alors en utilisant la commande stat.desc( ) : 


RGui (64-bit) - [ 
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> stat.desc (mydata$Quantite) 
nbr.val nbr.null nbr.na min Max range 
109.0000000 0.0000000 0.0000000 1.0000000 33.0000000 32.0000000 


sur median mean SE.mean CI.mean.0.95 Var 
884.0000000 6.0000000 8.1100917 0.6048478 1.1989133 39.8766565 
std.dev coef.var 
jo C* 0.7786344 
> 


ou encore avec le package psych: 
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> install.packages ("psych") 

Installing package into ‘C:/VideoZ2Brain/Packages’ 

(as ‘lib’ is unspecified) 

essai de L'URL 'http://cran.rstudio.com/bin/windows/contrib/3.0/psych 1.3.12.zip' 
Content type 'application/zip' length 2700738 bytes (2.6 Mb) 

URL ouverte 

downloaded 2.6 Mb 


le package ‘psych’ a été décompressé et les sommes MDS ont été vérifiées avec suc$ 


Les packages binaires téléchargés sont dans 
C:\Users\Isoz Vincent\äppDataiLocal\Temp\RtmpOuiqCe downloaded packages 
> library(psych) 


Attachement du package : ‘psych’ 


L'objet suivant est masqué from ‘package:boot’: 


logit 


nous avons en utilisant la commande describeBy( ) : 
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> describeEy(mydata$Quantite,mydatafirticle) 
group: ÀST Intel 150 
var n mean sd median trimmed mad min max range skew kurtosis 
1 21 8.38 8.39 6.82 4.45 


group: ST Intel 200 
var n mean sd median trinmmea mad min max 
7 5.79 5.85 3.71 


group: Compaq Presario 100 
Var n mean sa median trimmed mad min max range skew kurtosis se 
1 29 11.55 6.24 11 10.88 5.93 4 31 27 1-14 1.23 1.16 


group: IBM 500 
var n mean sd median trimmed mad min max range skew kurtosis se 
1 27 5:52 2,79 5 5,3 2:97 g 1e 10 0.59 -0.52 0.54 


ou encore avec la fonction summary_stats() du package descriptr: 


R RGui (64-bit) - [R Console] LB 


GR File Edit View Misc Packages Windows Help lex 


> library("descriptr") 
> summary stats (mydata$Quantité) 
Univariate Analysis 


N 109.00 Variance 39.88 
Missing 0.00 Std Deviation 6.31 
Mean 8.11 Range 32.00 
Median 6.00 Interquartile Range 7.00 
Mode 2.00 Uncorrected 55 11476.00 
Trimmed Mean 7.49 Corrected 55 4306.68 
Skewness 1.70 Coeff Variation 77.86 
Kurtosis 3.14 Std Error Mean 0.60 
Quantiles 

Quantile Value 

Max 33.00 

99% 30.44 

95% 15.20 

90% 22.00 

o3 11.00 

Median 6.00 

Qi 4.00 

10% 2.00 

5% 2.00 

1$ 1.08 

Min 1.00 


Extreme Values 


Low High 
©bs Value ©bs Value 
41 £ 75 33 
46 1 gg 31 
2 2 26 24 
6 2 22 23 
7 2 37 23 
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Exemple 13.: Kurtosis (aplatissement) et Skewness (asymétrie) 
R 3.1.1 


Comme il y a un grand nombre de méthodes pour calculer le Kurtosis (aplatissement) et le 
Skewness* (asymétrie), je tiens toujours à les traiter à part (même si nous les avons abordés 
plus haut très naïvement!). 


Considérons l'exemple suivant utilisant les fonctions kurtosis() et skewness() du package 
e1071 (il y a aussi le package moment qui contient les mêmes fonctions): 


FE 
R RGui (32-bit) - [R Console] ._— me — 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> mesures<-c(0.1685,0.1705,0.1708,0.1713,0.1728,0.1732,0.1735,0.1739,0.174,0.1747) 
> library(e1071) 

> skewness (mesures, type=1) 

[1] -0.6475662 

> kurtosis(mesures,type=1) " 
[1] -0.6726139 

> skewness (mesures, type=2) 
[1] -0.767919 

> kurtosis (mesures, type=2) 
[1] -0.2247996 || 
> skewness (mesures) 
[1] -0.5529017 

> kurtosis (mesures) 
[1] -1.114817 

> 


Nous conseillons vivement au lecteur de se concentrer sur le type 2. Effectivement, à ce 
moment là, nous retrouvons les mêmes valeurs que Minitab, Excel et SPSS. 


Dans R, nous aurons alors les règles suivantes: 


e _Sile skewness est nul, la distribution est symétrique (cela ne signifiant pas que la 
symétrie a lieu sur un pic de la distribution car dans le cas bimodal l'axe de symétrie 
peut-être entre les deux valeurs modales symétriques). Si le skewness est positif, la 
distribution (la valeur modale/médiane) est penchée à droite (ou il y a des valeurs 
extrêmes à droite). Si le skewness est négatif, la distribution (la valeur 
modale/médiane) est penchée à gauche (ou il y a des valeurs extrêmes à gauche) 


e _Sile kurtosis est nul (mesokurtique) alors l'aplatissement est similaire à celui d'une 
distribution Normale. Si la valeur d'excès est supérieure à 0 alors la distribution 
d'intérêt (leptokurtique) est alors plus haute que celle d'une distribution Normale à 
moyenne égale (inversement - platikurtique - si l'excès de kurtosis est négatif bien 
évidemment) 


4 Au moins 11 méthodes de calculer le Skewness. Voir l'étude de Tabor, J. (2010), “Investigating the 
Investigative Task: Testing for Skewness - An Investigation of Different Test Statistics and their Power to Detect 
Skewness,” Journal of Statistics Education, 18, 1-13. www.amstat.org/publications/jse/v18n2/tabor.pdf 
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Sinon à titre de comparaison (le premier est appelé "coefficient d'asymétrie de Fisher- 
Pearson" et le seconde "” coefficient d'asymétrie ajusté et standardisé de Fisher-Pearson"): 


et: 


CN—D((N +Dx, —3(N+D) 
Lu (N—2KN 3) | 
ee NW+D GS, __ 3-1) 
 (N-D(N-2XN-3)  (N-2XN -3) 
K, =K, —3 
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Skewness R -0.647(y1),-0.77(y2), -0.552(y3) 
MATLAB -0.647(y1),-0.77(y2) 
Mathematica -0.647(y:) 
Minitab, SPSS, Excel -0.77 (y3) 

Kurtosis R -1.114(K5),-0.22 (K3),-0.67 (K4) 
MATLAB 2.327 (K1),2.775(K2) 
Mathematica 2.327(k1) 
Minitab, SPSS, Excel -0.22 (K3) 


Voici sinon l'exemple utilisant la fonction de distribution de Dagum (appelée aussi "fonction 
éléphant") dont nous avons fait mention dans le cours théorique (fonction non symétrique 


mais avec Skewness nul): 


R Statistical Software 
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@R Console 


> library("VGAM") 

> library(knotR) 

> y<-rdagum(n = 10000000, scale = 1, shapel = 18.89306, shape2 = 0.05975542) 
> plot (density(y),main="",xlab="",ylab="",yaxt="n",xaxt="n") 
> par (new=TRUE) 

> ear.x <- c(0.686, 0.501, 0.42, 0.68) 

> ear.y <- c(0.698, 0.315, 1.095, 0.983) 

> myseg(bezier(chind(ear.x, ear.y))) 

> par (new=TRUE) 

> points(0.8,0.8, pch=19, cex=2) 

> par (new=TRUE) 

> hist(y) 

> library("moments") 

> skewness (y) 

[1] 1.908e-04 


MR Graphics: Device 2 (ACTIVE se E4 


Histogram of y 
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y 


Pour ceux qui veulent aller plus loin dans le diagnostic, toujous avec notre jeu de données 
initial, en utilisant la fonction descidist(}) du package fitdistrplus, nous avons: 
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M RGui (64-bit) - [R Console] - D 


R File Edit View Misc Packages Windows Help IE 


EC] 


> mesures<-c(0.1685,0.1705,0.1708,0.1713,0.1728,0.1732,0.1735,0.1739,0.174,0.1747) 
> library("fitdistrplus") 

> descdist (mesures) 

summary statistics 

min: (0.1685 max: 0.1747 
median: (0.173 

mean: (0.17232 

estimated sd: 0.001961745 


| estimated skewness: -0.767919 
estimated kurtosis: 2.7752 
>| 


Ce qui donne comme graphique de diagnostique: 


# 


QR R Graphics: Device 2 (ACTIVE) EIRE 


Cullen and Frey graph 


# Observation Theoretical distributions 


* normal 

& uniform 

® exponential 

+ logistic 

D beta 
lognormal 


777 gamma 
(Weïbull is close to gamma and lognormal) 


kurtosis 


0 1 2 3 - 


square of skewness 


Figure 2 Graph de Cullen et Frey 
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Exemple 14.: Statistiques descriptives élémentaires 


multivariées de data frame 
R 3.0.2 


Commençons par deux grands classiques en utilisant les données suivantes utilisées dans le 
cours théorique: 


Fichier Edition Format Affichage 2 


Crédit Lyonnais;France Télécom;Lafarge;Saint-Gobain;Total Fina Elf 
-0.017516 ; -0.328775 ; 0.023053 ; 0.003086 ; 0.000615 
-0.198426 ; -0.020374 ; -0.104156 ; -0.106509 ; -0.093423 
0.122761 ; 0.197863 ; 0.103410 ; 0.023046 ; 0.057627 
-0.034988 ; 0.063419 ; 0.038501 ; 0.054376 ; -0.086538 
-0.000267 ; 0.018141 ; 0.023415 ; 0.040521 ; 0.125614 
-0.002667 ; -0.172160 ; -0.060057 ; -0.023602 ; 0.015586 
0.021390 ; -0.180791 ; 0.009128 ; 0.084602 ; 0.042971 
0.142932 ; 0.153366 ; 0.030151 ; 0.042345 ; 0.041789 
0.072148 ; -0.232346 ; 0.027317 ; 0.015608 ; -0.049718 
-0.034822 ; -0.229599 ; 0.037037 ; 0; -0.007729 
-0.039398 ; -0.545980 ; -0.075092 ; -0.043158 ;: -0.014979 
-0.082719 ; 0.558855 ; -0.110891 ; -0.329373 ; -0.102798 


La matrice des variances-covariances s'obtiendra à l'aide de la commande cov() et la matrice 
à nn. ve K 
des coefficients de corrélations à l'aide de la commande cor( ) : 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> setwd{"C:/"] 
> mydata<-read.csv("VariationsTitres.csv",header=T,sep=";:") 
> #matrice des variances-covariances non biaisée (donc avec le n-1 au dénominateur 
> covimydata) 

Crédit.Lyonnais France.Télécom Lafarge Saint.Gobain Total.Fina.Elf 
Crédit.Lyonnais 0.008314481 0.0012552396 0.0044392901 O0.005360491 0.003719678 
France.Télécom 0.001255240 0.0829056374 0007385008 -0.015753161 -0.003122089 
Lafarge 0.004439290 -0.0007385008 O0.0044068038 0.005371749 0.002415016 
Saint.Gobain 0.005360491 -0.0157531613 0.0053717490 0.011983778 0.004456106 
Total.Fina.Elf 0.003719678 -0.0031220887 -0024150157 0.004456106 0.004732372 
> #matrice des coefficients de corrélations (estimateur non biaisé aussi) 
> cor (mydata) 

it.Lyonnais France.Télécom Lafarge Saint.Gobain Total.Fina.Elf 

Crédit.Lyonnais .00000000 0.04780981 0.73338852 .5370196 .5929914 
France.Télécom .-04780981 1.00000000 -0.03863644 -0.4997799 -.1576209 
Lafarge .73338852 -0.03863644 1.00000000 0.7391915 .5288331 
Saint.Gobain .53701959 -0.49977992 0.73919150 .-0000000 .5917240 
Total.Fina.Elf -59299138 -0.15762088 0.52883313 0.5917240 .- 0000000 


> | 


Si on installe le package ellipse: 
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; 
Re RGui (64-bit) - [RC 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> install.packages("ellipse") 

Installing package into ‘C:/VideoZ2Brain/Packages’ 

{as ‘lib’ is unspecified) 

--- SVP sélectionner un miroir CRAN pour cette session --- 

essai de l'URL 'http://cran.rstudio.com/bin/windows/contrib/3.0/ellipse 0.3-8.zip' 
Content type 'application/zip' length 48607 bytes (47 Kb] 

URL ouverte 

downloaded 47 Kb 


le package ‘ellipse’ a été décompressé et les sommes MDS ont été vérifiées avec succés 
Les packages binaires téléchargés sont dans 


C:\Users\lsoz Vincent\aäppDataLocal\Temp\Rtmps50zok\ downloaded packages 
> 


Nous pouvons ensuite représenter l'une ou l'autre des ces deux matrices sous la forme des 
ellipses de corrélation de la loi Normale bivariée avec la commande plotcorr() du package 
ellipse: 
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> setwd{"C:/") 
> mydata<-read.csv("VariationsTitres.csv",header=T,sep=":#) 
plotcorr (cor (mydata) ,main="Matrice des corrélations") 


Matrice des corrélations 


France Télécoi 


T 
= 
= 
© 
= 
— 
£ 
T 
“D 
— 
O 


Saint. Gobain 
Total Fina.Elf 


Crédit Lyonnais 
France Télécom 
Lafarge 
Saint.Gobain 


Total. Fina.Elf 


Figure 3 Graph de corrélation avec orientations 


ou avec les packages ggplot2 et reshape2 nous pouvons construire une heatmap de 
corrélations avec les fonctions qplot() et melt( ) : 
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e 


R R Console SEE 


> libraryiggplotz2) 

> libraryi(reshape2) 

> mydata<-read.csv{"C:/VariationsTitres.csv",header=T,sep=";") 

> qplot(x=Vari,y=Var2,data=melt (cor (mydata)),fill=value,geom="tile") 


Total.Fina.Elf- 


Saint.Gobain - 
Lafarge — 
France.Télécom - 


Crédit.Lyonnais — 


| ! 1 1 ! 
Crédit. Lyonhamce. Télécom Lafarge Saint. Gobaiñotal.Fina.Elf 


Var1 


Figure 4 Graph matrice de corrélätion sous forme de carte à chaleur 


Au niveau des légendes ce n'est pas super. Nous pouvons faire mieux: 


R Statistical Software 216/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 
R # Console (EN ESNE 


… 


> library (ggplot2) 
> library (reshape?2) 
> df<-melt (cor (mydata) ,varnames-c("Titres X","Titres Y")) 
> ggplot(df,aes(Titres X,Titres _Y)) +geom_tile (aes (fill-value) )+ 
+ scale fill continuous (guide-guide legend(title="Corr.")) 
Total Fina Fl- 
Saint Gobain - 


Lafarge - 


France Télécom - 


Crédit Lyonnais 


L L L L L 
Crédit Lyonn#imnce Télécom Lafarge Saint Gobain Total. Fna EN 


Titres_X 
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7. Manipulation de variables de type algébriques, 
vectorielles, matricielles, textes, dates temps 
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Exemple 15.: Manipulations de variables vectorielles 
R 3.02 


Le calcul vectoriel/matriciel a une importance majeure en statistiques et en finance. Il 
convient donc de voir si les opérations de base sont bien présentes avant de poursuivre et 
surtout (Je le répète) de pouvoir faire plus tard du scripting. 


Voyons les cas classiques que l'on retrouvera énormément de fois même en dehors du 
scripting (gestion de data frame, génération de graphiques, etc.). Voici déjà une première série 
de commandes utiles utilisant les commandes c() , sum( ) , cumsum( ) , diff( ) , max(), 
min( ) , sort() , length ) : 


= 


| RGui (64-bit} - [R Conso 
R Fichier Edition Voir Misc Packages Fenêtres Aide 


> x<-c(1,3,2,10,5) #création d'un vecteur de 5 composantes 
e- 
[1] 21 3 2 10 5 
> v<-1:5 #création d'un vecteur de 5 entiers consécutifs 
> Y 
LL 22 3 45 
> y+2 #addition scalaire 
1[1134567 
> 2Ty #multiplication scalaire 
Lil: 2 6 10 
> v'a #carré composante par composante 
[1] 1 9 25 
> x+y #addition de deux vecteurs 
[1] 2 = 10 
> xfy #multiplicatio composante par composante 
EL] À 6 25 
> x/y #division composante par composante 
[1] 1.0000000 1.5000000 0.6666667 2.5000000 1.0000000 
> sumix) #sonme des composantes du vecteur x 
[1] 21 
> cumsumix) #somme cumulée des composantes 
[1] 1 4 6 16 21 
> diffix) #différence composante par composante 
[1] 2 -1 8 -5 
w AIT IX; 2) #différence composante par composante par pas de 2 
EL, 1.7 3 
> max{(x) #plus grande composante 
[1] 10 
> minix) #plus petite composante 
[1] 1 
> sort{(x) #tri croissant 
C1] 1 2 3 S 10 
> sortix,decreasing=T) #tri décroissant 
EL 10 5 3° 2 L 
> lengthix) #dimension du vecteur 
[11] 5 
> | 


« 


et une deuxième série utilisant les commandes as.numeric( ) , seq() et rep( ) : 


R Statistical Software 219/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


RGui(64-bi)- [R Conso 
R Fichier Edition Voir Misc Packages Fenétres Aide 


ÉSOSECSOIE 


> x[3] #troisième composante du vecteur 
CAT: 2 
> x[(3:5] fde la 3ème à la 5ème composante 
[E]: 2 10 5&S 
> x[-2] ftout excepté la deuxième composante 
[i] 1 210 5 
> x[x>3] #composantes dont la valeur est supérieur à 3 
Ci1. 10.5 
> x>3 #transformation d'un vecteur en valeur booléennes 
[i] FALSE FALSE FALSE TRUE TRUE 
> as.numeric(x>3) #idem mais sortie en chiffres 
ÉEI 9 670 À Z 
> sumix>3) #sonme des éléments supérieurs à 3 
[1] 2 
> (l1:1ength(x))[x<=2] #numéro d'indice des composantes plus petit ou égal à 2 
[a] À 3 
> x<-seg(0,1,length=0.1) #création rapide d'un vecteur de séquence particulière 
> x 
[41 0 
> x<-seq(0,1,length=10) foréation rapide d'un vecteur de séquence particulière 
> x 
[1] 0.0000000 0.1111111 0.2222222 0.3333333 0.4444444 0.5555556 0.6666667 0.7777778 
[9] 0.66866869 1.0000000 
> x<-seq(0,1,length=9) #création rapide d'un vecteur de séquence particulière 
> x 
[1] 0.000 0.125 0.250 0.375 0.500 0.625 0.750 0.875 1.000 
> repi"CHF",3) 
[LI "CHF" "CHF" "CHF" 
> c(rep("CHF",3),seq(0,1,length=9)) 
[1] CHF Li: 1 ji ROCHE "0° 041287 M0.25%)) *0:325% "O:5*r t0:625" °0:75" 
\à "9,975" F1 
> 
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et enfin le calcul de norme et du produit scalaire avec les commandes crossprod(}) (oui c'est 
trompeur.… crossprod( ) est dans R, le produit d'un vecteur et de la transposée d'un autre 


vecteur et non pas le produit vectoriel que nous allons voir plus bas) , norm() et avec la 
transposition t( ) : 


R Fichier Edition Voir Misc Packages Fenêtres Aide | 


> At=cil;2,:2;:1D;,5) 

> sqrticrossprod(x)) #norme du vecteur 
C;1] 

[1,] 11.789883 

> sqctisum(x*2)) #toujours la norme... 

[1] 11.785983 

> normi(x,type="2") 


[1] 11.786983 

> crossprod(ix,x) #produit scalaire 
[;1] 

[1,] 139 

> TX) Tx 
C:1] [,21 [,3] [,4] [,s5] 

[C1,] 1 9 4 100 25 

> sumit (x) fx) 

[1] 139 

> | 


et donc nous ne pouvons curieusement pas obtenir directement le produit scalaire en 
multipliant la transposée d'un vecteur par un autre (dommage même si c'est un détail...). 


Maintenant voyons comme faire le produit vectoriel. Pour cela nous allons charger le package 
pracma et utiliser sa fonction cross ): 


R RGui (64-bit) - [R Console — (e 


R File Edit View Misc Packages Windows Help = 5 


library("pracma") 

x<-c(1,0,0) 

y<-c(0,1,0) | 
cross(x,x) | 
[1] O0 O O0 

> cross(x,y) 
[LT O0 O0 

> cross(y,x) 
[11 0 O0 -1 
> 


AAA" 
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Nous pouvons aussi nommer ou dénommer les composantes d'un vecteur si besoin avec les 
fonctions setNames() ou unname ) : 


R RGui (64-bit) - [R Console] = (a X 
KR File Edit View Misc Packages Windows Help -_ 5 x 


&] 


> x<-c(1,3,2,10,5) 
> x<-setNames(x,c("a","b","c","d","e")) 
> x 
d e 
2 10 5 


> x<-unname (x) 


> x 
[1] 1 3 210 5 
> | 


Attention!!! Lors de la somme de deux vecteurs de dimensions différentes, les développeurs 
de R ont fait un choix que nous trouvons dangereux! Voir l'exemple ci-dessous: 


R RGui (64-bit) - [R Console] — O X 
R File Edit View Misc Packages Windows Help 


> Ec-C(5,4,3,2, 1) 

> y<-c(1,2,3) 

> xX+y 

[1] 666 3 3 

Warning message: 

In x + y : longer object length is not a multiple of shorter object length 


> | 
G 


En d'autres termes, le vecteur y est "recyclé" autant de fois que nécessaire pour la somme se 
fasse!! Donc attention quand vous écrivez des programmes (scripts) de vérifier que les 
vecteurs aient les mêmes dimensions car R passe outre cette vérification contrairement à la 
majorité des logiciels de calculs scientifiques. 


Relativement à une question que j'ai eue via Internet... considérons le vecteur suivant et sa 
classe: 
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=] 


R File Edit View Misc Packages Windows Help 


> x <- c(123, "cats", TRUE); 
> classi(x) | 
[1] "character" 


Lorsqu'un vecteur contient un mélange de typage de données, R choisit le type qui semble le 
mien convenir. Quand cela arrive dans certains outils statistiques de R, un message indique 
souvent que le vecteur "has been coerced into factors" ce qui signifie qu'il a choisit de 
convertir la colonne en une colonne de type "facteurs". Dans la capture d'écran ci-dessus, R a 
choisit assez logiquement de convertir l'ensemble du vecteur en un vecteur de type caractères. 


Voyons maintenant deux fonctions vectorielles particulières, appelées "maximum parallèle" et 
"minimum parallèle" et écrites pmax( ) et pmin( ), utilisées surtout en finance quantitative 
(nous verrons une application dans la section concernant le pricing d'options vanille 
européennes via la méthode de Monte Carlo avec une réduction de la variance basée sur les 
variables antithétiques!): S 
& 
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Exemple 16.: Estimateurs robustes, M-estimateurs de 


localisation et d'échelle 
R 3.02 


Toujours dans les vecteurs regardons que la moyenne arithmétique mean( ) et sa version 
élaguée soient bien présentes: 


R RGui (64-bit) - [R Console] _ O] 


| File Edit View Misc Packages Windows Help eo X 


|> mydata<-c(2,3,4,6,8,10,12,14,18,27) 
> mean (mydata, trim=0.2) 
[1] 9 


Ainsi que la classique et non moins importante æ#ôyenne pondérée* weighted.mean( ) : 
Q 


BR RGui (64-bit Console 0 


File Edit View Misc Packages Windows Help … EX 


> mydata<-read.csv("Ventes.csv",header=T,sep=";") 
mydata<-aggregate (chind(Quantité,Prix.total.avec.rabais)-Activité,data=mydata,sum,na.rm=TRUE) 


vv 


mydata 

Activité Quantité Prix.total.avec.rabais 
1 Alimentaire 46 99929,55 
2 Assurances 72 160881.35 
3 Banques 74 151074.65 
4 Construction 157 350426.74 
5 Distribution 109 282693.40 
6 Éducation 150 328367.95 
7 Machines/Outils 138 335393.79 
8 Pharmaceutique 138 338747.92 


/ 


> #d'abord la moyenne arithmétique simple 

> mean(mydata$Prix.total.avec.rabais) 

[1] 255939.4 

> #et donc la moyenne pondérée par les quantités 

> weighted.mean(mydata$Prix.total.avec.rabais,mydata$Quantité) 
[1] 289001.2 


> 


Nous retrouvons bien la même valeur que dans le cours théorique et que dans SAS. 


$ Nous verrons la moyenne géométrique bien plus loin! 
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Voyons maintenant pour la moyenne Winsorisée en utilisant la fonction winsor.mean() du 
package psych: 


| File Edit View Misc Packages Windows Help = [1 
| 


> mydata<-c(2,3,4,6,8,10,12,14,18,27) 
> library("psych") 

> winsor.mean(mydata,trim=0.4) 

[1] 9 

> 


Nous retrouvons bien la même chose que dans le cours théorique maïs à la différence de SAS 
nous avons dû indiquer 0.4 au lieu de 0.2... 


Pour le M-estimateur biweight de Tukey nous avons plusieurs packages à choix maïs nous 
allons nous reporter sur la fonction TukeyBiweïight() du package DescTools: 


| ŒR File Edit View Misc Packages Windows Help 6 


> mydata<-c(2,3,4,6,8,10,12,14,18,27) 
> library("DescTools") 

> TukeyBiweight (mydata) 

| [1] 9.901423 

|> TukeyBiweight (mydata,const=4.685) 
[1] 8.821953 

|> 


Nous n'obtenons donc pas la même chose qu'avec SPSS qui donne 8.75 (la joie de l'absence 
de normes... a priori). 


Il y a aussi le M-estimateur de Huber dans le même package avec la fonction HuberMK ) 


mais il y a aussi la fonction Huber( ) du package MASS qui renvoie le MAD (Mean Absolute 
Deviation) en plus: 
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R File Edit View Misc Packages 


Windows Help 


> mydata<-c(2,3,4,6,8,10,12,14,18,27) 
> library("DescTools") 

> HuberM(mydata, k=1.339) 

[1] 9.658439 

> library("MASS") 

> huber (mydata, k=1.339) 

Smu 

[1] 9.658439 


Ss 


[1] 7.413 


> | 


Mais qui là aussi ne donne pas la même chose que SPSS qui donne 9.09... 


Avec le package robustbase nous pouvons afficher les différentes fonctions y relatives que 
nous avons introduit dans le cours théorique. Par exemple avec l'estimateur d'Huber: 
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@R R Console EEE 


> library("robustbase") 
> plot (huberPsi) 


> 
MR Graphics: Device 2 (ACTIVE) EI ES 
px), wO), w'09, WG =w0X)/x, w(x) with w-type = Huber(1.345) 
S 
eo 
[re] 
p(x) 
a v(x) 
E | v'(x) 
w(x) = v0)/*x 
> w'() 
Le! 
o 
5 0 5 10 
X 
Ou celui de Hampel: 
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@R R Console NO) El] 
> library ("robustbase") 

> plot (hampelPsi) 

> | 


M R Graphics: Device 2 (ACTIVE) L= CIE] 


px), vw), w'09, WG =w 0) /x, w(x) with w-type = Hampel(1.487,2.974,5.944 


eo 
p(x) 
= v(x) 
D, y'(x 
w(X) = y(x) /x 
o 
-5 0 5 10 
x 
Ou le Tukey biweight: 
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GR R Console =| E] ba 
> source (system.file("xtraR/plot-psiFun.R", package = "robustbase", mustWork=TRUE) ) 
> x<-seq(-5,5,0.1) 


> p.psiFun(x, "“biweight", par = 4.685) 
ri 


M KR Graphics: Device 2 (ACTIVE) ts tes) 


Los] 
[oil 
= 
x< 
t-<4 
= 
o 


-1 


Ou la fonction Generalized Gauss-Weïght: 
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x 


Œ R Console ELE 


> source (system.file("xtraR/plot-psiFun.R", package = "robustbase", mustWork=TRUE) ) 
> x<-seq(-5,5,0.1) 
> p.psiFun(x, "GGW", par = c(-.5, 1, .95, NA)) 


> | 

M À Graphics: Device 2 (ACTIVE) PAIE 
T 
N — p(x) 

= — va 

= —— vx) 
- WC) = vO)/x 


: 


Ou encore la linear quadratic: 
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Sciences.ch 


a 


T 


x<-seq(-5,5,0.1) 


VVNVNV 


source (system.file("xtraR/plot-psiFun.R", package 


p-psiFun(x, "LOO", par = c(-.5,1.5,.95,NA)) 


"robustbase", 


EE) 


mustWork=TRUE)) 


f00 


-1 


-2 


p(x) 
w(x) 


!, 


y'(x) 
wO) = w(x)/x 


Voyons maintenant quelques estimateurs robustes et M-estimateurs de la dispersion avec les 
fonctions natives sd( ) et mad ) mais aussi avec les fonctions scale2Tau2( ) du package 


robustbase et hubers( ) du package MASS: 
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Œ RGui (64-bit) - [R Console] — O 


OR File Edit View Misc Packages Windows Help = | En LE 


> mydata<-c{2,3,4,6,8,10,12,14,18,27) 
> sd(mydata) 

[1] 7.748835 

> mad(mydata) 

[1] 7.413 | 
> library("robustbase") 
> scaleTau2 (mydata, mu.too=TRUE) | 
[1] 8.732576 7.049214 

> library("MASS") 
> hubers (mydata) 
Smu 

[1] 9.757147 


$s 


[1] 7.209564 


> | 


Voyons maintenant comment calculer l'erreur-standard classique (de Pearson) et l'erreur 
standard aussi de certaines estimateurs robustes et M-estimateurs avec le package WRSZ2 et 
ses fonctions msmedse( ), trimse( ), winse( ), mestse( ): 


GR RGui (64-bit) - [R Console] — (a 


OR File Edit View Misc Packages Windows Help F5 x 


> mydata<-c(2,3,4,6,8,10,12,18,27) 

fcréation de la fonction pour l'erreur standard classique 
se <-— function(norm) sd(norm)/sqrt(length(norm)) 

#on calcule l'erreur standard de Pearson 

se (mydata) 

[1] 2.702879 

> library("WRS2") 

> #fl'erreur standard de la médiane 

> msmedse (mydata) 

[1] 4.852806 

> fl'erreur standard de la moyenne tronquée à 20% 

> trimse (mydata,tr=0.20) 

[1] 3.280183 

> fl'erreur standard de la moyenne Winzorisée tronquée à 20% 
> winse (mydata,tr=0.2) 

[1] 2.624147 

> fl'erreur standard d'un M-estimateur de Huber 

> mestse (mydata,bend = 1.28) 

[1] 2.760297 

> | 


> 
> 
>” 
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Exemple 17.: Manipulations de textes 
R 3.02 


Encore une fois, lorsque l'on fera du scripting outre manipuler des scalaires, des entités 
algébriques (vecteurs ou matrices) nous aurons aussi à manipuler des textes. Voici quelques 
alors quelques commandes classiques de manipulations des textes avec les commandes pour 
afficher, concaténer, etc.: print() , paste() , cat() , nchar() , substring( ) , strsplit() , 
toupper( ) , tolower( ) , gsub( ) : 


ne RGui (64-bit) - [RC 


R Fichier Edition Voir Misc Packages Fenêtres Aide 
Sl° a] 


> print ("Hello World!"}j #afficher un simple texte 

[1] "Hello World!" 

> x<-5000 

> paste("The total is: ",x) #concaténer des textes, chiffres et dates 

[1] "The total is: 5000" 

> setwd("C:/tmp") 

> cat ("Text d'écriture dans un fichier texteïn",file="test.txt",append=TRUE) #écrire dans un fichier txt 
> nchar ("Hello World!") #compter le nombre de caractères 

L'EI 12 

> substring{"Hello World!",1,5) #un cas classique qui se passe de commentaires 
[1] "Hello" 

> coupures<-strsplit ("100,1,Banques, IBM 500",",")[[1]] #cas connu pour ceux qui font du dév 
> coupures 

[1] "100" "Banques" "IBM 500" 

> coupures[3] #il s'agit d'un objet de type liste 

[1] "Banques" 

> toupper ("Hello World!") #un autre grand classique 

[1] "HELLO WORLD!" 

> tolower ("Hello World!") #un autre grand classique 

[1] "hello world!" 

> gsubi"i","o","Helli Wirld!") #dernier grand classique 

[1] "Hello World!" 

>| 


Notez qu'avec print( ) nous pouvons exécuter plusieurs commandes sans les afficher: 


D de dE ne ed 


R File Edit View Misc Packages Windows Help |A )x 


COISESIOIE 


> print({ 
+ a<=L 

+ b<=2 

+ c<-atb 
+ 3) 

[1] 3 

> 


Ou encore les fameux nettoyages d'espaces en trop: 
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UR RGui (64-bit) - [R Console 


OR File Edit View Misc Packages Windows Help 


> #suppresion des espaces multiples au début ou à la fin 
> trimws(" Hello World! "3 

[1] "Hello World!" 

> #suppresion des espaces multiples partout! 


> gsub("(2<=[\\s])\\s*|"\\s+|\\s+S", "", " Hello World! ", perl=TRUE) 
[1] “Hello World!" 
> | 


La fonction cat( ) va aussi être utile pour écrire de longs textes sur plusieurs lignes dans les 
scripts ou dans la largeur disponible de la fenêtre de console: 


GR RGui (64-bit) - [R Console — O 


R File Edit View Misc Packages Windows Help & x 


test<- " 

Conformément à tous les codes typographiques et à 

un avis de recommandation de l'Office québécois de la 
langue française. 


V+++++V 


cat (test) 
Conformément à tous les codes typographiques et à 
un avis de recommandation de l'Office québécois de la 


langue française. 


> | 


Ou pour afficher plus proprement on peut utiliser les fonctions natives noquote() ou cat( ) : 


GR RGuiï (64-bit) - [R Console] . (n! 


| OR File Edit View Misc Packages Windows Help = ES x 


> x<-"Hello World" 
> noquote (x) 

[1] Hello World 

> cat(x, "\n") 
Hello World 

> | 


Ce qui permet aussi d'utiliser le symbole de tabulation \t très utilisé dans les sorties 
statistiques de R pour générer des tableaux (comme ceux de l'ANOVA par exemple!): 
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R RGui (64-bit) - [R Console] — 


| R File Edit View Misc Packages Windows Help Œ x 
EIîe 


| > cat (paste(” Résultat 1:","\t",5,;"\n","Résultat 2:","\t",89,;"\n")) 
Résultat 1: 5 
Résultat 2: 8 
> | 


Avec la commande paste( ) nous pouvons aussi générer de façon astucieuse des noms de 
variables incrémentées ou avec letters( ) pour des lettres: 


R File Edit View Misc Packages Windows Help = x 


> paste("xX",1:5,sep=".") 
[1] né 0 un p.27 "r_2" our ET Va ect 8 Lau 
> LETTERS[seq( from = 1, to = 10 )] 

[ 1 ] ol “y "B LL mn, End LL ) » jm ml “= LL LL EF" 6" pd ©: (og LL I LL LL Éd 
> letters[seq( from = 1, to = 10 )] 

[1] nt - do a : on sn mn: bu nl - Lu nat "g" as : sui gui Tes "+" 
> letters[1:10] 

[1] "a" vb" st vs de ou ro" MES "g" "h" "in "7 
> 


Utilisation classique des RegEx (Regular Expressions) 


Pour mettre la première lettre d'un mot en majuscule ou de plusieurs mots 1l faudra passer par 
une regular expression (regex): 


<< RGui (64-bit) - [ 
R Fichier Edition Voir Misc Packages Fenêtres Aide 


> text<-"hello world!" 


> gsubi"{(*|[[:space:]])([[:alpha:]]li", MA\ILNNU\\2", text, perl=TRUE) 
[1] "Hello World!" 
> | 
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Toujours avec les RegEx faisons maintenant un cas un peu plus compliqué mais typique dans 
certaines techniques de Text Mining: l'extraction de nombres d'un vecteur de textes. Voyons 
d'abord cela avec la fonction regexpr ) : 


R RGuï (64-bit) - [R Console] = (a X 
KR File Edit View Misc Packages Windows Help 


> meteo<-c("Moscou 0°C","Paris 10°C","Pekin 12°C","Rome 30°C","...") 

> meteo 

[1] "Moscou 0°C" "Paris 10°C" "Pekin 12°C" "Rome 30°C" ",,.." 

> #extraire les position des nombres 

> tempo<-regexpr ("[0-9]+",meteo) 

> tempo 

[1] 8 7 7 6 -1 

attr(,"match.length"}) 

[1], 112 2 2 -1 

> fextraction des nombres 

> as.numeric(substring(meteo, tempo, t{mpo+attr (tempo, "match.length")-1)) 
[1] O0 10 12 30 NA 

> 


Sinon gsub(}) fait cela directement: 


R RGui (64-bit) - [R Console] — () X 
KR File Edit View Misc Packages Windows Help _ 5x 


> meteo 

[1] "Moscou 0°C" "Paris 10°C" "Pekin 12°C" "Rome 30°C" ",,.." 
> as.numeric{(gsub("\\D","", meteo)) 

[1] O 10 12 30 NA 


sn 


Un grand classique du RegEx est de créer une fonction qui nettoie automatiquement les titres 
de colonnes de data frames (peut-être qu'il existe un package pour cela?) et en plus c'est très 
instructif (!!!): 
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R RGui (64-bit) - [R Console] — (= x | 
R File Edit View Misc Packages Windows Help EE 
ÉBSOISESIOIE) 


clean names <- function(headers to clean, unique = FALSE) { 
n <- if (is.data.frame (headers to clean)) colnames (headers to clean) else headers to clean | 


VERRE THERE TERRE REV 


<= gsub(”"4+”", " pet ”, n) 

<— gsub("\\$+", "_ dollars ", n) 
<= gsub("\\r+", "plus “, n) 

<= gsub{"-F", ” minus *,; n}) 

<= gsub("\\sr",; "star ”,; n) 

<= gaub("f#F", "cent ”, n) 
gsub("se+", "_ and ", n) 

<- gsub("@+", " at ", n) 

<- gsub("["a-zA-Z20-9 ]+", "_", n) 
<— gsub("”([A-Z][a-z])”, "_\\1", n) 
<— tolower(trimws(n)) 

e= gsub("(*_+1_ +5)", en. ni 

<= gsub("_ +”, "_”, n) 


PPS SSP pH 5E 
î 


fpour gérer les colonnes qui ont des noms identiques 
if (unique) n <- make.unique(n, sep = "_") 


if (is.data.frame(headers to clean)) { 
colnames (headers to clean) <-n 
headers to clean 

} else { 
n 

} 


22 


On peut tester avec une colonne fictive (cela marche aussi avec un data frame vu comment la 
fonction est écrite): 


GR File Edit View Misc Packages Windows Help 5 x 


> ftexemple noms: 
> noms<-c(\ 
| + “ a", a FE 
+ "a $", "a", "$a", "S$$$a", "GDP ($)", "GDP (us$)", 
[+ "a (#)", "a & D", "#", "S", 
+ "a_cnt”", 
+ "AagBb", "“"camelCasePhrases", 
+ "AlphaBetaGamma", "Alpha Beta", "Beta [11 Gamma”, 
+ FD rs “a br a © 2° 
F. 1 
> clean _ names (noms,unique=T}) 
[1] “a” El ra pet” Nu 
[5] “dollars a" "dollars a 1" "gdp_dollars" "gdp_us_ dollars" 
[9] "a_cnt" "a_and b" “ent” "dollars" 
[131 “a cent 1" “aa_and bb" "camel case phrases" "alpha beta gamma" 
[17] "alpha beta" "beta_gamma” "a_plus b" “a _minus b" | 
[21] "a_ star _b" 
> | 
< > 


Trouver la position de chaînes de caractères 


Indiquons aussi le code pour trouver la position d'une certaine chaîne de caractère: 
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Gui {64-bit} - [F 


R Fichier Edition Voir Misc Packages Fenêtres 


> vhichistrsplit ("Hello Worldt®, Pr) [[1]]==" ji 


[1] 6 
> | 


Remarquons l'usage suptil de strsplit(), avec les fonctions lapply( ), sapply( ) et unlist( ) 
pour extraire par exemple le dernier mot des textes d'un vecteur de textes: 


| M RGui (64-bit) - [R Console] — (m] 


dR File Edit View Misc Packages Windows Help l'ex 


> string<-c("hello monde","aurevoir world","aufwiedershen Welt") 
> fpremière étape 
> lapply(strsplit(string," "),"[") 
[[1]] 
| [1] "hello" "monde" 


| [[21] 


| [1] "aurevoir" "world" 


[131] 


[1] “aufwiedershen" "Welt" 


> fpremière étape complétée 
> lapply(strsplit{istring,;" “},;"[";:2) 
[111] 


[1] "monde" 


[121] 
[1] “wortd” 


[131] 
[1] "Welt" 


> fversion finale et complète 
|> unlist(lapply(strsplit(string," "),"[",2)) 
| [1] "monde" "world" "Welt" 

> #sinon on peut le faire aussi avec 

> sapply(strsplit(string," "),"[",2) 

[1] "monde" "world" "Welt" 

> #fplus général encore 

> sapply(strsplit(string," "),tail, n = 1L) 
+ "monde" "world" "Welt" 

> 


Evidemment certaines commandes que nous venons de voir s'appliquent aussi à des vecteurs 
(cas très important puisque les data frames sont composés de vecteurs!): 
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né, RGui (64-bit) - [ 


KR Fichier Edition Voir Misc Packages Fenêtres 


> vecteur<-c{"IBM 500","Compaq Presario 100", "AST Intel 150") 
> tolover (vecteur) 

[1] “ibm 500" "compaq presario 100" "ast intel 150" 
> substrivecteur, 1,3) 


[1] "IBM" "Cor rAST" 

> substrivecteur,1i,c(3,6,3)) 
[1] "IBM" "Compaq" "AST" 
> nchar (vecteur) 

[1] ‘7 19 13 

> | 


Facteurs 


Si nous créons un vecteur avec des valeurs textuelles: 


KR Fichier Edition Voir Misc Packages Fenétres 


> status<-c{"Oui","Non","Oui","Non","Oui","Oui","Non") 
> status 
[ 1] "Oui L14 “Hon' "Oui LA "Mon" "Oui ” "Oui LA “Hon' 


> | 


celui-ci va prendre de la mémoire pour rien car dans le cas présent nous voyons que nous 
avons affaire à des facteurs. Dès lors pour optimiser la mémoire de R, nous pouvons lui dire 
qu'il s'agit de facteurs et il associera simplement à chaque texte une valeur 1, 2 (ou plus si 
nous avons plus de deux facteurs). Pour faire cela, nous utilisons la commande factor() tel 
que ci-dessous: 
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se, RGui (64-bit} - [RC 
R Fichier Edition Voir Misc Packages Fenétres 


> status<-c("Oui","Non","Oui","Non","Oui","Oui","Non") 
> status 
[ 1} "oui LL Mon’ "Oui LL "Mon" ”oui rr "Oui LL "Mon 


> status<-factor (status) 

> status 

[1] Oui Non Oui Non Oui Oui Non 
Levels: Non Oui 

x | G 


On peut aussi garder l'ordre d'origine des facteurs: 


ER RGui (64-bit) - [R Console] — = 


R File Edit View Misc Packages Windows Help LE: 


> (status<-c("Oui”,"Non","Oui","Non","Oui",'"Oui","Non")) 
[11 “Oui” "Non” "Oui" "Non" "Oui" "Oui" “Non” 

> (status<-factor(status,levels-unique(status))) 

[1] Oui Non Oui Non Oui Oui Non 

Oui Non 

> 


Cela donne alors des variables qualitatives non ordonnées. Si nous avons besoin de définir des 
variables qualitatives ordonnées, nous utiliserons la syntaxe suivant (attention! si l'argument 
levels n'est pas précisé, c'est l'ordre alphabétique qui sera utilisé): 


R Fichier Edition Voir Misc Packages Fenétres Aide 


> douleur<-ci"rien","fort","moyen","moyen","leger") 


> fdouleur<-factor (douleur, levels=c{("rien",'"leger", "moyen" ,'"fort") ,ordered=T) 
> fdouleur 


[1] rien fort moyen moyen leger 
Levels: rien < leger < moyen < fort 
> | 


« | 
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Attention!!!! Observez bien le piège subtil suivant: 


GR RGui (64-bit) - [R Console] O 


QR File Edit View Misc Packages Windows Help AE 


> levels(iris$Species) 

[1] "setosa" "versicolor" "virginica" 

> #maintenant par un filtre éliminons tous les "setosa" 
> iris2 = subset(iris, Species != "setosa") 

> fvérifions qu'il n'y en ait effectivement plus du tout 
> table(iris2$Species) 


setosa versicolor virginica 
0 50 50 

> #maintenant redamdons les levels: 
| > levels(iris2$Species) 
| [1] “setosa" "versicolor" "virginica" 
> fLes "setosa" sont toujours là! Pou extraire les valeurs uniques 
| > #d'une colonne à facteurs, privilégiez toujours la commande unique() 
> unique (iris2$Species) 
[1] versicolor virginica 
Levels: setosa versicolor virginica 
Le 


Text Mining de base 

NO 
Pour ceux qui feraient du texte mining, voici quelques fonctions utiles après avoir classé tous 
les mots dans des composantes de vecteurs utilisant grep( ) (signifiant Global Regular 
Expression Print): 


R RGui (64-bit) - [R Console] — (El X 
R File Edit View Misc Packages Windows Help UE: 


OIE 


> fchercher les composantes ayant les lettres "a" ou "u" 
> grep{"[au]'",c("Equateur","Pôle Nord","Pôle Sud")) 
[1] 1 3 

> grep{"[au]'",c("Equateur","Pôle Nord","Pôle Sud'"),value=TRUE) 
[1] "Equateur" "Pôle Sud" 

> fou simplement un mot 

> grep({"Pôle Nord",c{("Equateur","Pôle Nord","Pôle Sud")) 
[1] 2 

> grep{("Pôle Sud'",c("Equateur","Pôle Nord","Pôle Sud")) 
[1] 3 

>| 


Enfin on a le cas classique dans le Text Mining qui consiste à supprimer les accents avec la 
fonction native iconv( ) : 
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R RGui (64-bit) - [R Console _ O 


8 File Edit View Misc Packages Windows Help FX 


testl<-c("à", à", ni: ea a « Las "à" : nn, "pe, nie, ràr, "D", LT 
ré"; nan "or, um nu di L PAT: Les ‘du at Hi + D Qi 1 tps Le os 
test2<- " 


Conformément à tous les codes typographiques et à 
un avis de recommandation de l'Office québécois de la 
langue française. 


VV+H++++VV + V 


> iconv(testil, to="ASCII//TRANSLIT") 

[1 ] var” re” LL i LL 0" ui + "AT ver LL I LL “07 il 6 Lu | LL rer” LL 1 LL -n” moi à Ko "y" "Ar 
[18] nd a PT" bal: Log "0" pl dog 
> cat(iconv(test2, to="ASCII//TRANSLIT")) 


Conformement a tous les codes typographiques et a 
un avis de recommandation de l'Office quebecois de la 


langue francaise. 


> | 


Signalons aussi dans le domaine du nettoyage de données "l'approximate text matching" qui 
permet souvent de remplacer des données textuelles partiellement erronées par des humains 
par des standards prédéfinis. Pour cela, nous allons utiliser le package stringdist et sa 
fonction ae ) en particulier avec la distanéè de Jaro-Winkler qui est très performante à 
ce jeu là..….: 


R File Edit View sc Packages Windows Help 2 


> library("stringdist") 

> input<-c("Suissse CHE","Francophonie","Allemagne","Anticonstitutionnellement") 
> reference<-c("France","Switzerland","Suisse","Allemagne") 

> # Jaro-Winkler distance 

> matching<-amatch(input, reference,method="'jw",maxDist=0.5) 


> 

> reference[matching] 

[1] "Suisse" "France" "Allemagne" NA 
> | 


Quand on fait de l'approximate text matching ou du Text Mining il peut être nécessaire avec 
certaines méthodes de convertir les lettres en leurs valeurs numériques et inversement! Voici 
comment effectuer ceci avec les fonctions utf8Tolnt() et intToUtfS ) : 
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MR RG (54-bi RC 


— IR LUFSUIE 


R File Edit View Misc 


Packages Windows Help 1 - U:_: 
SAISIE | 


> mytext<-utfBToïnt ("Un pour les gouverner tous“) 
> mytext 


[AT 65 110 324 112 1714 117 114 32 TOB 101.115 32 


103 111 117 118 101 114 
[293 210: LOL 114, 32 116 112 147 115 
> intToUtfB (mytext) 


[1] “Un pour les gouverner tous" 
> 


R Statistical Software 243/3133 


Vincent ISOZ, Daname KOLANI 


Sciences.ch 


Pour ceux qui veulent aller plus loin sur la manipulation de chaînes de caractères, 11 y a le 
package stringr dont voici la cheatsheet qui en résume assez bien les concepts majeurs: 


Work with strings wi 


th stringr : : CHEAT SHEET 


The stringr package provides a set of imtermnally consistent tes for working atth character strings, Le sequences of characters surroundad b, quotation marks. 


Detect Matches Subset Strings 


ve str detectistans, parterni Détectine 
+ presence of a pattern match inaswing 
sr detectifrui! "2" 


str which'znng, pattern) rindine indexes cf 
snngs thaz contain à patem match. 
ae aie hlorit, 7) 


str countistring, parce! Coum he number 
afmatches MaSEAnE, 
de cmlirui!, 7 


str locate sing, pattern) Locate the 
pcsions of patcem matches inasbng Also 
sr_locate_all 4% ha mirfhind, a) 


st subistring stant=1.,end=-121 Détract 
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str_sub'frn, L, }, str_subifru 
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se sale t{hrail, “Ha 
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CAT ETES de 07 
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Exemple 18.: Manipulations de dates 
R 3.0.2 


Pour travailler sur les dates nous allons faire une entorse en supposant que nous avons déjà 
étudié l'import de fichiers *.csv (voir plus loin pour les détails relativement à ce sujet). 


Pourquoi? Simplement parce que c'est la manipulation de nettoyage la plus fréquente 
(analyses temporelles oblige.) et donc la plus importante puisque la majorité des pays ne 
respectent pas la norme ISO 8601. Bon par la même occasion cela vous montrera comment 
(dans l'idée) on modifie toute une colonne d'un data frame aussi pour des textes (l'idée étant la 
même). 


Considérons donc l'import du sous-ensemble du fichier *.csv suivant: 


1 


Æ RGui (64-bit) - [R Console 
R Fichier Edition Voir Misc Packages Fenêtres Aide 


setwd{("C:/") 

mydata<-read.csv("VentesClean.csv",header=T,sep=";:") 

mydata<-mydata[1:10,1:5] 

mydata 

NClient ictivite NDeCommande DateDeCommande Article 
100 issurances l 03.01.2000 Compaq Presario 100 
123 Machines/Outils 03.01.2000 IBM 500 
109 Éducation 03.01.2000 AST Intel 150 
104 Éducation 03.01.2000 A1ST Intel 200 
117 Banques 04.01.2000 Compaq Presario 100 
103 issurances 04.01.2000 AST Intel 150 
104 Éducation 04.01.2000 AST Intel 200 
111 Alimentaire 04.01.2000 IEM 500 
113 Construction 04.01.2000 Compaq Presario 100 
116 Pharmaceutique 04.01.2000 IBM 500 


VV OV 
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et nous allons mettre le format de date aux normes pour commencer: 
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Sciences.ch 


> mydata 


100 issurances 
123 Machines/Outils 
109 Éducation 
104 Éducation 
117 Banques 
103 issurances 
104 Éducation 
LL Alimentaire 
113 Construction 


O0 © -J oi & © DH 


100 issurances 
123 Machines/Outils 
109 Éducation 
104 Éducation 
117 Banques 
103 Assurances 
104 Éducation 
111 Alimentaire 
113 Construction 
116 Pharmaceutique 


VE (0 O -J oi © NH 
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10 116 Pharmaceutique 10 


1 
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03 
03 
03 
03 


04. 
04. 
04. 
04. 
04, 
04. 


NClient Aictivite NDeCommande DateDeCommande 
.01. 
.-01. 
-OL. 
‘OL. 
01. 
01. 
OL. 
01. 
01. 
01. 


2000 
2000 
2000 
2000 
2000 
2000 
2000 
2000 
2000 
2000 


NClient ictivite NDeCommande DateDeCommande 


2000-01-03 
2000-01-03 
2000-01-03 
2000-01-03 
2000-01-04 
2000-01-04 
2000-01-04 
2000-01-04 
2000-01-04 
2000-01-04 


Article 


Compaq Presario 
IBM 

AST Intel 

AST Intel 
Compaq Presario 
AST Intel 

AST Intel 

IBM 

Compaq Presario 
IBM 


> mydata$DateDeCommande<-as.Date (mydata$DateDeCommande, "$d.%m.%y") 
> mydata 


100 
500 
150 
200 
100 
150 
200 
s0û 
100 
Ss00 


Article 


Compaq Presario 
IBM 

AST Intel 

AST Intel 
Compaq Presario 
AST Intel 

AST Intel 

IBM 

Compaq Presario 
IBM 


100 
500 
150 
200 
100 
150 
200 
500 
100 
s0û 


comme vous pouvez le voir avec la commande as.Date( ) , les dates sont converties par défaut 
au format normalisé! L'argument de as.Date( ) est donc le format de date tel qu'il se trouve à 


l'origine dans le data frame pour que R puisse ef comprendre la structure. 


La syntaxe des formats de dates est la suivante dans R: 


a: Jour abrégé en 3 lettres 
ZA: Jour non abrégé 


Zb: Mois abrégé en 3 lettres 
%B: Mois non abrégé 

Zy: Année sur 2 chiffres 
ZY: Année sur 4 chiffres 
ZH: Heure sur 0-24 

Zh: Heure sur 1-12 


ZS: Secondes 

Zc: Date et Heure locale 
%x: Date locale 

ZX: Heure locale 

%z: Fuseau Horaire 


jour de la première semaine 


Zm: Mois en chiffres (01-12) 


Sd: Jour en tant que numéro (01-31) 


%j: Numéro du jour dans l'année (0-366) 
Sp: Indicateur AM/PM pour les heures 


ZU: Numéro de la semaine dans l'année (0-53) utilisant le premier dimanche comme 
ZW: Numéro de la semaine dans l'année (0-53) utilisant le premier lundi comme 1° 
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e _%w: Numéro de la semaine (0-6) où dimanche est le numéro 0 


Sinon voici un cas très instructif: 


HR RGui (64-bit) - [R Console] — (m] X 
UR File Edit View Misc Packages Windows Help - 5x 


> #Quand on travaille avec des dates et heures, pour éviter les problèmes 
> de paramètres régionaux, toujours enregistrer ces derniers pour les remplacer 
> #temporairement par un standard plus commun: 

> local time<-Sys.getlocale ("LC TIME") 

> Sys.setlocale ("LC TIME","English") 

[1] "English United States.1252" 

> 

> #on affiche la date système par exemple pour voir si elle apparaît 
> #bien en anglais pour le coup 

> format (Sys.Date(),format="$a $%b $%d $H:%5M:55S %Y") 

[1] "Tue Mar 17 00:00:00 2020" 

> 

> #ensuite pour le fun on prend un date générée en tant que texte comme exercice 
> (d<-date()) 

[1] "Tue Mar 17 17:52:00 2020" 

> class(d) 

[1] "character" 

> #et on la restransforme en date (mais en perdant les heures) 

> (dl<-as.Date(d,"%a $b %d $H:%5M:%5S %Y")) 
| [1] "2020-03-17" 
|> class(dl) 

[1] "Date" 

> 

> #mais si on veut pas perdre les heures: 

> (d2<-base::strptime(d,format="$a $b $d $H:%M:%5S %Y")) 

[1] "2020-03-17 17:52:00 CET" 

> class(d2) 

[11 "POSIXItT" "POSIXL" 

> 

> #on revient sur les paramètres régionaux francophones 

> Sys.setlocale ("LC TIME",local time) 

[1] "French Switzerland.1252" 

à 

> +on peut les reformater pour les réafficher si on veut 

> format(dl,"%Y %b %d %H:%M") 

[1] "2020 mars 17 00:00" 

> format (d2,"$Y $b $d $H:%5M") 

[1] "2020 mars 17 17:52" 

> 


Maintenant revenons sur des exemples simples avec les commandes Sys.Date() , 
Sys.Timezone( ) , format() , weekdays() et months() , ISOdate() , as.numeric() , 
difftime( ) : 
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> Sys.Date() #date du jour 

[1] "2014-05-30" 

> Sys.timezone() #fuseau horaire 

LI] FCESTT 

> Sys.Date()+21 #ajout de jours calendaires à une date 
[1] "2014-06-20" 

> format (Sys.Date(),format="$d$msy") #format d'une date selon son choix 
[1] "300514" 

> format (Sys.Date()j ,format="$2, $d, %B $%Y")] #plus élégant 
[1] "vendredi, 30, mai 2014" 

> wveekdays(Sys.Datel()) 

[1] "vendredi" 

> months (Sys.Datel()) 

[ 1] rai" 

> as.numeric(format (Sys.Date(),"$Y")) #l'année seule 
[1] 2014 

> vear(Sys.Date()) #... 

Erreur : impossible de trouver la fonction "year" 

> difftime(ISOdate(2013,12,20) ,Sys.Datel()j ,units="days") 
Time difference of -160.5 days 

> quarters(iSvs.Datel()) 

[ 1] "o2" 

> | 


Notez que year( ) n'existe curieusement pas par défaut à ce jour dans R! Il en va de même des 
fonctions day( ) et month( )... Heureusement que le package lubridate comble ce 
manquement. Ce dernier contient aussi la fonction week( ) qui retourne le numéro de la 
semaine, isoweek( ) qui retourne le numéro de la semaine conforme aux normes ISO et 
wday( ) qui retourne le numéro du jour dans la semaine: 
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U RGui (64-bit) - [R Console 


R File Edit View Misc Packages Windows Help ex 


> as.integer (format (as.Date("2014-03-16"),"%W"))+1 #Dimanche attendu semaine 11 
EXT -1E 

> as.integer (format (as.Date("2014-03-17"),"%W"))+1 #Dimanche, 
[11 12 

> 

> #fMieux encore 

> library("lubridate") 

> 

> week(ymd("2014-03-16","2014-03-17","2014-03-18","2014-01-01")) 
[1] 11 11 11 1 

> isoweek(ymd("2014-03-16","2014-03-17","2014-03-18","2014-01-01")) 
EAT LT 12 22 À 

> 

” 

> fattention cependant aussi avec les jours!!! 

> base::weekdays (as.Date("2014-03-16")) 

[1] "Sunday" 

> 


attendu semaine 12 


> tavec lubridate on peut choisir le jour de départ 
> options (lubridate.week.start = 1) 

> wday(as.Date("2014-03-16")) 

[1] 7 

> | 


Comme nous pouvons le voir R prend les paramètres régionaux de la machine pour afficher le 
nom des jours. Nous verrons comment gérer cela avec un package un peu plus loin. 


Créons maintenant quelques séquences classiques de dates en utilisant la commande seq( ) 
déjà vue plus haut: 


> seq(as.Date("2005-01-01"),as.Date("2005-01-31"),by="day") 


[1] 
(Ra 
[13] 
[19] 
[25] 


"2005-01-01" 
"2005-01-07" 
"2005-01-13" 
"2005-01-19" 
"2005-01-25" 


"2005-01-02" 
"2005-01-08" 
"2005-01-14" 
"2005-01-20" 
"2005-01-26" 


"2005-01-03" 
"2005-01-09" 
"2005-01-15" 
"2005-01-21" 
"2005-01-27" 


"2005-01-04" 
"2005-01-10" 
"2005-01-16" 
"2005-01-22" 
"2005-01-28" 


"2005-01-05" 
"2005-01-11" 
"2005-01-17" 
"2005-01-23" 
"2005-01-29" 


"2005-01-06" 
"2005-01-12" 
"2005-01-16" 
"2005-01-24" 
"2005-01-30" 


[31] "2005-01-31" 


> seq(as.Date ("2005-01-01") ,as 
[1] 
[7] 
> seq(as.Date ("2005-01-01") ,as.Date ("2005-03-30") ,by=15) 


.Date("2005-07-31"),by="month") 
"2005-01-01" "2005-02-01" "2005-03-01" "2005-04-01" "2005-05-01" "2005-06-01" 
"2005-07-01" 


[1] "2005-01-01" "2005-01-16" "2005-01-31" "2005-02-15" "2005-03-02" "2005-03-17" 
> seq(as.Date("2005-01-01") ,as.Date("2005-03-30"),by="2 weeks") 

[1] "2005-01-01" "2005-01-15" "2005-01-29" "2005-02-12" "2005-02-26" "2005-03-12" 
[7] "2005-03-26" 

> | 


Maintenant voyons comment changer la langue d'affichage des noms des jours et des mois 
sous un environnement Microsoft Windows à l'aide de la fonction système Sys.setlocale( ): 
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| R RGui (64-bit) - [R Console] . 


| File Edit View Misc Packages Windows Help SN: 


> some.dates<-as.Date(c("16/10/12","19/11/12"),f£format="%d/%m/%y") 
[> some.dates 
| [11 "2012-10-16" "2012-11-19" 

> Sys.setlocale("LC TIME", "German") 
| [1] "German Germany.1252" 

> weekdays (some.dates) 

[1] "Dienstag" "Montag" 

> Sys.setlocale("LC TIME", "English") 
| [1] "English United States.1252" 

> weekdays (some.dates) 

[1] "Tuesday" "Monday" 

> Sys.setlocale("LC TIME", "French") 
| [1] "French France.1252" 

> weekdays (some.dates) 

[1] “mardi” "lundi" 

> Sys.setlocale("LC TIME", "“Spanish") 
| [1] “Spanish Spain.1252" 
> weekdays (some.dates) 

% "martes" "lunes" 
> 


Attention pour le moment où viendra le scripting car lorsque l'on boucle sur des vecteurs 
. & 4C L 
contenant des dates celles-ci sont à nouveau par&Éfaut transformées en nombres: 
R 


À RGui {64-bit) - [R Consc 
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> a<-seq(as.Date("2005-01-01") ,as.Date ("2005-03-01") ,hy="2 weeks") 
> a 

[1] "2005-01-01" "2005-01-15" "2005-01-29" "2005-02-12" 

[5] "2005-02-26" 

> for (i in a) {stri{ij} 


num 12754 
num 12798 
num 12612 
num 12826 

12540 


et pour corriger cela: 
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 RGui {64-bit} - [R Console 
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> a<-seq(as.Date("2005-01-01") ,as.Date("2005-03-01") ,by="2 weeks") 
> for {i in a) {str(ias.Date(i,origin = "1970-01-01"))j} 

Date[1:1], format: "2005-01-01" 

Date[1:1], format: "2005-01-15" 

Date[1:1], format: "2005-01-29" 

Date[1:1], format: "2005-02-12" 

Date[1:1], format: "2005-02-26" 


et comme vous pouvez le voir par la même occasion, l'origine de système de date par défaut 
de R est 1970-01-01 mais pouvons à l'aide du paramètre origin changer cela comme nous 
voulons. 


Nous pouvons aussi transformer une colonne de dates en trimestres avec la commande native 
quarters( ) : 


> mydata<-read.csv{("C:/VentesClean.csv",header=T,sep=";") 

> mydatafDateDeCommande<-as.Date (mydataf$DateDeCommande,"#d.sm.%Y") 

> headimydata$DateDeCommande) 

[1] "2000-01-03" "2000-01-03" "2000-01-03" "2000-01-03" "2000-01-04" "2000-01-04" 


> mydataf$fDateDeCommande<-quarters (mydata$DateDeCommande) 
> head imydataf$DateDeCommande) 

[ 1] Li 6 fr D ” "OL LL MOT LA OL LA roi LL L j'a E À LL 

> | 


Maintenant voyons des manipulations triviales sur les dates mais qui semblent nécessiter des 
packages (je compléterai au fur et à mesure que je rencontrerai d'autres cas chez mes clients): 


Nous allons installer le package chron pour faire de la somme de mois: 
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FR Fichier Edition Voir Misc [Packages] Fenêtres Aide 
Charger le package. 
Choisir le site miroir de CRAN... 
Choisir les entrepôts... 
tn à le(s) package(s).… 
Mettre à jour les packages. 


Installer le(s) packages) depuis des fichiers zip... 


ChoicelModelR 
choplump 
chords 

chron 


CHsharp 


& RGui (64-bit) - [R Cons: 
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> libraryichron) 

> seq(chron("01/31/2013"), by "months", len 
[1] 01/31/13 02/28/13 

> seq(ichron("01/31/2013"), by "months", len 
[1] 02/28/13 


Il y a d'autres packages qui ont des options similaires pour ajouter des mois à une date. 


Sinon pour gérer des dates dans d'autres langues, on installera le package lubridate: 
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Itsbase 


luca 
Luminescence 
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BEC) 


> libraryi"lubridate"]) 

> Sys.setlocale ("LC TIME","German Switzerland.1252") 
[1] "German Switzerland.1252" 

> veekdays(Sys.Datel()j) 

[1] "Montag" 

> months(Sys.Date()) 

[1] "Dezember" 

> Sys.setlocale ("LC TIME","French Switzerland.1252") 
[1] "French Switzerland.1252" 

> veekdays(Sys.Datei()) 

[1] "lundi" 

> months (Sys.Date()) 

[1] "décembre" 

> $ys.setlocale("LC TIME","English") 

[1] "English United $States.1252" 

> veekdays(Sys.Datei()) 

[1] "Monday" DS 

> months(Sys.Dateli()) 

[1] "December" 

> | 


La libraire lubridate est aussi très utile pou convertir différentes formats de dates en un seul 
système de dates comme l'illustre l'exemple ci-dessous: 
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R RGui (54-bit) - [R Console] =. HE 


n 7 
x 


R File Edit View Misc Packages Windows Help = 


OISGCSIOIE 


library("lubridate") 


"4/21/2010", "28.01.10", "09.01.2009", "3/28/2005", 
"04.01.2005", "2005-01-04", "Created on 9/17/2010", "O3 O1 2010"))) | 
initialDiagnose 
14.01.2009 
9/22/2005 
4/21/2010 | 
28.01.10 
09.01.2009 
3/28/2005 
04.01.2005 
2005-01-04 
Created on 9/17/2010 
(e) 03 01 2010 


> 
> 
> (data <- data.frame{(initialDiagnose = c("14.01.2009", "9/22/2005", 
_ 
_ 


V ke 10 © -J On Un 4 & ND 


>» parse date time (data$initialDiagnose, orders = c('mdy', "dmy','y-m-d'})) 
[1] "2009-01-14 UTC" "2005-09-22 UIC" "2010-04-21 UTC" "2010-01-28 UTC" "2009-01-09 UTC" 
[6] "2005-03-28 UTC" "2005-01-04 UTC" "2005-01-04 UTC" "2010-09-17 UTC" "2010-03-01 UTC" 


Pour obtenir les dates de chômées de quelques bourses nous avons la commande holiday*( ) 
du package timeDate de Rmetrics: 


1& 
me, RGui (64-bit) - [RC 
1 Fichier Edition Voir Misc Packages Fenêtres Aide 


BEC) 


> libraryitimeDate) 
> holidayZURICH() 


Zurich 


[1] [2014-01-01] [2014-01-02] [2014-04-18] [2014-04-21] [2014-04-21] [2014-05-01] 
[7] [2014-05-29] [2014-06-09] [2014-08-01] [2014-09-08] [2014-12-25] (Üg14-12-26] 
> | 


Enfin, sans package, voyons comme changer une date en toutes lettres en une date R avec la 
commande strptime( ) : 
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R RGuï (64-bit) - [R Console] — 0 x 
R File Edit View Misc Packages Windows Help 5 x 


> d = "12 december 2012" #attention à la langue de 1'05 
> strptime(d, format = "%5d 5B %Y") 

[1] "2012-12-12 CET" 

> 


Nous savons que plus de 180 calendriers religieux sont utilisés dans le Monde puisqu'il y a 45 
religions monothéistes révélées et plus 28'000 polythéistes. La conversion de la majorité des 
religions est assez simple maïs le calendrier Hijri (appelé aussi calendrier Perse, ou Solaire 
Hijri ou encore Hijri Shamsi) qui sont les calendriers officiels de l'Iran et de l'Afghanistan ont 
des règles un peu tordues… S 

& 
Heureusement il existe un package nommé jalcal pour convertir les dates du calendrier 
grégorien ou calendrier Hijri. 


Voyons un exemple: 


° RGui (64-bit) - [R Console] — O 


R File Edit View Misc Packages Windows Help 


> library("jalcal") 

> greg2ja10(2023, 8, 2) 
[1] 1402 5 11 

> | 


Pour ceux qui souhaitent savoir comment l'année est calculée, voici le code source disponible 
dans le GitHub du package: 
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do.greg2jal <- t (year, month, day) 


Li 
year as.integer(year) 
month as.integer(month} 


day <- as.integer(day) 


if (month 


stop("month is outside the range 1-12") 


(day 1 


stop("day is outside the range 1-31") 


gdm <- c(@, 31, 59, 90, 120, 151, 181, 212, 243, 273, 304, 334) 


year2 ifelse(month > 2, year + 1, year) 


1 | month 12) 


day 31) 


days <- 355666 + 


365 year 
(3 + year2) 


(year2 + 
(year2 
day + 


99) 
399) 


gdm{[month] 


jyear <- -1595 + 33 (days 12853) 


days <- day 


s 12953 


jvear jyear + 4 (days 
days <- days 1461 


if (days 
{ 


jvear 


365) 


jyear + (days 1) 


days (days 1) 365 


1 


(days 31) 
+ days 31 


7 (days 186) 30 
+ (days - 186) 30 


(c(jiyear, jmonth, jday)) 


Comme on peut le voir c'est pas compliqué mais pas trivial non plus... 


Sciences.ch 
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Exemple 19.: Manipulations de dates avec du temps 
R 3.0.2 


Pour travailler sur les heures et minutes nous allons faire encore une fois une entorse en 
supposant que nous avons déjà étudié l'import de fichiers *.csv (voir plus loin pour les détails 
relativement à ce sujet). 


Considérons donc l'import du sous-ensemble du fichier *.csv suivant: 


: 
_R RGui (64-bit) - [R Console EN 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


setwdi"C:/") 

mydata<-read.csv("VentesCleanWithTime.csv",header=T,sep=";:") 

mydata<-mydata[1:10,1:5] 

mydata 

NClient ictivite NDeCommande DateDeCommande Article 
100 issurances -01.2000 10:19 Compaq Presario 100 
123 Machines/Outils -01.2000 07:08 IBM 500 
109 Éducation -01.2000 14:35 AST Intel 150 
104 Éducation -01.2000 04:14 AST Intel 200 
117 Banques -01.2000 16:25 Compaq Presario 100 
103 issurances -01.2000 11:01 AST Intel 150 
104 Éducation -01.2000 21:30 AST Intel 200 
111 Alimentaire -01.2000 02:20 IBM 500 
113 Construction .-01.2000 23:06 Compaq Presario 100 
116 Pharmaceutique -01.2000 16:14 IEM 500 
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et nous allons nous assurer que R comprenne la colonne DateDeCommande comme étant de 
type date et heure sinon quoi nous aurons des problèmes avec l'analyse des séries 
chronologiques à l'aide de la commande as.POSIXct() (qui encode les dates et heures en 
nombre de secondes écoulées depuis l'origine, le 1° janvier 1970): 
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setud("C:/") 


mydata<-read.csv("VentesCleanWithTime.csv",header=T,sep=";") 

mydata<-mydata[1:10,1:5] 

mydata 

NClient ictivite NDeCommande DateDeCommande Article 
100 Assurances .2000 :19 Compaq Presario 100 
123 Machines/Outils .-2000 :08 IBM 500 
109 Éducation .-2000 :35 AST Intel 150 
104 Éducation .-2000 114 AST Intel 200 
LE br Banques .2000 :25 Compaq Presario 100 
103 Assurances .-2000 101 AST Intel 150 
104 Éducation .-2000 :30 AST Intel 200 
111 Alimentaire .-2000 :20 IBM 500 
113 Construction .2000 :06 Compaq Presario 100 

10 116 Pharmaceutique .2000 :14 IEM 500 

> mydatafDateDeCommande<-as.POSIXct (as.character (mydata$DateDeCommande), format = "$d.%m.%Y $%H:%M") 

> mydata 

NClient ictivite NDeCommande DateDeCommande Article 
100 Assurances 2000-01-03 H :00 Compaq Presario 100 
123 Machines/Outils 2000-01-03 :08:00 IBM 500 
109 Éducation 2000-01-03 :35:00 AST Intel 150 
104 Éducation 2000-01-03 114: AST Intel 200 
117 Banques 2000-01-04 H s Compaq Presario 100 
103 issurances 2000-01-04 ‘01: AST Intel 150 
104 Éducation 2000-01-04 :30: AST Intel 200 
BTE Alimentaire 2000-01-04 120: IBM 500 
1 Construction 2000N91-04 ï d Compaq Presario 100 
116 Pharmaceutique 2000-01-04 ‘14: IBM 500 
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BC) 


setwd{("C:/") 
mydata<-read.csv("VentesCleanWithTime.csv",header=T,sep=";:") 
mydata<-mydata[1:10,1:5] 
mydata$DateDeCommande<-as.POSIXcet (as.character (mydataf$DateDeCommande), format = "$d.%m.$%Y *H:%M") 
mydata$DateDeCommande<-format (mydata$DateDeCommande, format="$H:$M:3s") 
mydata 
NClient ictivite NDeCommande DateDeCommande Article 
100 Assurances L 10:19:00 Compaq Presario 100 
123 Machines/Outils 07:08:00 IEM 500 
109 Éducation 14:35:00 AST Intel 150 
Éducation 04:14:00 AST Intel 200 
Banques 16:25:00 Compaq Presario 100 
Assurances 11:01:00 AST Intel 150 
Éducation 21:30:00 AST Intel 200 
Alimentaire 02:20:00 IEM 500 
Construction 23:06:00 Compaq Presario 100 
Pharmaceutique 16:14:00 IBM 500 


MONO CURE 
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H 
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H 
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Voici la liste des formats: 


Code Meaning (Code Meaning 

a Abbreviated weekday (DA Full weekday 

Gb Abbreviated month TB Full month 

c Locale-specific date and time (Œd Decimal date 

OH Decimal hours (24 hour) I Decimal hours (12 hour) 

Dj Decimal day of the year (Tom Decimal month 

M Decimal minute ep Locale-specific AM/PM 

%S  Decimal second |%U |Decimal week of the year (starting on Sunday) 
ow Decimal Weekday (0=Sunday) W Decimal week of the year (starting on Monday) 
(x Locale-specific Date x Locale-specific Time 

y 2-digit year Y 4-digit year 

%z  lOffset from GMT  |(%Z [Time zone (character) 


Et quelques autres petites commandes comme Sys.time( ) , hour() , minute( }) , second ) : 


& RGui (64-bit}) - [R Cor 
R Fichier Edition Voir Misc Packages Fenétres Aide Es] 


> Sys.time() 

[1] "2013-12-16 14:49:39 CET" 

> houriSys.timel()) 

[1] 14 

> minute(Sys.timel{)) 

[1] 49 

> second(Sys.timel()) 

[1] 52.140985 

> Sys.time()+60*10 #ajout de dix minutes 
[1] "2013-12-16 15:00:05 CET" 

> Maintenant<-Sys.time() 

> UnPeuPlusTard<-Sys.time({) 

> UnPeuPlusTard-Maintenant 

VE difference of 12.12569 secs 
> 


# 


et pour créer des séquences de temps (utile pour les graphiques): 
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> seq(as.POSIXct ("2012-01-01 00:00:00") ,as.POSIXct ("2012-01-01 12:00:00") ,by="hour") 
"2012-01-01 00:00:00 CET" "2012-01-01 01:00:00 CET" "2012-01-01 02:00:00 CET" 
"2012-01-01 03:00:00 CET" "2012-01-01 04:00:00 CET" "2012-01-01 05:00:00 CET" 


"2012-01-01 06:00:00 CET" "2012-01-01 07:00:00 CET" "2012-01-01 08:00:00 CET" 
"2012-01-01 09:00:00 CET" "2012-01-01 10:00:00 CET" "2012-01-01 11:00:00 CET" 
"2012-01-01 12:00:00 CET" 


Notez que si vous travaillez dans certains domaines de la finance, les millisecondes vous 
seront utiles. Dès lors en faisant usage du paramètre digits.secs des options système: 
R RGuï (64-bit) - [R Console = 


R File Edit View Misc Packages Windows Help E x 


> temps<- as.PpoOsIXct ("2009-09-30 10:00:00.543") 
> temps 

[1] "2009-09-30 10:00:00 CEST" 

> op <-— options (digits.secs=6) 

> temps 

+ "2009-09-30 10:00:00.542 CEST" 

> 


Sinon toujours du package timeDate( ) de RMetrics nous pouvons avoir les heures de 
différentes villes de référence pour les fuseaux horaires la finance: 
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> library(itimeDate) 

> headi(listFinCenter({)) 

[1] "äfrica/ibidjan" rifrica/iccra" “Africa/äddis baba" 
[4] "ifrica/dilgiers" rifrica/ismara" rifrica/ Bamako" 


> headi(listFinCenter ("Europe")) 

[i] "Europe/aimsterdam" "Europe/ändorra" "Europe/ithens" 

[4] "Europe/Belgrade" "Europe/Berlin" "Europe/Bratislava' 
> 


Ensuite voici un exemple d'utilisation: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> di<-timeDate("2001-01-05",Fin="Europe/Paris") 

> d2<-timeDate("2001-01-05",Fin="imer ica/New York"] 
> di 

Europe/Paris 


[1] [2001-01-05 01:00:00] 
> d2 


imerica/New York 
[1] (2001-01-04 19:00:00] 
> | 


POSIXct et POSIXcI 


Il y a des livres entiers dédiés à la manipulation des dates avec R. Mais revenons cependant 
un peu sur les deux objets POSIXct et POSIXcI. Voyons déjà qu'ils sont effectivement 
stockés de manière différence (le premier en tant que numérique, secondes depuis le 1° 
Janvier 1970 et l'autre comme un objet de type liste): 
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OR File Edit View Misc Packages Windows Help 


> # la date et heure actuelle 
|> (now <- Sys.time()) 

[11 "2019-03-06 19:06:27 CET” 
> # coercer en POSIXct() 

> (dt.ct <- as.POSIXct (now)) 
[11] "2019-03-06 19:06:27 CET" 
> class(dt.ct) 

[1] "POSIXct" "POSIXt" 

> mode(dt.ct) 

[1] “"numeric" 

> unclass(dt.ct) 

[11 1551895587 

> # coercer en POSIXIt 

> (dt.lt <- as.POSIXIt (now)) 
[1] "2019-03-06 19:06:27 CET" 
> class(dt.lt) 

[1] "POSIXIt" "POSIXt" 

> mode(dt.lt) 

IL], “+i5€” 

> | 


Regardons plus en détails la structure d'une date en POSIXIt: 


Fr 


GR RGui (64-bit) - [R Console] 
QR File Edit View Misc Packages Windows Help 


> + obtenir les noms avec unlist({() 
> names (unclass(dt.lt)) 
[1] "sec" "min" "hour" "mday" "mon" 

[7] "wday" "yday" "isdst" "zone" "gmtof£f" 
|> + extraire les secondes 

> dt.lt$sec 

[11 27:19556 

> # extraire le jour du mois 
|> dt.lt$mday 

[1] 6 


"year" 


Le type d'objet POSIXIt permet de spécifier le fuseau horaire sans passer par un package: 
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MR RGui (64-bit) - [R Console] 


GR File Edit View Misc Packages Windows Help 
EE 


[1] "2017-01-18 18:20:18 CET" 
> (1t0 <-— as.POSIXIt ("2017-01-18 18:20:18")) 
| [1] "2017-01-18 18:20:18 CET" 


O 


|> + dates/heures actuelle selon la zone ou Fuseau Horaire 


> as.POSIXIt(Sys.time(), tz = "“Europe/Paris") 

[11 “2019-03-06 19:09:27 CET" 

> as.POSIXIt(Sys.time(), tz = "America/New York") 
| [11 "2019-03-06 13:09:28 EST" 

> as.POSIXIt(Sys.time(), tz = "Africa/Casablanca") 
| [1] "2019-03-06 18:09:28 WET'” 

[> as.POSIXIt(Sys.time(), tz = "Asia/Calcutta") 

| [11] "2019-03-06 23:39:28 IST” 

> 


|> + listes complètes des fuseaux horaires 
> OlsonNames() 

[1] "Africa/Abidjan" 

[2] "“Africa/Accra" 

[3] "“Africa/Addis Ababa" 
[4] "Africa/Algiers" 

[5] "Africa/Asmara" 

[6] "Africa/Asmera" 

[7] "Africa/Bamako" 

[8] "Africa/Bangui" 

[9] "Africa/Banjul" 
[10] "Africa/Bissau" 
[11] "Africa/Blantyre" 
[12] "Africa/Brazzaville" 
[13] "Africa/Bujumbura" 
[14] "Africa/Cairo" 
[15] "Africa/Casablanca" 
[16] "Africa/Ceuta" 
[17] "Africa/Conakry" 
[18] "Africa/Dakar" 


Que se passe-t-il si le format de date et heure fourni n'est pas standard (ISO 8601)? Là aussi, 
on utilise l'argument format qui sert à spécifier le format utilisé en utilisant as.POSIXct( ) et 


as.POSIXIT ): 


| MR RGui (64-bit) - [R Console] 
R File Edit View Misc Packages Windows Help 


OISECBIOIE 


> as.POSIXct("31-03-2018 12:30:45", 


[1] "2018-03-31 12:30:45 CEST" 
> # ou 
> as.POSIXIt("31 March 2018 12:30:45", 


| + format = "Sd $5B $Y $H:%5M:5%5S") 


[1] "2018-03-31 12:30:45 CEST" 
>| 


+ format = "$d-$m-$Y $H:%5M:%S") 
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Maintenant au niveau des opérations sur les objets POSIXT, signalons que nous disposons des 
fonction strptime( ) et strftime( ) qui permettent respectivement de passer d'une chaînes de 
caratères à un objet POSIXt et d'un objet POSIXt à une chaîne de caractères: 


po _ _— a  —— —— ———— — —— " 


R File Edit View Misc Packages Windows Help E 


> strftime(as.POSIXIt ("31 March 2018 12:30:45", 


É format = "$d $B $Y $H:5M:5S"),"%d $b $Y $H:%5M:%S") 
| [1] "31 Mar 2018 12:30:45" 


> strptime("31 Mar 2018 12:30:45","%d %b $Y %5H:%5M:%S") 
| [1] "2018-03-31 12:30:45 CEST" 
> | 


LR RGui (64-bit) - [R Console] O 


| R File Edit View Misc Packages Windows Help & 


> (tmp0O <- as.POSIXIt ("2017-01-18 18:20:18")) 
[11] "2017-01-18 18:20:18 CET" 

> (tmpi <- as.POSIXIt("2017-02-19 20:20:18")) 
[1] "2017-02-19 20:20:18 CET" 

> #+ différence de temps entre deux dates 

> + différence en secondes 

> difftime(tmpil, tmp0, units = "secs") 

Time difference of 2772000 secs 

> + différence en heures 

> difftime(tmpil, tmp0, units = "“mins") 

Time difference of 46200 mins 

> + différence en heures 

> difftime(tmpi, tmp0, units = "hours") 
Time difference of 770 hours 

> + différence en heures 

> difftime(tmpi, tmp0, units = "“days") 

Time difference of 32.08333 days 

> + différence en heures 

> difftime(tmpil, tmp0, units = "weeks") 

Time difference of 4.583333 weeks 

> #* ajout de temps à une date 

> + ajouter 30 secondes 

> tmp0 + 30 

[1] "2017-01-18 18:20:48 CET" 

> # ajouter une heure 30 min 

> tmp0 + as.difftime("01:30:00", "SH:%M:%S") 
% "2017-01-18 19:50:18 CET” 

> 


Il y a aussi le package lubridate qui est toute une histoire à lui seul. 
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Exemple 20.: Manipulations de variables ordinales (facteurs) 
R 3.2.1 


Les variables ordinales permettant de traiter des variables triées dans un ordre particulier dans 
des tableaux statistiques ou des graphiques. Ceci se fait en utilisant la commande factor ) : 


R RGui (64-bit) - [R Console] — 0  < 


R File Edit View Misc Packages Windows Help _|F|x 


> statuts<-c("Bas",'"Haut", "Moyen", "Moyen", '"Haut","Haut","Bas") 
> #Nous créons un vecteur de facteurs ordonnées (variable ordinale) 
> statuts.ordonnes<-factor (statuts,levels=c("Bas","Moyen",'"Haut"),ordered=TRUE) 
> statuts.ordonnes 
[1] Bas Haut Moyen Moyen Haut Haut Bas 
Levels: Bas,< Moyen < Haut 
> fune peti analyse basique ordonnée: 
> table (statuts.ordonnes) 
statuts.ordonnes 

Bas Moyen Haut 

2 2 3 

> | 


Nous pouvons reconvertir des facteurs en numériques (même si R en arrière-plan les traites de 
toute façon comme des valeurs numériques!): 


R RGui (64-bit) - [R Console] - Ü 


R File Edit View Misc Packages Windows Help 


BE 


> statuts.ordonnes 

[1] Bas Haut Moyen Moyen Haut Haut Bas 
Levels: Bas < Moyen < Haut 

> as.integer(statuts.ordonnes) 

[LT LL 322 331 

> | 


et donc graphiquement: 


R Statistical Software 265/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


>| 


Variable ordinale 


Figure 6 Graph de comptage de variables ordinales à tiges 


OU: 


> dotchart (table (status.ordonnes) ,main="Variable ordinale",xlab="niveaux",ylab="comptage",xlim=c(0,5)) 
Warning message: 
In dotchart (table(status.ordonnes), main = "Variable ordinale”, 
‘al is neither a vector nor a matrix: using as.numeric(x) 
> 


Variable ordinale 


Figure 7 Graph de comptage de variables ordinales de type dotplot horizontal 
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Ou encore: 


> barplot (table (status.ordonnes),main="Variable ordinale",xlab="niveaux",ylab="comptage") 
t à | 


Variable ordinale 


ut 


E 
Bas Moyen Ha 


Figure 8 Graph de comptage de variables ordinales sous forme de diagamme à barres 
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Exemple 21.: Manipulations de variables matricielles 


(matrices) 
R 3.02 


Encore une fois. inutile de préciser l'importance des matrices dans l'analyse financière. Il est 
donc important aussi de savoir les manipuler pour plus tard faire du scripting. 


Création de matrices 


Voyons d'abord les trois cas classiques de création utilisant les commandes cbind( ) et 
matrix( ) et: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


x<-c(11,21,31) 
y<-c(12,22,32) 
z<-c(13,23,33) 
M<-chind(ix,v,z):M 
X Y 2Zz 
[is] 11 12 13 
[2;] ed es 23 
[3,1 321 32 33 
> M<-matrix(c(11,21,31,12,22,32,13,23,33) ,nrow=3):M 
[1] [,2] [,3] 
[1,1 LL 12 13 
[2] 21 22 23 
[3,] 31 32 33 
> M<-diagii,nrow=3);:M 
[1] [,2] [,3] 


> 
> 
> 
> 


[1;] 
[Z,] 


1 (a (a) 
(a) 1 (a) 


[31 (= (= L 

> M<-matrix(rnorm(9),3);:M #une matrice de comp. 
[1] [;2] C;3] 

-0.9076552 -2.4018058 -0.85475011 

-0.1545882 -0.9836447 1.50321380 

-0.6856127 1.3891666 0.02522548 


[1,] 
[Z,] 
[3,] 
> 


aléa. 


On peut aussi rapidement nommer ou "dénommer" les lignes et les colonnes avec la 


commande dimnames( ): 
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R RGui (64-bit) - [R Console] — O X 
R File Edit View Misc Packages Windows Help __ FX 


> dimnames (M)<-list(c("Li","L2","L3"),c{"C1","c2","C3")) 
> M 

C1 C2 C3 
EL 11 12 129 
L2 21 22 23 
L3 31 32 33 
> dimnames (M) <-NULL 
> M 

[,1] (,2] [,3] 

[1,] 11 12 13 
[2,1] 21 22 23 
[3,1] 31 32 33 


> | N 


Ensuite quelques propriétés et accès au contenu des matrices utilisant entre autres la 


commande dim( ) : S° 
R 
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OSIOIE 


> Hi<=matrix(c(11,21,531,12,22,42,13;,23,:33)1,n0cou-3);:M1i 
C;1] [,2] [,3] 
C1 11 12 13 
[2,] 21 22 23 
[3;,] LE 32 33 
> M2<-matrix(runif (9),3):M2 
C1] C2] C3] 
[1,] 0.7383607 0.4357178 0.9507469 
[2,1] 0.1354743 0.4923269 0.1131317 
[3,] 0.3509741 0.6398100 0.8693149 
> dim(M1);:dim(M2) 
CAT: 3. 3 
[1] 3 3 
> M2[2,3] 
[1] 0.113131 
> M2[1,] 
[1] 0.7383607 0.4357178 0.9507469 
>, Hélsel 
[1] 0.4357178 0.4923269 0.6398100 
+ [152,219] 
C1] C2] 
[1,] 0.4357178 0.9507469 
[2,1] 0.4923269 0.1131317 


> | 


LC 
SN 


aintenant il est important de considérer les s@énarios de problèmes de dimensions suivants 
Maintenant il est tant di dérer les sèé de probl de d t 
que l'on rencontre relativement fréquemment dans la pratique (observez et comprenez bien ce 
que fait R dans chacun des cas!!!!): 


R RGui (64-bit) - [R Console _ ( 


File Edit View Misc Packages Windows Help 2! lun Lac 


ÉROSOSINIE) 


> (test<-runif(10)) 
[1] 0.5533336 0.6464061 0.3118243 0.6218192 0.3297702 0.5019975 0.6770945 0.4849912 | 
[9] 0.2439288 0.7654598 
> matrix(test{[1:9],nrow=3,ncol=3) | 
[1] [2] [73] 
[1,1] 0.5533336 0.6218192 0.6770945 
[2,1 0.6464061 0.3297702 0.4849912 
[3,1] 0.3118243 0.5019975 0.2439288 
> matrix(test[1:10],nrow=3,ncol=3) 
[1] [2] [73] 
[1,1] 0.5533336 0.6218192 0.6770945 
[2,1 0.6464061 0.3297702 0.4849912 
[3,1] 0.3118243 0.5019975 0.2439288 
Warning message: 
In matrix(test[1:10], nrow = 3, ncol = 3) 
data length [10] is not a sub-multiple or multiple of the number of rows [3] 
> matrix(test[1:10],nrow=3,ncol=4) 
[,1] [2] [73] [,4] 
[1,1] 0.5533336 0.6218192 0.6770945 0.7654598 
[2,1] 0.6464061 0.3297702 0.4849912 0.5533336 
[3,1] 0.3118243 0.5019975 0.2439288 0.6464061 
Warning message: 
In matrix(test[1:10], nrow = 3, ncol = 4) 
à length [10] is not a sub-multiple or multiple of the number of rows [3] 
> 
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Maintenant voyons quelques opérations classiques utilisant entre autres les commandes 
solve( } , t( ) : 


Fichier Mie Voir Misc Packages Fenétres Aide 
OCE 


> M1i+nM2 #sonme de deux matrices (de méme dimension...) 
C:1] C2] [3] 
[1,1] 11.70122 12.17241 12.822765 
[2:71 21.760375: 22. 6B118 23.695432 
[3,1 31.69860 32.72267 33.95599 
> HM2+1 #somme d'une constante à toutes les composantes 
[1] [2] C3] 
[1,1 1.701218 1.17241 0.8276464 
C2,41: 1.769750: L:660119! 1:9543151 
[3,1 1.696603 1.72267 1.9559872 
> Mi-M2 #soustraction de matrices (de même dimension...) 
C:1] [-2] C:3] 
[1,1 10.29878 11.682759 13.172235 
[2,1] 20.236265 21.31882 22.14568 
M (3,1 30.30140 31.27733 32.04401 
> solve(M2) f#inverse d'une matrice 
C1] [2] C3] 
[1,1 -2.730153 23.36610 -21.37326 
[2,1] 10.764153 -63.85125 59.00113 
[3,1] -6.141968 31.19266 -27.93652 
> t(M1) #transposée d'une matrice 
C1] [C,2] [,3] 
LE ES T1 21 31 
Ces1 12 22 32 
[341 13 23 94 
> Ni %f% M2 #multiplication de deux matrices 
[,1] C2 (1:31 
Ci,] 25.96023 19.465368 20.78372 
[2,1] 47.595594 35.22799 37.16321 
[3,1] 69.23165 50.990509 53.542770 
> 
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et encore quelques autres opérations et commande dont entre autres solve( ) pour l'inverse 
d'une matrice, ncol( ) , nrow() et diag( ) : 
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> M1*M2 fmutiplicaton composante par composante 
[,1] [,2] [,3] 
C2,) 7.713400 2.068914 -2.240597 
[2,1] 16.036874 14.965967 19.649247 
[3,1] 21.65669 23.125452 31.547577 
> M2*10 fmultiplication composante pas composante aussi 
[,1] C,2] C,3] 
[1,1] 7.012182 1.724095 -1.723536 
[2,1] 7.637498 6.811803 6.543151 
[3,1] 6.986028 7.226704 9.559872 
> M1/M2 fdivision composante par composante 
[,1] C,2] C,3] 
[1,1] 15.668699 69,60172 -75.42632 
[2,1 27.495922 32.296888 26.922215 
[3,1 44.37429 44.280222 34.51929 
> solveiM2) %t4 M2 #petit contrôle ;-P 
[1] [2] C:3] 
[1,1 1 -3.552714e-15 -3.552714e-15 
[2,1] O0 1.000000e+00 0.000000e+00 
[3,1] O0 O.000000e+00 1.000000e+00 
> ncol(M2) f#autre manière d'obtenir directement le nombre de colonnes 
[1] 3 
> nrow(M2) #autre manière d'obtenir directement le nombre de lignes 
[1] 3 
> diag(M1i) #extraction de la digonale| 
Li] 11 éé 355 


Voyons maintenant comment faire la somme de certaines lignes ou colonnes de la matrice: 
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R RGui {64-bit) - [R Console] e2 (im X 
R File Edit View Misc Packages Windows Help 


> M<-matrix(c(1,2,3,4,5,6,7,8,9) ,nrow=3);M 
C:1] [,2] [,3] 


[1,] 1 4 7 

[2,1] 2 5 8 

[3,1 3 6 9 

> sum(M) #on somme tout! 

[1] 45 

> sum(M[,1]) #on somme seulement la première colonne 
[1] 6 

> sum(M[1,]) #on somme seulement la première ligne 
[1] 12 


>| 


Enfin, pour le traitement d'image, le fait de savoir changer (inverser) l'ordre des colonnes ou 
des lignes: 


R RGui (64-b 


&R File Edit View Misc Packages Windows Help Œ X 


Sa 


> M<-matrix(c(1,2,3,4,5,6,7,8,9),nrow=3);M 
[,1] [,2] [,3] 


[1,] 1 4 7 
[2,1] 2 5 8 
[3,1] 3 6 9 


> M<-M{,c(3:1)];M 
[,1] [,2] [,3] 


[1,1] 7 4 1 
[2,] 8 S 2 
(3, ] 9 6 3 


> M<-M{[nrow(M) :1,];M 
[1] [,2] [,3] 


[1,1] 9 6 3 

[2,1] 8 5 2 

[3,] 7 4 1 | 
> | 


Matrice de variances-covariances 


Toujours dans les manipulations simples, convertissons une matrice de variances-covariances 
en matrice de corrélation rapidement (parfois utile en finance quantitative): 
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> M<-matrix(ic(11.474,9.086,6.383,9.086,12.086,5.938,6.383,5.938,11.090) ,nrow=3):M 

C1] [;2] C3] 
[1,] 11.474 9.086 6.383 
[2,1] 9.086 12.086 5.938 
[3,1] 6.383 5.938 11.090 
> covzcor (M) 

C;1] C2] C;3] 

[1,] 1.0000000 0.7715677 0.5658504 
[2,] 0.7715677 1.0000000 0.5129005 
[3,1] 0.5658504 0.5129005 1.0000000 
> 


et pour l'inverse il faut utiliser à ce jour le package propagate (...) avec sa fonction 
cor2coY( ) : 
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> covi<-matrix(c(11.474,9.086,6.383,9.086,12.086,5.938,6.383,5.938,11.090) ,nrow=3) :covM 
C1] C2] C3] 
[1,1] 11.474 9.086 6.383 
[2,1] 9.086 12.086 5.938 
É3;1 6.383 5.938 11.090 
> corM<-covicor (covM):corM 
C1] C:2] C3] 


[1,] 1.0000000 0.7715677 0.5658504 
[2,] 0.7715677 1.0000000 0.51290085 
[3,] 0.5658504 0.5129005 1.0000000 
> library(propagate) 

> coM<-cor2cov(corM,diag(corM)) 

> covhM 


C;1] [-2] [:3] 
[1,] 11.474 9.086 6.383 
[2,1] 9.066 12.086 5.938 
[3,1] 6.383 5.938 11.090 
> 


« 


Déterminant et valeurs propres 


Maintenant nous allons faire des calculs légèrement plus complexes avec les matrices mais 
qui restent du niveau BAC (nous allons vérifier si nous retrouvons bien les calculs faits avec 
Excel, Minitab et Tanagra) en reprenant la matrice que nous retrouvons plus tard dans le cadre 
de l'analyse factorielle (et que nous avions calculé à la main dans le cours théorique): 
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RGui (64-bit) - [R Console ST 


> M<-matrix(c(1i,-0.05112,0.08045,-0.05112,1,0.98102,0.08045,0.98102,1),nrow=3):M 
C;1] [2] [:3] 

oi PS 1.00000 -0.05112 0.08045 

[2,1] -0.05112 1.00000 0.981022 

[3,] 0.068045 0.98102 1.00000 

> det (M) 

[1] 0.02044521 

> eigeniM) 

fvalues 

[1] 1.98146023 1.00830652 0.01023325 


$vectors 

C;1] C2] C3] 
[1,1] 0.0212218 0.99538332 -0.09360383 
[2,1 0.7062358 -0.08119452 -0.70330538 
[3,] 0.7076586 0.05118097 0.70469842 


> | 


Nous retrouvons donc le même déterminant, les mêmes valeurs propres et les mêmes vecteurs 
propres que dans les autres logiciels et que de ce qui a été calculé à la main. 


Rappel: Une matrice carrée a toujours des valeurs propres. Par contre si elle n'est pas 
symétrique elle aura des valeurs propres complexès. 


Voyons si nous pouvons aussi retrouver la comatrice (matrice des cofacteurs), donnée comme 


exemple sur le page Wikipédia qui décrit cette matrice. Pour cela, nous utiliserons la fonction 
adjoint( ) du package Rconics: 
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R File Edit View Misc Packages Windows Help 


> library("RConics") 
> À <- matrix(c(-3,-1,3,2,0,-4,-5,-2,1),nrow=3,ncol=3) 
> A 


[1] [,21 [,3] 


[1 —3 pi —5 
[2; —1 (e) —2 
[3,1 3 —4 1 
> B <-— adjoint (A) 
> 2 
Lil El dal | 
[1,] —8 18 —4 
[2-1 5 12 —1 | 
[3,1 E —6 2 
> 


C'est bien conforme au résultat indiqué sur la page Wikipédia. 


Lorsque l'on fait du scripting, il peut être utile de compiler des statistiques dans une matrice 

5 AC 5 
avec des noms aux colonnes et aux lignes (la matrice sera alors de squelette pour afficher des 
données statistiques diverses et variées). 


Voyons un exemple: 
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> x<-c(1i1,21) 

> y<-c(12,22) 

> M<-chindix,y):M 
X y 

[l,;] 11 12 

[2,] 21 22 


> rownames (M)<-ci"Information 1","Information 2") 
> colnames (M) <-ci"Statistiques 1","Statistiques 2") 
> M 


Statistiques 1 Statistiques 2 
Information 1 11 12 
Information 2 21 22 
> | 
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Renommer des lignes et colonnes de matrices est aussi utile dans la théorie des graphes pour 
avoir une sortie écran plus esthétique. Cependant ce n'est pas tout. Considérons la matrice 
d'adjacence suivante vue dans le cours théorique de la théorie des graphes: 


54-bit: - [E 


Æ , 
RGuri {04-Dit 
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e6<-c(0,0,0,0,0,0,0) 
1djM<-chind(el,e4,e2,e3,e5,e7,e6) 
rownames (äidiM) <-c {"ei”, "ear”, re2 ". re3 "”, res", "e7", "e6") 
colnames (adj) <-c {jrei”, red ", re2 “. re3 ”, res”, re7 +, "eé") 
idiM 
ei e4 e2 e3 es e7 e6 
(a) OO 6 © 0 


> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 


m 
H 


Ensuite, avec la commande apply() , nous pouvons connaître le nombre de flèches entrantes 
ou sortantes: 
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> apply(àädjM,1i,surmi) 
ei e4 e2 e3 es e7 eé6 
5 OR RE RES OR OS 


> apply(ädjM,2,sum) 
ei e4 e2 e3 es e7 e6 

3 5 4 0 0 0 
> | 


Le deuxième paramètre "1" ou "2" indiquant si nous souhaitons le calcul pour respectivement 
les lignes ou les colonnes. 


Il y a un autre cas où apply() peut être utilise lorsque la commande choisie n'est pas une 
fonction d'agrégation. Si nous souhaitons par exemple appliquer une fonction quelconque sur 
chaque composante (ici dans l'idée d'avoir le R°), alors: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> setwudi"C:/") 
> mydata<-read.csv("VariationsTitres.csv",header=T,sep=";") 
> cor (mydata) 


Crédit.Lyonnais France.Télécom Lafarge Saint.Gobain Total.Fina.Elf 

Crédit.Lyonnais 1.00000000 .-047680981 .73338852 0.5370196 .5929914 
France.Télécom 0.04780981 . 00000000 .-03863644 -0.4997799 -.1576209 
Lafarge 0.73338852 .03863644 .- 00000000 -.7391915 .5288331 
0.53701959 .-.49977992 -.73919150 .- 0000000 -5917240 


Saint.Gobain 
Total.Fina.Elf 0.59299138 .15762088 . 52883313 .5917240 .-0000000 
> applyicor (mydata),1,function(x){x*2})} 

Crédit.Lyonnais France.Télécom Lafarge Saint.Gobain Total.Fina.Elf 
Crédit.Lyonnais 1.000000000 0.002285778 0.537858724 0.2883900 .35163878 


France.Télécom 0.002285778 1.000000000 0.001492774 .-2497500 .-02484434 
Lafarge 0.5376858724 0.001492774 1.000000000 .5464041 .-27966448 
Saint.Gobain 0.2688390038 0.249779969 0.546404077 . 0000000 -.35013727 
RS (el 0.024844343 0.279664476 -.3501373 - 00000000 
> 


.351638782 


Enfin dans le cours théorique dans le cas des copulas Gaussien, nous avons introduit le 
concept de décomposition de Cholesky. Vérifions que nous obtenons bien la même chose que 
dans le cours théorique avec la fonction chol( ) : 
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SR. 4 
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STE 


> R<-matrix(c(1,-0.5,-0.5,1),nrow=2):R 
C:1] [,2] 

[4:1 2:90 =0:$S 

2,1. =0,5 :1,0 

> choli(R) 
[1] [2] 

EL:] 1 -0.5000000 


[2,] O0 0.8660254 

> t{chol(R))***chol(R) 
C;:1] [,2] 

1,1 1/0 <0,5 

f2:1] -0:S :1:0 

> 


<Ÿ 
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Matrices stochastiques 


Voyons maintenant un encore une autre application avec les chaînes de Markov en se basant 
sur l'exemple utilisé dans le cours théorique d'ingénierie informatique du principe de base 
d'origine de fonctionnement de l'algorithme de Google. Nous avions donc le graphe suivant: 


Nous construisons la matrice stochastique du graphe comme nous l'avons fait à la main dans 
le cours théorique: 


c7<-c(0,0, 

ce<-c(0,0, 

c9<-c(0,0, 0 

ci0<-c(0,0, 5 

cii<-c(0,0, Fr 
ny 
6 


ci2<-c(0,0,0, 
M<- sb end lot né Sie D à 
GI c2 eg c4 cS c6 c7  cë c9 c1i0 cii 


VVVNNNVNNNNNNNNY 


ua bc Let 


-00 
.25 
.25 
.25 
.25 
.-00 
-00 
.-00 
.-00 
.-00 
.-00 
.-00 


.-00 
.-00 
.-00 
.-00 
.-00 
.33 
-.33 
.33 
.-00 
.-00 
.-00 
.-00 


.5 .-00 
-00 
.-00 
-00 
.25 
.-00 
.-00 
-00 
.-00 
.25 
.25 
.25 


[=] 


© Et © O1 © 0:60 © 9 O'0 D 
© © © © © 0 00. 6"0 


[es] 


[1,] 
[2,] 
[3,1 
[4,] 
[5,] 
[6,] 
[7,] 
[8,] 
[9,1 

[10,] 

[11,] 

[1B,] 


« 


© CE ©: © 0: © © © oO 00:06 
DC © © © O0. 0 © © 0 0 0 
D CO O0 © 0: © D 0 On © En 
O00CO0000000000 
©: O O0 0 0 © © 0 ü © 0 in 
oo So © C0 0 0 0e 0 0 
O0000000000uun 
O00000000000O00 
© © © © ©: 0 00 © 0 0 © 
© 0 © ©: Ur © © 00 0 

0O0000000kOOCOO0O 
000000000000 
O00O0OnO0O0n00000Oo0o 
000000000000 
D'o-© 0:0.:0:0:0 6€. 0 

tn © Or OO © O0 GO © 
000000000000 
s- = ne ja se le. à Ve ete. ef 
O0O0unnOO0O0000000O0N 
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Maintenant voyons comment trouver la mesure invariante avec R en utilisant de l'algèbre 


linéaire des valeurs et vecteurs propres subtilement: 


[1;] 
[2] 
[3,] 
[4;] 
[S;] 
[6,] 
[7,] 
[8,] 
[3;] 
[10,] 
[11,] 
[12;,] 
> 


Nous retrouvons donc bien les valeurs calculées à la main dans le cours théorique. 


Convolution de Matrices 


(a) 
(a) 
(a) 
(a) 
(a) 
(a) 
(a) 
(a) 
(a) 
(a) 
(a) 
(a) 
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> as.matrix(abs(eigen(M) $vectors[,1]/sum(abs(eigen(M) $vectors[,1])))) 


C;1] 


-.11617366 
.-05929508 
.-05929508 
.-05929508 
.17559154 
-05604713 
-.11619637 
-05604713 
-11617366 
.-05929508 
.-05929508 
-05929508 


La convolution de matrices est un sujet important dans la pratique du traitement d'images et 
particulièrement aussi dans certains domaines de l'intelligence artificielle. Donc voyons si 
nous arrivons à reproduire l'exemple du vu dans le cours théorique avec la fonction 


convolution( ) du package OpenilmageR: 
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MR RGui (64-bit) - [R Console] — 


GR File Edit View Misc Packages Windows Help x 


> library (OpenImageR) 
| > data _Matrix<-cbind(c(0,0,0,0,0,0,0),c(0,1,1, 
+ c(0,1,1,2,2,1,1),c(0,0,1,1,1,1,1),c(0,0,1,1, 
|> data Matrix 

[,1] [,2] [,3] [,4] [,5] [,6] [,7 
0 (e) 


,0,0,0),c(0,1,2,2,1,1, 
1/1),c(0,0,0,0,0,0,0) 


[,8 
| [1,] 
| [2,1] 
| [3,1] 
| [4,] 
| [S,] 

[6,] 
| [7,] 
| > kernel Matrix<-chind(c(-4, 
> kernel Matrix 


] 
0 
0 
1 
1 
1 
L 


0000000 
0O00HHbHO 
bb NN EH © 
HhHhHhHhHOO 
0000000 


1 


1 
2 
2 
2 
x à 
1 
c 0),c(0,0,0),c(0,0,4)) 


L 
1 
2 
2 
1 
L 
0 


[,1] [,2] [,3] 
| [1,1] -4 0 0 
[2,] 0 (e) 0 
| [3,1 0 0 4 
| > 


|> convolution(data Matrix, kernel Matrix, "same") 
| [1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] 
| TL. 4 4 6 0 0 


0 0 
| [2,1] 4 -B -8 -4 -4  -4 0 0 
1 4 8 -4 -4 ( 0 0 0 
[4,] O -4  -4 0 4 0 4 4 
| [5,1] 0 -4 () 4 4 4 4 4 
| [6,1] O -4  -4 0 4 4 4 4 
| [7,1] () 0 0 4 4 4 4 4 
| > | 
Le > 
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Décompositions de matrices 


Nous allons mettre en pratique et vérifier si nous retombons sur les valeurs numériques 
obtenues lors du cours théorique relativement aux décompositions de matrices de type: 


LU 

QR 

Cholesky 

S VD (décomposition en valeurs singulières) 


Décomposition LU 


On va utiliser le package matrixcalc et sa fonction lu.decomposition( ) pour vérifier si nous 
retombons bien sur les valeurs calculées à la main dans le cours théorique: 


| R < | 
| GR File Edit View Misc Packages Windows Help 5 
> #fDécomposition LU 
> library("matrixcalc") 
> (M <- matrix(c(-1,1,-1,-2,4,-2,1,1,4), nrow = 3,byrow=TRUE)) 
[/1] [,2] [,3] 
[1,1 —1 1 —1 
[2,1 —2 à —2 
[3,1] 1 1 = | 
> lu.decomposition (M) 
SL 
[»11 [,21 [:31 
[1,] 1 0 0 
[21 2 1 (8) 
[3,1] —1 1 1 
SU 
[,1] [,2] [,3] 
Fes —1 1 —1 
[21 (8) 2 (8) 
[31 (8) 0 3 
> | 


Et nous remarquons que nous retombons bien sur les valeurs calculées à la main dans le cours 
théorique. 


Décomposition QR 


On va utiliser la fonction native qr( ) pour vérifier si nous retombons bien sur les valeurs 
calculées à la main dans le cours théorique: 
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ER RGui (64-bit) - [R Console] 


R File Edit View Misc Packages Windows Help 


> #Décomposition OR 
> (M <- matrix(c(-1,3,1,5), nrow = 2,byrow=TRUE)) 
[1] [,2] 
[1,] 1 3 
[2,1] 1 5 
> OR<-qr (M) 
> qr.Q(OR) 
Le] [2] 
[1,] -0.7071068 0.7071068 
[2,1] 0.7071068 0.7071068 
> qr.R(QOR) 
[-1] [2] 
[1,] 1.414214 1.414214 
[2,1] 0.000000 5.656854 


> 


Et nous remarquons que nous retombons bien sur les valeurs calculées à la main dans le cours 
théorique. 


Décomposition de Cholesky 


On va utiliser la fonction native chol( ) pour vérifier si nous retombons bien sur les valeurs 
calculées à la main dans le cours théorique: 


_ ] 
R RGui (64-bit) - [R Console] * 


| ŒR File Edit View Misc Packages Windows Help 


> #Décomposition Cholesky 


> (M <- matrix(c(4,-2,2,-2,17,-1,2,-1,10), nrow = 3,byrow=TRUE)) 
[,1] [,2] [,3] 


| [1,] = —2 à 
E2,1 —2 17 —1 
[3,1 2 -1 10 
> chol(M) 
[:1] [,2]1 [,3] 
EL 2 21 L 
[2,1] 0 4 0 
[3;:1 (e) 0 3 
> | 


RE RER ER 
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Et nous remarquons que nous retombons bien sur les valeurs calculées à la main dans le cours 
théorique. 


Décomposition en valeurs singulières 


Let but ici est d'illustrer le théorème de décomposition en valeurs singulières que nous avons 
démontré dans le cours théorique. 


Nous partons de l'image suivante: 


Ensuite, nous chargeons l'image et l'affichons: 


M KR Console sex] 


> library("ijpeg") 

> myimage <- readJPEG('c:/tmp/pansy.ijpg') 

> plot (NA,xlim=c(0,1),ylim=c(0,1),xlab="",ylab="",axes=F) 
> ts (myimage,0,0,1,1) 

> 


Nous obtenons: 
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Pour faciliter l'exemple nous allons travailler que sur la couche de rouge: 


MR Console = © | _ x 
> myimageRed<-myimage!,,2] 


> rasterlmage (myimageRed, 0,0,1,1) 
> | 


Ce qui donne: 
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Nous effectuons la décomposition en valeurs singulières en utilisant la fonction svd( ) : 


> svd image<-svd(myimageRed) 


d <- svd_image$d 
u <- svd_ image$u 
v <- svd_ image$v 


Pour montrer que les trois matrices satisfont bien la relation démontrée dans le cours 
théorique, nous reconstruisons l'image d'origine avec les opérations mathématiques sur les 
matrices correspondantes: 


MR Console CRE 


reconstruction <- u $%*% diag(d) %5*% t(v) 
fl'image va être affichée incorrectement donc on transforme la matrice 
reconstruction<-t (apply (reconstruction, 2, rev)) 


fmaintenant on peut afficher l'image reconstruite 
image (reconstruction, col = heat.colors(255)) 


Ce qui donne: 
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Maintenant voyons ce que donne la reconstruction avec 2 valeurs singulières: 


> i<-2 #changer la vaelur 
> imageCompressed<- uf,1:i] %*% diag(d{1:i]) 5*% t(v{,l:ij) 
> image(t(apply(imageCompressed, 2, rev)), col = heat.colors(255)) 


> | N 


Ce qui donne: 
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Maintenant voyons ce que donne la reconstruction avec 4 valeurs singulières: 


> i<-4 #fchanger la vaelur 
> imageCompressed<- uf,1l:i] $*% diag(d{1:i]) $5*% t(v{,l:i]) 


> image(t (apply(imageCompressed, 2, rev)), col = heat.colors(255)) 
> | 


Ce qui donne: 


i<-8 #fchanger la valeur 
imageCompressed<- uf,1:i] %*% diag(d{1:i]) $5*% t(v{,1l:i]) 
image (t (apply(imageCompressed, 2, rev)), col = heat.colors(255)) 


Ce qui donne: 
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> i<-16 fchanger la valeur 

> imageCompressed<- uf,1:i] %5*% diag(d{[1:i]l) $%*% t(vi,l:i]) 

> image(t (apply (imageCompressed, 2, rev)), col = heat.colors(255)) 
> | 


Ce qui donne: 


Maintenant voyons ce que donne la reconstruction avec 32 valeurs singulières: 
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> i<-32 fchanger la valeur 
> imageCompressed<- uf,1:i] %*% diag(d{1l:i]l) 5*% t(v{,i:i]) 


> image(t (apply (imageCompressed, 2, rev)), col = heat.colors(255)) 
> | 


< 


Ce qui donne: 


> i<-64 $fchanger la valeur 

> imageCompressed<- uf,1:i] $*% diag(d{1:i]) $5*% t(v{i,l:i]) 

> image(t (apply(imageCompressed, 2, rev)), col = heat.colors(255)) 
> 


Ce qui donne: 
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Multiplication tensorielle (produit de Kronecker généralisé) 


Nous avons vu dans le cours théorique (avec ces applications), que cette multiplication était 
définie par: 


@ub11 Gubi2 *-- a11 big ce ee Gindii  Gind12 ‘** Gin big 

@11021 G@11022 *-- &11 02q + +++  Gin021  Gin022 ‘‘* Ain big 

a110p1 11 0p2 + an bpq + tt in bi Œn Op2 Ain bpq 
AQ@B=— 

Gm1 011 Gm1 012 °°" Aml bi tt tt Ann by Grnn 012 °°" mn big 

Gm1021 Gm102 ‘*: Ami by ++ +++  Gmn021 Gmn02 ‘‘° Gmn boy 

m1 bi m1 bp Ft Gr Opq D °° mn bi mn bp °° mn bp 


Avec l'exemple suivant: 


De À 2. [0 ; 1:0 1:5 2:0 2-5 0 5 O0 10 
L 2 0 51. 6 7 6 7]| |1-6 1-7 2.6 2.7| |6 7 12 14 
F sel | = .[° ; a. [° ; 7 [3.0 3.5 4.0 4.5 0 15 O 20 

6 7 6 7 3:6. 347 46 d4:7 18 21 24 28 


C'est très simple à obtenir dans R et il n'y a même pas besoin de packages particuliers, 1l suffit 
d'utiliser la fonction kronecker ) : 


fR File Edit View Misc Packages Windows Help E& x 


> A<-matrix(c(1,3,2,4),nrow=2,ncol=2);A 
[1] [,2] 


[1,] 1 2 
(2,] 3 4 | 
> B<-matrix(c(0,6,5,7),nrow=2,ncol=2);B | 
[1] [,2] | 
[1,] 0 5 | 
[2,] 6 7 
> kronecker (A,B) 
[1] [,2]1 [,3] [(,4] 
Ets] 0 S 0 10 
[2-1] 6 7 12 14 
[3,1] 0 15 0 20 
[4,] 18 1 24 28 


> | 


R Statistical Software 293/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Exemple 22.: Utiliser des arrays 
R 3.4.2 


Les arrays (parfois assimilés à des "tenseurs") sont fréquents en traitement d'image (puisque 
les images RVB ne sont que des arrays avec 3 matrices, une pour chaque couche de couleur) 
mais aussi dans l'utilisation de certains réseaux de neurones. Voyons comment en créer un: 


R@ File Edit View Mis acka Windows Help - 4 


> a <- matrix(8, 2, 3) 


> a | 
(,1] [,2] [,3] | 
[1,] 8 8 8 
[2,1] 8 8 8 
> b <- matrix(9, 2, 3) 
> b 
[,1] [,21 [,3] 
4,1 9 9 9 
[2,1] 9 9 9 
> arr<-array(c(a, b), c(2, 3, 2)) 
> air 
LA LA 1 
[,1] [,21 [,3] 
[1,] 8 8 8 
F2, 1 8 £ : 
sr v 2 
[,1] [,2] [,3] 
F1 9 9 9 
[2,1] 9 9 9 


Où c(2,3,2) signifie: 
c(nombre de lignes des matrices, nombre de colonnes des matrices, nombre de matrices) 


Pour accéder aux sous-matrices: 


8 File Edit Viev Misc  Packag Windows Help 5 x 


FES ES 


> arrl,,2] 
[1] [,2] [,3] 


[1,1 9 9 9 
[2,] 9 9 
> arrf,,1] 

[,1] [,2] [,3] 
[1,] 8 8 8 
[2,1 8 8 8 
> | 
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Ne 
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Exemple 23.: Utiliser des listes 
R 3.02 


Les listes, créées via la fonction list() , sont considérées souvent comme le type de données le 
plus complexe de R car on peut y mélanger des vecteurs, des matrices et des textes en une 
seule entité (très pratique plutôt que de renvoyer lors de scripts des variables à n'en plus finir à 
l'utilisateur!). Voici une figure qui résume très bien la situation vue jusqu'ici: 


Matrix 
Vector 


« u 


Data Frame columns 
(Table) 


Figure 9 Vecteurs vs Matrice vs Array vs Dataframe vs Liste 
S 
Voyons cela via un exemple: 
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R Fichier Edition Voir Misc Packages Fenétres Aide 


l<-"Ma première liste" 
vect<-c(100,101,102) 
mat<-matrix(1:10,nrow=5) 
acticles<-c("IBM 500","AST Intel 150", "AST Intel 200") 
mylist<-list(title=l,clients=vect mat,produits=articles) 
mylist 

$ftitle 

[1] "Ma première liste" 


$clients 
[1] 100 101 102 


[31] 


[1,] 
[2,] 
[3,] 
[4,1 
[S;] 


$produits 
[1] "IBM 500" "AST Intel 150" "AST Intel 200" 


> mylist[[2]] 

[1] 100 101 102 

> mylist[["clients"]] 

[1] 100 101 102 

> names (mylist) 

[1] "title" clients" "" "produits" 
> summaryimylist) 

Length Class Mode 
title L -none- character 
clients 3 -none- numeric 

10 -none- numeric 
Re 3 -none- character 
Æ 


Ou pour reprendre un exemple de Garrett Grolemund and Hadley Wickham qui est très bien 
illustré: 
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HR RGui (64-bit) - [R Console] 
4 File Edit View Misc Packages Windows Help = | 


GCEUsEC EE 


> x1 <— list(c(1, 2), c(3, 4)) 
| > x2 <-— list(list(1, 2), list(3, 4)) 
> F” <— list(i, list(2, list(3))) 

> 


Ce qui donne de façon imagée: 


x1 X2 X3 


Mais dans R (moins ludique.….): 
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R RGui (64-bit) - [R Console — (n] 


GR File Edit View Misc Packages Windows Help 


> x1il 
1111 
[1] 12 


[121] 
[1] 3 4 


> x2 
[1[1]] 
C([1]]0111]] 
[11 


(111)1112)] 
RE 


[121] 
[(211(11]] 
[1] 3 


[(211(12)] 
[1] 4 


> x3 


(11]] 
[1] 1 


[12]] 
[(21]10111]] 
[1] 2 


Il est très facile de rajouter des éléments à une liste existante: 
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> mylist$message<-"Ceci une liste d'exemple" 
> mylist 

$ftitle 

[1] "Ma première liste" 


$clients 
[1] 100 101 102 


[131] 


[1;] 
[Z;] 
[3,] 
[4,] 
[S;] 


$produits 
CL "IBH: 500" "AST Intel 150" "AST Intel 200" 


fmessage 
[1] "Ceci une liste d'exemple" 


> | 


Nous pouvons aussi choisir où exactement insérer la variable dans la liste: 
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R Fichier Edition Voir Misc Packages Fenêtres Aide 


> mylist<-cimylist[1:3] ,message="Insertion" ,mylist[4:5]) 
> mylist 

$ftitle 

[1] "Ma première liste" 


$clients 
[1] 100 101 102 


C[3]] 

C:1] [,2] 
[1;] 1 6 
[Z;] 7 
[3;] 6 
[4;] 9 
[S;] 10 


fmessage 
Ci] "Insertion" 


$produits 
[1] "IBM 500" "AST Intel 150" "AST Intel 200" 


fmessage 
[if "Ceci une liste d'exemple” 


« 


Pour supprimer un élément d'une liste c'est tout aussi simple: 
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R Fichier Edition Voir Misc Packages Fenêtres Aide 


> mylist[-5] 
$ftitle 
[1] "Ma première liste" 


$clients 
[1] 100 101 102 


C(31] 


[1;] 
[Z;] 
[3,] 
[4;] 
[S;] 


$produits 
[1] "IEM 500" "AST Intel 150" "AST Intel 200" 


> | 
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Exemple 24.: Création/Édition de données en ligne de 


commande 
R 3.0.2 


Bon voilà un sujet que nous n'avons traité ni dans le livre sur Minitab, ni dans celui sur SPSS 
puisque dans ces deux logiciels, la saisie se fait simplement comme dans un tableur. 


Dans R, il peut être utile cependant de savoir comment faire en utilisant la commande ce ) 
pour générer des colonnes (vecteur) et la commande data.frame( ) pour composer une 
matrice: 


2 RGui {64-bit) - [R Consolel 
R Fichier Edition Voir Misc Packages Fenêtres Aide 


client<-c(100,101,102) 

commande<-c(1,2,3) 

article<-c("AST Intel 150","AST Intel 200","Compaq Presario 100") 
quantite<-c(23,13,94) 
mydata<-data.frame(client,commande,article,quantite) 


mydata 

client commande article quantite 
100 L AST Intel 150 29 
101 z AST Intel 200 13 
102 3 Compaq Presario 100 94 


Attention!!! Si on construit un data frame de la manière ci-dessus on ne pourra plus changer 
facilement les valeurs des articles puisque la commande data.frame en fait automatiquement 
des niveaux (levels): 


# RGui (64-bit) - [R Console] 0 ‘ | 


GR File Edit View Misc Packages Windows Help en Ne 


> mydataS$article[[2]]<-"AST Intel 250" 

Warning message: 

In ‘[[<-.factor' (‘*tmp*°', 2, value = c(iL, NA, 3L)) : 
ro factor level, NA generated 

> 


Il faut créer le data frame de la manière suivante en utilisant le paramètre stringAsFactors 
afin de pouvoir être libre de ses mouvements: 
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| MR RGui (64-bit) - [R Console] — 
ŒR File Edit View Misc Packages Windows Help 6 x 
ESC | 
> mydata<-data.frame(client, commande, article,quantite,stringsAsFactors = FALSE) 
|> mydataS$article[[2]]<-"AST Intel 250" 
> mydata 
client commande article quantite 
(Æ 100 1 AST Intel 150 23 
2 101 2 AST Intel 250 13 
3 102 3 Compaq Presario 100 934 
> | 


Ensuite pour changer les noms des variables on peut utiliser la commande edit() dans une 
feuille similaire à celle d'un tableur: 


fR 
R R Console 


> client<-c(100,101,102) 

> commande<-c(1,2,3) 

> article<-c("AST Intel 150","AST Intel 200","Compaqgq Presario 100") 

> quantite<-ci23,13,94) 

> mydata<-data.frame(client,commande,article,quantite) 

> mydata d 

client command 
100 


us 
> edit imyaaa) | Tics fe fasr mers {as | | 
[sos [compas Presario 100/98 | | 


et donc changer le nom des colonnes en cliquant dessus: 
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€ 


R Editeur de données (=) s|S|Xx. 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


client<-c{(100,101,102) 

cormmande<-c(1,2,3) 

article<-c("AST Intel 150","AST Intel 200","Compaq Presario 100") 
quantite<-c(23,13,94) 
mydata<-data.frame (client ,commande,article,quantite) 

fix (mydata) 


qui affiche exactement le même tableau mais cette fois avec les valeurs qui sont aussi 
modifiables directement. 


Vous pouvez aussi utiliser fix() pour créer un date frame en partant de zéro: 
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CN 


R Fichier Edition Voir Misc Packages Fenêétres Aide [- [a] 


> mydata<-data.frarme () 
> fix imydata)| 


Enfin, indiquons que nous pouvons aussi afficher les données avec la commande View en 
ajoutant en plus un titre à la fenêtre: 


R R Console 


> View(mydata,title="Ventes") 
>| 


NClient 
100 
123 
109 
104 
117 
103 
104 
111 
113 
116 
110 
112 
123 
113 
115 
124 
124 
106 
101 


NCommande | DateDeCommande 


[barepecommande] 
1 
7 


1 Assurances 
Machines/Outils 
Éducation 
Éducation 


Banques 


Éducation 


1 


Alimentaire 


04.01.2000 
10 04.01.2000 


Construction 
10 
11 
12 
13 
14 
15 
16 
17 
18 
19 


Pharmaceutique 


Distribution 11 
Machines/Outils|12 
Machines/Outils|13 
Construction 4 
Distribution 5 
6 
7 
E 


19 05.01.2000 


1 
ed 
Éducation 1 
Éducation 1 
Construction 1 
Construction 


Il existe des méthodes beaucoup plus élaborées pour l'édition de données. Particulièrement le 
package rhandsontable dont une vignette est disponible ici: 


https://jrowen.github.10/rhandsontable/ 
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Exemple 25.: Identifier le typage 
R 3.0.2 


Lorsque vous utiliserez des scripts pris d'Internet et que vous en décortiquerez le 
fonctionnement il vous faudra parfois déterminer le typage d'une variable. Voyons quelques 
exemples utiles à l'aide de la commande class( ) : 


R Fichier Edition Voir Misc Packages Fenêtres Aide [#1] x] 


> hauteur<-20 

> class(hauteur) 

[1] "“numeric” 

> nom<-"15027" 

> class (nom) 

[1] "character" 

> test<-T 

> class i(T) 

[1] "logical" 

> matrice<-diagi2) 

> class (matrice) 

[1] "matrix" 

> mydata<-as.data.frame(imatrice) 
> class (mydata) 

[1] "data.frame" 

> à aini de suite... 
> 
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Exemple 26.: Plotter (tracer) des fonctions algébriques 
R 3.0.2 


Bon rien de bien compliqué pour commencer avec les graphes. Nous allons tracer quelques 
polynômes avec des petites améliorations graphiques mineures (on complexifiera au fur à 
mesure de notre avancement dans le présent document avec de histogrammes, des doubles 
axes, etc.) avec les commandes function( ) , plot() , grid(}) et legend ) : 


R R Console CS lex) 


f<-function(xj{x*2-5#x-10} 

g<-function(x) {x*2+5tx-10} 

plot(f,-10,10,col1="blue",ylim=c(-15,100) ,xlab="x",vlab="f{x) ,g(x)",lwud=2,main="Divers plot") 
plot ig,-10,10,col="red", lud=3, add=TRUE) 

grid() 

legend("topleft",col=c("blue","red"),lty=1, legend=c("£fi(x)",;"g{(x)")) 


VUMVNNNNY 


R R Graphics: Device 2 (ACTIVE) 


Divers plot 


[= 
Le] 
[=] 
Le] 
[=] 
T 
[=] 
Le 
O 


Figure 10 Graph de fonction f(x) 


Nous pouvons obtenir la même chose avec la commande curve() en améliorant au passage 
un peu le résultat (amélioration que l'on aurait pu appliquer aussi directement à l'exemple ci- 
dessus): 
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f<-function(ix) {x*2-5#x-10} 
g<-function(x) {x*2+5tx-10} 
curve(f,-10,10,col="blue" ,n=1000, vlim=c(-15,100) ,xlab="x", 
ylab="f£f{(x) ,g(ix)",lwud=2,main="Divers plot") 
curvei(g,-10,10,col="red",n=1000,xlab="x", 
ylab="f{x) ,g(x)",lud=3,add=TRUE) 

gridi() 
abline(h=0,v=0,1ty=11) 
legend("topleft",col=c("blue","red"),lty=1, legend=c{i"£fix)","gix)"),bg="white") 


VVNVNNEN+ENVY 


Divers plot 


100 


Q 
co 
[æ) 
Le] 
[æ] 
T 
[=] 
[ail 


0 


Ou une fonction exponentielle avec les deux axes en échelle logarithmique (de façon un peu 
basique): 
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R & Console =|e/|x 
> f<-function(x){5texp(x)} 
> plot(f,1,100,col="blue",xlab="x",vlab="f{x)",log="xy",vlim=c(1,100000) ,lwd=2,main="Divers exponentiel") 
> grid) 
> legendi"topleft",col=c("blue"),lty=1, legend=ci"£(x)")) 
> ” 
R Graphics: Device 2 (ACTI te) 
Divers exponentiel 
fo 

Q 

[æ) 

Le) _ 

[æ) 

— 

E 
= 

(=) 

eo — 

= 
« L 

— 

1 2 5 10 20 50 100 
x 


Pour avoir que l'axe Y en échelle logarithmique 1l vous suffit de mettre de changer l'argument 
log (avec un petit exemple clin d'oeil scolaire de l'utilité de l'échelle logarithmique): 
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f<-function{(x) (100+50fsin{(x)}) 
g<-function(x]) (10+5#*sini(x)) 
plotif,-10,10,col="blue",log="y",vlim=ct{1,160)) 
> plot(g,-10,10,col="red", log="y",add=TRUE) 
> 


Avec certaines fonctions, R transforme directement l'expression algébrique de façon 
esthétique dans les légendes ou titres par exemple en utilisant la commande expression( ) : 
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> f<-function(x) (sqrt(x)) 

> ploti(f,1,4,col="blue",xlab=expression(paste("Diameter of aperture (", mu, "m)")) 
+ ,vlab="fix)",lwud=2,mainsexpression(v==sqrt{(x))) 

> 


2.0 25 3.0 


Diameter of aperture (um) 


Figure 11 Graph avec équation dans le titre 


ou encore: 


R Statistical Software 313/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


« 
KR R Console se] De 


> text (9.3,10, expression(fiy) ==frac(i,sqrt(2tpitsiqgma"2))jf 
+ efraci-(y-mu)"2, 2*siqma*2)), 

+ cex=1.25) 

> | 


Figure 12 Graph avec équation dans la zone de traçage 


Évidemment l'intérêt de savoir faire ce type de graphique c'est typiquement en finance lorsque 
l'on connaît explicitement le polynôme du deuxième degré de la frontière efficiente, de 
pouvoir aussi tracer la security market line dont l'équation de la droite est aussi explicitement 
connue! 


Sinon, depuis mi 2020 on peut faire des tracer très simplement des fonctions analytiques avec 
le package ggplot2 comme le montre l'exemple ci-dessous à l'aide de geom_function( ): 
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> library("ggplot2") 
> ggplot ()+xlim(-5,5)+ 


+ geom_ function(aes (color="linear"),fun=-2*.x+3)+ 
+ geom function(aes(color="quadratic"),fun=-.x"2-2#.x+3) 
> | 


3 à | _ =) x 
40- 
30- 
20- 
colour 
> —— linear 
—— quadratic 
10- 
0- 


-50 -25 0.0 25 5.0 | 
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Exemple 27.: Animer (tracer) des fonctions algébriques 
R 3.0.2 


Avec la package animation, nous pouvons animer un plot dans un fichier *.gif à l'aide de la 
commande savegif( ) . 


Remarque: Faire des animations est très utile surtout pour les statistiques afin de voir la 
convergence des distributions ou dans les plots de cartes pour voir des chemins ou des 
densités évoluer. 


Il faudra cependant au préalable télécharger et installer le logiciel gratuit: 


http://www.imagemagick.org 


Par exemple en animant simplement un sinus et un cosinus: 


le ———— 


| R R Console -—|-©-| rs 


library(animation]) 


> 

> 

> saveGIFi{ 

+ Lori in L:100){ 

+ curve(sini(x),from=-5+{(i*0.05),to=5+(i*0.05),col="red",vylab="") 

+ curve(cos(x),from=-5+(i*0.05),to=5+(i*0.05) ,add=TRUE,col="hlue",vylab="") 

+ legendi"topright",legend=c{i"sinix)","cos(x)"),fill=ci"red","blue") ,bty="n$ 

+ } 

+ },interval=0.1,ani.width=550,ani.height=350) 

Executing: 

"C:\Program Files\ImageMagick-6.8.8-Q16\convert.exe" -loop 0 -delay 10 
C:/Users/1S0ZVI-1/äppData/Local/Temp/RtmplvyEi2j/Rploti.png 
C:/Users/1S0ZVI-1/äppData/Local/Temp/RtmplvEi2j/Rplot2.png 
C:/Users/1S0ZVI-1/ippData/Local/Temp/RtmplvEi2j/Rplot3.png 


4 fil b 


ce qui donne une image animée *.gif enregistrée dans un dossier temporaire de votre disque: 


o 
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Figure 13 Graph animé au format GIF de fonctions f(x) 
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Sinon avec le package av et sa fonction av_encode_video( ) on peut créer aussi une vidéo au 
format *.mp4. L'exemple reproduit ci-dessus mais avec une sortie vidéo donnera: 


| M RGuiï (64-bit) - [R Console] 


ŒR File Edit View Misc Packages Windows Help x 
EROISESEE 

> library("av") 

> png("input$03d.png", width = 1280, height = 720, res = 108) 

> for(i in 1:100){ 

+ curve(sin(x),from=-5+(1i*0.05),to=5+(1*0.05),col="red",ylab="") 

+ curve(cos(x),from=-5+(i*0.05),to=5+(1*0.05),add=TRUE, col="blue",ylab="") 
+ legend("topright",legend=c("sin(x)","cos(x)"),fill=c("red","blue")) 

5 DE | 

> dev.off({() 

null device 


1 

|> png_files <- sprintf("input$03d.png", 1:100) 
> av_encode video(png files, 'output.mp4', framerate = 1) 
lusing cpu capabilities: MMX2 SSE2Fast SSSE3 SSE4.2 AVX FMA3 BMI2 AVX2 
profile High, level 6.0, 4:2:0, 8-bit 
264 - core 157 r2932M 303c484 - H.264/MPEG-4 AVC codec - Copyleft 2003-2018 - htS 
Output #0, mp4, to "C:\tmp\output.mp4': 

Metadata: 

encoder : Lavf58.12.100 
Stream #0:0: Video: h264 (libx264) (avci / 0x31637661), yuv420p, 1280x720, q$ 

Adding frame 101 at timestamp 100.00sec (100%) - video stream completed! 
frame 1:101 Avg QP: 2.90 size: 27614 
mb I 116..4: 89.5% 0.6%5 9.95% 
8x8 transform intra:0.6% 
coded y,uvDC,uvAC intra: 5.68% 11.8% 11.25% 
116 v,h,dc,p: 91% 6% 3% 0% 
18 v,h,dc,ddl,ddr,vr,hd,vl,hu: 55% 17% 27% 0% 0% 0% 0% 0% 1% 
14 v,h,dc, ddl, ddr,vr,hd,vl,hu: 23% 17% 41% 3% 2% 6% 1% 5% 1% 
i8c de,h,v,p: 93% 3% 3% 0% 
kb/s:220.91 
[1] "C:\\tmp\\output.mp4" 
> utils::browseURL('output.mp4') | 
> 


|< > 


Ce qui résulte bien en une vidéo dans le dossier indiqué à la fin du script: 


é — O 
e [ e He 
= 7 ŒRR Pme + ESS 77] M sintx) 
FA Y # N F LT 5 Œ cos(x) 
* à 
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w | F \ / 
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/ 
\ / 
A \ / 
8 + / \ / 
/ / 
/ \ / 
/ 
S f À * / 
Ce / \ ÿ 
\ / 
/ À X / 
/ X f 
e | _” Ne 2 NA 
‘ T T T T T 
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x 
01:08 01:40 
TCIOCRE = 


Figure 14 Graph animé au format AVI de fonctions f(x) 
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Exemple 28.: Racine(s) d'équations univariées 
R 3.0.2 


Pour rester dans les bases, voyons la méthode permet de trouver une racine unique à une 
équation supposée avoir des racines en utilisant la commande uniroot( ) : 


7 


+ RGui (64-bit) - [R le 
R Fichier Edition Voir Misc Packages Fenétres Aide 


IEC 


> f<-function(x){x*2-5#x-10} 

> uniroot(f,c(0.1,10))$root #l'étendue de recherche doit avoir les bornes de même signe 
[1] 6.531129 

> uniroot(f,c(0.1,10)j)$iter #nombre d'itérations utilisées 

[11 7 

> | 


R Fichier Edition Voir Misc Fenêtres Aide 


Charger le package. 
Choisir le site miroir de CRAN... 


Choisir les entrepôts. 


Installer le(s) package(s).… 


Mettre à jour les packages... 


Installer le(s) package(s) depuis des fichiers zip. 
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et choisir celui se nomme rootSolve: 


R RGui (64-bit) - [R Console] 


R Fichier Edition Voir Misc Packages Fenêtres Aide 
SIP 


> utils:::menulInstallPkgs |) 
--- SVP sélectioff e session --- 


ROLplugin.symphony 


rolasized 
Rook 


[rootSove __E 


ropensnp 
ROptEst Y 


Une fois ceci fait, nous pouvons retourner à notre exemple en chargeant la libraire avec la 
command library() et en cherchant les racines avec uniroot.all() et en les plottant avec la 
commande points( ) : 


R & Console 


> libraryirootSolve) 

> f<-function(x) (x*2-5#*x-10) 

> uniroot.all(f,c(-20,20)) 

[1] -1.531104 6.531133 

> AllRoots<-uniroot.all(f,c(-20,20)) 

> plot(f,-20,20,col="blue",xlab="x",vlab="f{ix)",lud=2,main="Racine multiples") 
> points(AllRoots,y=rep(0,length{AllRoots)),pch=16,cex=2) 

> gridi) , 

> | 


Racine multiples 


Figure 15 Grap avec fonction f(x) et ses racines 
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Exemple 29.: Dérivation algébrique/Dérivation numérique 
R 3.0.2 


R a nativement une commande pour dériver. Voici un exemple de dérivation avec l'estimation 
de la dérivée en un point: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> diff<-Diexpression(sqgrt(i - x*2)]), 'x') 
A à Le a 
—-(0.5 + (2 % x * (1 - x*2)"-0.5j) 


> x<— 0.5 

> eval(diff) 
[1] -0.5773503 
> | 


Ensuite, pour la dérivée numérique nous allons reprendre l'exemple basique fait dans le cours 
MATLAB et comparer la différence. D'abord avec un pas relativement standard: 
Se 


h<-1e-11 

x<-seq(0,4*pi,0.1) 

f<-x/expix) 
d<-{{(x+h)/expix+h)i-x/expix))/h 
plotix,f,vylim=c(-0.2,1.2) ,type="n") 
lines(x,f) 

linesi(x,d,col="red") 

windows {) 

d exact<-(1-x)/expix) 
difference<-abs(d exact-d}/d exact; 
plot(x,difference,type="n") 
linesix,difference) N 


VVNNNNMNNNNNNV 


A 
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Figure 16 Graph d'une fonction f(x) et sa dérivée 
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Et ensuite avec la même petite valeur problématique: 
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| > x<-seq(0,4#pi,0.1) 
> f<-x/expi{x) 
> d<-{{x+h) /expix+h)-x/exp{ix))/h 
> plot(x,f,ylim=c(-0.2,1.2) ,type="n") 
> linesix,f) D 
> linesi(x,d,col="red") 
> windows () 
> d exact<-(1-x)/expi{x) 
> difference<-abs(d exact-d)/d exact; 
> plot(x,difference,type="n") 
| > lines(x,difference) 
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R R Graphics: Device 3 (ACTIVE) IE 


12 


10 


difference 


Nous voyons donc apparaître le même problèmesde précision que dans MATLAB. Si nous 
tâtonnons un peu nous verrons que le meilleur Pas est de l'ordre de 1E-8 ce qui amène à une 
erreur relative de l'ordre de 1E-7. 


Voyons cependant ce que nous pouvons faire avec la package numDeriv de R et la 
commande grad() en commençant d'abord par réobtenir le premier résultat ci-dessus en 
utilisant la méthode simple: 


libraryinumDerivy]) 

x<-seq(0,4fpi,0.1) 

funci <- function(x){x/expi{x)} 

f<-x/expix) 

numdi <- grad(funci, x,method="simple" ,method.args=list (eps=1le-11)) 
exact <- (1-x) /expi{x) 

plotix,f,type='n',vylim=c(-0.2,1.2)) 

lines(x,f) 

linesix,numdi,col="red"}] D 
windows () 

plotix, (numdil - exact)/exact) 

lines(x, (numdi - exact)/exact,col="green") 


VVVNMVNNNNNNNNNYV 


“ 
= 


Ce qui donne (nous retrouvons donc bien la même chose): 
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Figure 17 Graph d'une fonction f(x) avec ses point estimés 


et nous aurons le même problème qu'avant si nous prenons le pas comme valant 1E-16. 
N 
L 


Ÿ 
Par contre, laissons ce package choisir sa méthode par défaut: 


library(inumDeriv) 
x<-seq(0,4fpi,0.1) 
funci <- function(x){x/exp{x)} 


f<-x/expix 
numdi <-fgrad(funci,x) 
exact <- -X)/expix 


plotix,f,type='n'!,vlim=c{-0.2,1.2)) 


linesi(x,f) 

lines(x,numdi,col="red") 

windows () 

plotix, (numdil - exact)j/exact) 

lines(ix, (numdi - exact)/exact,col="green") 


VVVNNVNNNVNNNNNNYV 


et là nous avons un résultat remarquable d'amélioration d'environ 8 ordres de grandeur!: 
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Sciences.ch 
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00+80 


LS" LL-8t" 


J28X8/{12ex8 - | puunu) 


Qui trouvera mieux ? 
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Exemple 30.: Intégration numérique 
R 3.0.2 


Pour l'intégration numérique (il existe un package — Ryacas - pour l'intégration symbolique 
mais 1l nécessite une connexion internet constante et de plus le serveur correspondant n'est pas 
toujours en ligne). 


Nous verrons d'autres applications de l'intégration dans R avec la convolution dans le chapitre 
de traitement du signal. 


Intégrale simple 


Un petit exemple avec la loi Normale centrée réduite univariée utilisant la fonction 
integrate( ) : 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


integrand<-function(x){exp(-x"2/2)/sqrt(2#pi)} 
integrate (integrand, lower=-Inf,upper=Inf) 


with absolute error < 9.4e-05 

integrate (integrand,lower=-Inf,upper=Inf) $value 
[1] 1 
> | 


Double Intégrale 


Pour une double intégrale la syntaxe est un peu subtile dans R. Voici un petit exemple pour la 
loi Normale centrée réduite bivariée: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


myf<-function(x)t{ 

res<-rep(0,lengthi(x)) 

for {i in l:lengthi{x)j)j{ 
res[i]<-integrate(f=function(y,x){expi-(x*2+y*2)#0.5)/(2#pij},lower=-Inf, 
upper=Inf,x=x[i]) $value} 

returni(res) 

} 

integrate (myf,lower=-Inf,upper=Inf) $value 

El: L 


> 
+ 
+ 
+ 
+ 
+ 
+ 
> 
[ 

> 
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Intégrale avec somme 


Et pour une intégrale avec une somme finie dans l'intégrande comme par exemple l'espérance 
d'un kernel smoothing avec noyau gaussien tronqué comme démontré et étudié dans le cours 
théorique: 


DD 


Oo i=l 


en utilisant et normalisant les données ci-dessous: 


4 kernel_smoothing_integral.csv - Notepad — [ X 


File Edit Format View Help 
code; MP ;MS 
00102;,1495.18;3840 
00102;,1495.18;,16330 
00102;,1712;113208.67 
00102;,2990.36;8800 
00102;,1495.18;,20217.29 
00102;,1495.18;341414.79 
00102;,1495.18;,10837.77 
00102;,4485.54;6081.59 
00102;,4485.54;12530.1 
00102;1121.39;,63471.32 
00102;,2242.77;,15503.41 
@0102;,1495.18;,22017.54 
00102;,5801.73;,69798.76 
00102;,1495.18;,8030 
00102;,1495.18;,17376.74 
00102;,4485.54;,46842.91 
00102;,1495.18;11194.63 
00102;,1495.18;,3226.45 
00102;,1495.18;,14517.15 
00102;,1495.18;,4655 
00102;,1495.18;,16034.81 
00102;1495.18;,10551.89 
00102;,1495.18,578385.37 
00102;,971.87;,6230.25 
00102;,971.87;3000 
00102;1495.18;3620 
00102;,2242.77;,8925 
00102;,1495.18;1140 
00102;,1495.18;,32273.46 


Le script correspondant est alors: 
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R RGui (64-bit) - [R Console] 
R File Edit View Misc Packages Windows Help 


BOSS 


library(data.table) 
mydata<-read.csv("c:/tmp/kernel smoothing integral.csv",header=T,sep=";") 
data<-data.table (mydata) 

tab1l<-data[code==102,] 

X<-log (tab1i$MS) 


integrand <- function (x,t) { 

h<-0.160 

n<-length(X) 

{(x/ (n*h*sqrt(2*pi)))*exp(-0.5*((x-t)/h)"2) 

} 

sum(sapply(X,function(x)integrate(integrand,x=x, lower=0, upper=+Inf) $value)) 
1] 1.536498 


> 
> 
> 
> 
> 
> 
> 
+ 
+ 
_ 
+ 
> 
[ 
> 


R Statistical Software 328/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Intégrales par Monte Carlo 


Remarque: Le lecteur doit se rappeler d'utiliser la fonctio set.seed( ) s'il veut reproduire les 
résultats à chaque exécution ou même entre différentes machines!! 


Nous allons reproduire ici les trois exemple vus dans le cours théorique. 
D'abord le premier cas simple utilisant la méthode du "touché ou loupé": 


R File Edit View Misc Packages Windows Help 


Bel] 


> £ <- function(x){x"2} 


intmonte<-function (f,a,b,N) { 
m<-round(max(f(a),f(b))*1E4) 
al<-round(a*iE4) 
bl<-round(b*1E4) 
p<-0 
for(i in 1:N){ 
isabove<-(f(runif(n=i,min=al,max=bl})/1E4)-runif(n=1i,min=0,max=m) /1E4) >=0 
if (isabove)!{ 
p<-p+1 
} 
} 
I<-(b-a) *max(£f(a),£(b))*P/N 
return(I) 


VV+H++H++++ +++ + ++ VV 


> intmonte(f,0,3,10000) | 
[1] 8.8074 
> #le résultat exact étant 9| | 


Et ensuite deuxième cas utilisant la méthode de la valeur moyenne pour le calcul de: 


1 
o- | e “dx 
0 
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R File Edit View Misc Packages Windows Help & X| 


EE 


> N <-— 10000 

> x <- runif(N,min=0,max=1) 

> theta.hat <- mean ( exp (-x)) 

> #valeur calculée 

> print (theta.hat) 

[1] 0.6322749 

> #fcomparaison avec valeur théorique 
> print (1 - exp ( -1)) 

[1] 0.6321206 

> | 


et pour calculer: 


4 
o= | e “dx 
2 


R File Edit View Misc Packages Windows Help E x 


EBSOISOSINIE 


| > m <-— 10000 
> x <-— runif (m, min =2, max =4) 
> theta.hat <- mean (exp(-x)) * 2 
> print (theta.hat) 
[1] 0.1162746 

| > print(exp ( -2) - exp ( -4)) 
[1] 0.1170196 
> | 


Mais il existe un package qui implémente toutes les méthodes vues dans le cours théorique. 
Ce package est nommé SI (stochastic integration) et comparons toutes les méthodes (quatre) 
vue dans le cours théorique: 
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MR RGui (64-bit) - [R Console] 


R File Edit View Misc Packages Windows Help 


SI Bel) el(s] | 


library("sIz") 


set.seed(0) 

h <- function(x)({ 
exp (x) 

} 

N <- 100000 


#Méthode du touché ou loupé 
#intégration de exp(x) de -1 à 1 
SPMresult <- SI.SPM(h,-1,1,exp(i),N) 
(I1 <- SPMresult{[[1]}) 

[1] 2.334569 

> (VarIil <- SPMresult{[2]]) 

[1] 7.241821e-05 

> 


VVVVYVVH+MNVY NV 


fMéthode de la valeur moyenne 
fintégration de exp(x) de -1 à 1 
N <- 100000 
MVMresulit <- SI.MVM(h,-1,1,N) 
(Z2 <— MVMresult{[1]1) 

[1] 2.346854 

> (Vari2 <- MVMresult{{(2]j]) 

[1j 1.723418e-05 

> 


#Méthode de l'échantillonnage préférentiel (importance sampling) 
fintégration de exp(x) de -1 à 1 
#En utilisant la fonction complémentaire (3/2+x)/3 
g <- function(x) (return((3/2+x)/3)} 
G_inv <- function(y) (return(sqrt(6*y+1/4)-3/2)} 
ISMresult <- SI.ISM(h,g,G inv, N) 
(I3 <-— ISMresult{[1]]) 

[1] 2.349192 

> (Var1i3 <- ISMresult{[2]]) 

[1] 1.937335e-06 

> 


fMéthode de l'échantillonnage stratifié 
#intégration de exp(x) de -1 à 1 
N <- 100000 
SSMresult <- SI.SSM(h,-1,1,10,N) 
to 
ELST L'152 14 156 159 2 2:272:4 2:66 2:93 
> (14 <- SSMresult{[1]]) 
[1] 17.36745 
> (Vari4 <- SSMresult[[2]]) 
“| 1.311457e-05 
> 


< 


R Statistical Software 331/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Exemple 31.: Résoudre un système linéaire 
R 3.0.2 


Nous allons voir ici comment résoudre le petit problème d'algèbre linéaire que nous avons fait 
dans le cours théorique sur les systèmes linéaires. Il s'agit simplement d'appliquer les 
commandes vues plus haut lors de notre découverte des variables matricielles. 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> A<-matrix(c(1,2,1,0,-5,2,-3,-1,-5) ,nrow=3):à 
C:1] [,2] [,3] 

[1,] 1 0 3 

[2;] 2 -5 -1 

5,1 À 2 -5 

> kv<-matrix(c(-3,-2,1) ,nrow=3) ;:kv7 


C-1] 


[1;] —3 
[2;] —2 
[3;] 1 
> solvei(i,kv) 
Erreur dans solve.default{i, kw) 
‘lbs Lapack dgesv : le système est exactement singulier : U[3,3] 
> 


Donc nous retrouvons la même concluions que dans le cours théorique: ce système n'a pas de 
solutions. 
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Exemple 32.: Générer une variable (pseudo-)aléatoire 


uniforme et reproductible 
R 3.0.2 


Nous allons voir par la suite comment gérer certaines fonctions de distributions classiques 
dans les petites classes et démontrées dans le cours théorique. Cependant, avant cela, il 
convient d'abord de voir une commande particulière que l'on écrit set.seed( ) . 


Considérons donc d'abord la génération suivante d'une variable aléatoire uniforme comprise 
entre 0 et 1: 


R R Console s le |læx) 


> UniformVector<-runif(125,min=0,max=1) 
> hist (UniformVector,freq=FALSE,xlab="unités",col="grey") 


> — — _ ————— = = = _ — 
FR R Graphics: Device 2 (ACTIVE) Fe (© [Es 


Histogram of UniformVector 


12 


Density 
0.8 


04 


0.0 


unités 


Figure 18 Graph de type Histogramme 


À chaque fois que vous réexécuterez ces deux commandes, vous n'obtiendrez pas le même 
graphique. Par contre, si vous utilisez set.seed( ) avec un identifiant, alors dans ce cas le 
résultat peut être reproduit: 
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set.seed{(i) 

UniformVector<-runif(125,min=0,max=1) 

hist (UniformVector,fregq=FALSE,xlab="unités",col="grey") 
set.seedi{(1i) 

UniformVector<-runif(125,min=0,max=1) 

hist (UniformVector,fregq=FALSE,xlab="unités",col="grey") 
set.seedi{(2) 

UniformVector<-runif(125,min=0,max=1) 

hist (UniformVector,fregq=FALSE,xlab="unités",col="grey") 


NEO AUOT EL 


Ainsi, les deux premiers graphs sont identiques par contre le troisième est différent car il 
utilise un autre vecteur aléatoire. RO 


Pour annuler le seed, on écrira: 


R RGui (64-bit) - [R Console] = O X 
ŒR File Edit View Misc Packages Windows Help | UX 


> set.seed(NULL) 
> | 
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Optimisation (recherche opérationnelle) 


Nous allons parcourir ici quelques techniques d'optimisation quadratique dont nous avons 
étudié les détails mathématiques dans le cours théorique. L'idée étant de monter 
graduellement en puissance (complexité mathématique sous-jacente). 


Nous verrons lors de notre étude des modèles de régression, comment utiliser ce type de 
techniques pour faire des régressions contraintes (voir plus loin!). 


Exemple 1.: Optimisation unidimensionnelle (contrainte) 
R 3.0.2 


Nous allons voir ici encore un cas trivial de manipulation algébrique. Il s'agit de trouver 
l'optimisation d'une fonction univariée en utilisant la commande optimize( ) dont la 
spécification d'un intervalle de recherche est obligatoire. 


Prenons le cas de la parabole que nous avions obtenu lors de notre étude théorique du modèle 
de Markowitz (évidemment c'est un cas trivial mais cela marche aussi pour des fonctions 
univariées beaucoup plus complexes): 


se RGui (64-bit) - [R Ce 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> optimize(f=function(x) {18.795tx*2-8.3892*x+0.9384},lower=-100,upper=100) 
$miniriun 
[1] D:223 


$objective 
[i] 0.00226 


> | 


Donc le minimum se trouve en: 


(x, y) = (0.223, 0.00226) 
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Exemple 2.: Optimisation multidimensionnelle (sans contrainte et 


local) 
R 3.0.2 


Utilisons la fonction baleine à bosse que nous avions utilisée dans le cours théorique lors de 
notre démonstration de la méthode d'optimisation de Newton-Raphson: 


R & Console S|S|x 


x<-segi-2,2,length=30) 
y<-seq(-1,1,length=30) 
f<-function(x,y){ 

x 2#(4-2.11x"2+1/3tx"4) +xty+y"2t(-4+4%y"2) 
} 

z<-outer (X,Y,£) 
persp(x,y,2z,theta=40,expand=1) 


LR AS RE SE ER à 


qi M 


KILTRN 


4 


Figure 19 Graph 3D de fonction f(x,y) filaire 


Nous avons alors en utilisant la commande nlm() qui signifie newton local minimum: 
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R Fichier Edition Voir Misc Packages Fenêtres Aide 
EBROIBECSIOIE 


f<-function(z){ 
x<-2[1] 
y<-2z[2] 
x°2#(4-2,1%x"2+1/3%x"4)+xty+y"2#(-4+4%y"2) 
} 

> res<-nlmif,c(i,liji:res 

$minirmum 

[1] -1.03 


festimate 
[1] 0.0898 -0.7127 


$fgradient 
[1] -2.41e-07 5.568e-07 


$fcode 
Et: À 


$fiterations 
[1] 12 


> | 
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R R Console a] 


> x<-seq(-2,2,length=30) 

> y<-seq(-1,1,length=30) 

> f<-function(x,yi{ 

+ x*27(4-2.1%x 2+1/3%x" 4) +xty+y"2%(-4+4%y*2) 
D à 

> z<-outer (x, vf) 

> contour (x,y,z,nlevel=30) 

> 


EE 


06 


Figure 20 Graph de contour Gisogfies) 2D de fonction 3D f(x,y) 
R 
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Exemple 3.: Optimisation multidimensionnelle (sans contrainte et 


global) 
R 3.1.1 


Nous avons parlé dans la formation des très nombreuses techniques empiriques qui existent 
pour chercher des optimums et nous avons démontré deux techniques typiques. Nous allons 
voir ici ce que propose R nativement avec la fonction optim( ) : 


: 
KR R Console (Ss|g|x 
> fw <- function (x) 

+ 10*sin(0.3#x)*sin(1.3tx"2) + O0.00001*x*4 + 0.2#*x+80 
> plot (fw,-50,50,n=1000,main="optim() minimising ‘wild function!) 
> 


> optim(50,fw,method="SANN",control=list (maxit=20000,temp=20,parscale=20)) 
$par 


[1] -15.81498 R is Device 2 (ACTIVE) ses) 


$fvalue 
[1] 67.467977 


optim() minimising ‘wild function" 


$counts 
function gradient 
20000 Ni 


$fconvergence 
[1] 0 


fmessage 
NULL 


> | 


Nous voyons qu'il trouve bien le minimum global en utilisant la méthode. 


Voyons maintenant avec les algorithmes génétiques du package GA. Comme pour le cours 
MATLAB, nous allons chercher le minimum de la fonction Rastrigin qui visuellement 
donnait dans MATLAB: 
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Sciences.ch 


Figure 1 RTE | X | 


File Edit View Insert Tools Desktop Window Help s 


ST EINEONW IE PAREIL" 


rastriginsfon([x,y]) 


100 
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MR Console 


Rastrigin <- function(xi, x2) 
{ 

20 + x1°2 + x2”*2 — 10*(cos(2*pi*xl) + cos(2*pi*x2)) 
} 


> 

+ 

os 

+ 

> 

> x1 <- x2 <= seqg(-5.12,; 5.12, by = 0.1) 
> £ <- outer(xi, x2, Rastrigin) 
> 

> 

mR 


| Astra x2, f, theta = 50, phi = 20, color.palette = bl2gr.colors) 


R Graphics: Device 2 (ACTIVE) 


Figure 21 Graph de surface de fonction 3Df(x,y) avec couleurs 


OU: 


R Statistical Software 341/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


> ARR x2, f, color.palette = bl2gr.colors) 
> 


MR Graphics: Device 2 (ACTIVE) 


Figure 22 Graph de projection d'amplitude de fonction 3D f(x,y) 


Maintenant, nous chargeons le package GA: 


R RGuiï (64-bit) - [R Console] = =] X 
ŒR File Edit View Misc Packages Windows Help - 4x 


> library("GA") 
Loading required package: foreach 
Loading required package: iterators 


# | JA Genetic 

ON RE Algorithms 
DOI 17 

\ /_J  \_\ version 3.1.1 


à 5 “citation("GA")' for citing this R package in publications. 
> 


Ensuite, nous lançons l'optimisation avec la fonction ga( ) : 
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RGui (64-bit) - [R Console] 


CR File Edit View Misc Packages Windows Help = |#|x 

@] | 
ñ“ 

> GA <- ga(type = "real-valued”, 

_ fitness = function(x) -Rastrigin(x{1], x[2]), 

+ lower = c(-5.12, -5.12), upper = c(5.12, 5.12), 

- popSize = 50, maxiter = 1000, run = 100) 

GA | iter = 1 | Mean = -36.161573 | Best = -7.686431 

GA | iter = 2 | Mean = -27.948362 | Best = -6.002614 

GA | iter = 3 | Mean = -22.316413 | Best = -2.888756 

GA | iter = 4 | Mean = -20.6794735 | Best = -0.5653031 

GA | iter = 5 | Mean = -18.8994686 | Best = -0.1055646 

GA | iter = 6 | Mean = -21.5660694 | Best = -0.1055646 

GA | iter = 7 | Mean = -19.1140857 | Best = -0.0774759 

GA | iter = 8 | Mean = -18.4315878 | Best = -0.0774759 

GA | iter = 9 | Mean = -18.1302241 | Best = -0.0774759 

GA | iter = 10 | Mean = -13.0542181 | Best = -0.0774759 

GA | iter = 11 | Mean = -10.781931360 | Best = -0.003010902 

GA | iter = 12 | Mean = -8.755395489 | Best = -0.003010902 

GA | iter = 13 | Mean = -8.301851794 | Best = -0.003010902 

GA | iter = 14 | Mean = -6.903129155 | Best = -0.003010902 

GA | iter = 15 | Mean = -7.461764555 | Best = -0.003010902 

GA | iter = 16 | Mean = -9.390269468 | Best = -0.003010902 

GA | iter = 17 | Mean = -4.523835575 | Best = -0.003010902 

GA | iter = 18 | Mean = -3.367755554 | Best = -0.003010902 

GA | iter = 19 | Mean = -5.228869316 | Best = -0.003010902 

GA | iter = 20 | Mean = -1.761303495 | Best = -0.003010902 

GA | iter = 21 | Mean = -4.103444352 | Best = -0.003010902 

GA | iter = 22 | Mean = -2.583822137 | Best = -0.003010902 

GA | iter = 23 | Mean = -4.300955092 | Best = -0.003010902 

GA | iter = 24 | Mean = -3.278160031 | Best = -0.003010902 

GA | iter = 25 | Mean = -5.372335517 | Best = -0.002718448 

GA | iter = 26 | Mean = -1.939442555 | Best = -0.002718448 

GA | iter = 27 | Mean = -3.066997863 | Best = -0.002718448 

GA | iter = 28 | Mean = -2.790060541 | Best = -0.002701575 

GA | iter = 29 | Mean = -2.732641520 | Best = -0.002191539 
v 


Et nous pouvons résumer l'analyse: 
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GR RGui (64-bit) - [R Console] 
ŒR File Edit View Misc Packages Windows Help 


> summary (GA) 
—— Genetic Algorithn -------------"---s 


GA settings: 
Type 
Population size 
Number of generations 
Elitism 
Crossover probability 
Mutation probability 
Search domain = 

x1 x2 
lower -5.12 -5.12 
upper 5.12 5.12 


real-valued 
50 

1000 

2 

0.8 

0:21 


GA results: 
Iterations 
Fitness function value 
Solution = 


326 
—2.384393e-08 


x1 x2 
“+ —6.444661e-06 8.868609e-06 
> 


On converge donc bien vers la coordonnée (0,0) qui est l'optimum global! 


On peut analyser la convergence graphiquement 
\ 


Œ R Console (=) ES 
> plot (GA) 
>| 

L | 
MR Graphics: Device 2 (ACTIVE) RE 


he if Pr 
Mi Le 


SN mb > 


Fitness value 


-20 
L 
ons de cut ne 


Generation 


250 


300 
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On peut aussi plotter le résultat: 


| MR Console CRE 
La) 
filled.contour(xi, x2, f, color.palette = bl2gr.colors, 
plot.axes = { axis(l); axis(2); 
points (GA@solution{,1], GA@solution!{,2], 
pch = 3, cex = 2, col = "white", lwd = 2) } 


ŒR Graphics: Device 2 (ACTIVE) 


On peut même visualiser avec une animation, le fonctionnement de l'algorithme génétique: 
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onitor <- function(obj) 


- 5 


title (paste("iteration =", obj@iter), font.main = 1) 
points(obj@population, pch = 20, col = 2) 
Sys.sleep(0.2) 


GA <- ga(type = "real-valued", 

fitness = function(x) -Rastrigin(x{1], x[2]), 
lower = c(-5.12, -5.12), upper = c(S.12, 5.12), 
popSize = 50, maxiter = 100, 

monitor monitor) 


> 
+ 
+ 
+ 
+ 
+ 
+ + 
> 
> 
+ 
+ 
+ 
+ 


contour (xl, x2, f, drawlabels = FALSE, col = grey(0.5)) 


Figure 23 Graph de représentation de convergence d'algorithme génétique 
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Exemple 4.: Optimisation multidimensionnelle (avec contraintes) 
R 3.0.2 


Nous allons utiliser la commande nlmb() qui cherche un minimum local avec des 
contraintes bornées à l'infini en partant arbitrairement du point: 


(x, y) = (1.2,0.6) 


d'abord pour vérifier que nous retrouvons bien les mêmes valeurs que la commande nlm( ) : 


FR Fichier Edition Voir Misc Packages Fenêtres Aide 


> f<-function(z){ 

+ x<-2[1] 

+ y<-2[2] 

+ (x"27(4-2.1#%x"2+1/3%x"4)+xty+y"2t(-4+4ty*2)) 
ù A : 

> nlminb(c(1.2,0.6)j,f,lower=-Inf,upper=+Inf) 
$par 

[1] -0.08984199 0.71265620 


$objective 
[1] -1.031628 


fconvergence 
[1] © 


$iterations 
[1] 13 


fevaluations 
function gradient 
20 33 


fmessage 
[1] "relative convergence (4j" 


> | 


Après supposons que nous cherchons le maximum dans la Zone mise en évidence ci-dessous: 
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Le) 
= 
1 
[=] 


© 
[= 


-05 


-10 


Dans ce cas nous écrivons (à finir d'écrire.….): 


— (à terminer) 
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Exemple 5.: Optimisation (programmation) linéaire par la méthode du 
simplexe 
R 3.0.2 


Nous allons donc 1c1 utiliser R pour résoudre le problème de programmation linéaire étudié en 
cours suite à la démonstration mathématique de la méthode du simplexe. 


Rappelons que le problème était donné par le système canonique suivant: 


A1:32x, +4x, <160 
A2: 6x, + 3x, < 180 


X,X 20 
avec la fonction d'utilité à maximiser: 
Z =1'200x, +1'000x, 


Nous avons vu que cela était relativement laborieux à résoudre à la main, très simple à 
résoudre dans les tableurs Open Office Calc et Microsoft. Excel. Eh bien voyons maintenant 
cela avec RK. 


D'abord, nous installons le package linprog:  .< 
oO 


Ré RGui (64-bit) - [R 
R Fichier Edition Voir Misc Packages Fenêtres 
Aide L= | El ] x] 


et ensuite nous écrivons (pas évident à deviner): 
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FR Fichier Edition Voir Misc Packages Fenêtres Aide 


library(linprog) 

cvec<-c(1200,1000) 

bvec<-c(160,150) 

Amat<-chind(c(3,6),c(4,3)) 

solveLpPicvec,bvec,Amat maximum=TRUE,const.dir=c{"<=","<=")) 


Results of Linear Programming / Linear Optimization 


Objective function (Maximum): 47200 


Iterations in phase 1: 0 
Iterations in phase 2: 2 
Solution 

opt 
1 16 
2 28 


Basic Variables 
opt 

1 16 

2 28 


Constraints 
actual dir bvec free dual dual.reg 
160 <= 160 0 160 70 
<= 160 0 120 60 


All Variables (including slack variables) 
opt cvec min.c Mmax.c marg marg.reg 

L 16 1200 750 2000 Ni Ni 

2 28 1000 600 1600 Ni Ni 

5 O0 -Inf 160 -160 70 

5 O0 -Inf 120 -120 60 


> 


et nous retrouvons donc bien tous les résultats des calculs faits à la main et dans les tableurs 
dans le cours théoriques. 


Par défaut le package linprog n'accepte que les résultats positifs (raison pour laquelle il n'y a 
pas d'options pour définir le signe des variables). 


Avec le package gMOIP et sa fonction plotPolytope( ) nous pouvons enfin depuis 2022 faire 
des graphes 2D et pseudo-3D de programmes linéaires de type simplexe! Voyons comment 
faire le graphique (polytope) du problème ci-dessus (même si ce n'est pas parfait. c'est 
mieux que rien!): 
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 RGui (64-bit) - [R Console] 


R File Edit View Misc Packages Windows Help 


> library("gMOIP") 

> À <- matrix(c(3,4,6,3), ncol = 2, byrow = TRUE) 
> b <- c(160,180) 

> obj <- c(1200, 1000) 

> 

à 

> plotPolytope 

À, 

b, 

ob, 

type = rep{"c", ncol{A)), 

crit = "max", 

faces = rep{"c", ncol(A)), 

plotFaces = TRUE, 

plotFeasible = TRUE, 

plotOptimum = TRUE, 

labels = "coord" 

+ ) + ggplot2::xlab("x") + ggplot2::ylab("y") + 


+++ ++ + + + 


>| 


Ce qui donne: 


GR Fe History 


OEIE) 


Solution (max) with other axis labels 


= ylz! = 47200 


+ ggplot2::ggtitle("Solution (max) with other axis nu 
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Exemple 6.: Gradient et Matrice Hessienne 
R 3.42 


Nous avons vu dans le cours théorique l'importance de la Hessienne (et donc implicitement du 
gradient aussi!) dans le cadre de l'optimisation non linéaire! 
Voyons donc ici un exemple en utilisant le package pracma. 


Calculons d'abord la direction du vecteur gradient au point x = 1 et y = 2 en utilisant la 
fonction grad ) : 


R File Edit View Misc Packages Windows Help = 


l> fonction<- function(x) { 
_ y <= xf1]; z <= x[2] 

+ rez <— (y"2)*(z°3) 

- rez 
l4+ 

> 
> fdirection du vecteur gradient en x=1l et y=2 
|> grad(fonction, c(1,2)) 

[1] 16 12 

> | 


QT 
Et voyons maintenant si on peut obtenir la matrice hessienne au même point à l'aide de la 


fonction hessian( ) et comment extraire rapidement le type de matrice à laquelle nous avons 
affaire (définie semi-positive ou autre) au besoin avec le package matrixcalc: 


R RG: 
R File Edit View Misc Packages Windows Help & x 


> hessian(fonction, c(1,2)) 
[1] [,2] 

[1,] 16 24 
| [2,1] 24 12 

> library("matrixcalc”") 

> is.positive.definite(hessian(fonction, c(1i,2))) 

[1] FALSE 

> is.negative.definite(hessian(fonction, c(1,2))) 

[1] FALSE 

> is.positive.semi.definite(hessian(fonction, c(1i,2))) 
[1] FALSE 

> is.negative.semi.definite(hessian(fonction, c(1,2))) 
[1] FALSE 

> is.indefinite(hessian(fonction, c(1,2))) 

[1] TRUE 

>| 
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Méthode de Gauss-Newton (logarithme du gradient) 


On ne peut pas parler du gradient et de la matrice Hessienne en faisant abstraction de 
l'algorithme du gradient qui a une importance majeure en Machine Learning (apprentissage 
machine) et dans de nombreux domaines de l'ingénierie ou la physique appliquées. 


Nous allons reprendre ici l'exemple du cours théorique et utiliser la fonction grad.desc() du 
package animation: 


D | 


A Console [Ss|o|x] 


> library(animation) 

> ani.options (nmax = 50) 

animation option "nmax' changed: 20 --> 50 

> f<-function(x, y) x”°2*(4-2.1*x"2+1/3*x"4)+x*y+y"2*(-4+4*y"2) 
> PO NOR ERE RESSS = 0.01) 

> 


L- 


z=-x(4-2.1X + 1 13x*)+xy + y (-4+4ÿ) 


Figure 24 Graph de la convergence de le méthode de Gauss-Newton d'une fonction f(x,y) 


Ou pour reprendre l'exemple avec l'exponentielle faite aussi dans le cours théorique: 
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RG: (64-bin) - M Console] 


GR Fille Edit View Misc Packages Windows Help __ WU 
SET] EE] EE 


> library(animation) 

> ani.options(nmax = 100) 

> £ = function(x, y) (x*exp{y*1)-3.2939)"2+(xtexp(y*2) -4.2698)"2+(x*exp(y*4)-7.1749)"2+ 

+ (xtexp(y*5}-9.3008)"2+(xsexp(y*8)-20.258)*2 

> gd<- grad.desc(f,init =c(2.5, 0.25), qamma = D.00001) 

Warning messages: 

1: In arrows(xy[l:i, 1], xy{1:i, 2], newxy[l:i, 1], newxy[i:i, 2}, : 
zero-length arrow is of indeterminate angle and so skipped 

2: In arrows(xy[l:i, 1), xyl1:1i, 2], newxy(1:1, 1], newxy(l:2, 2], : 
zero-length arrow is of indeterminate angle and so skipped 

3: In arrows(xy[1:1i, 1], xy[l:i, 2], newxy{1l:i, 1}, newxy[1l:i, 2], F2 
zero-length arrow is of indeterminate angle and s0 skipped 

> gd$par 

x dé 
F\ is 0.2614825 
> 
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9. Importer/Exporter des données (Data Collection) 


Contenu 

Exemple 33.: À propos du package "here"... 357 
Exemple 34: Importér/Expôrter des * csv én local... annales 359 
Exemple 35.: Import avec gestion des encodages ss 363 
Exemple 36.: Importer interactivement des données... 366 
Exemple 37.: Importer/Exporter des *.csv en local pour les listes... 367 
Exemple 385 Importer des. *Csvdu Webi ne A en ne des tn 369 
Exemple 39: Exporter pour les forums... 370 
Exemple 40.: Fusionner des fichiers *.csv "un par Un"... 371 
Exemple 41.: Fusionner des fichiers *.csv d'un dossier... 374 
EXSMPIe ET R CELATEX SMS TR NE ne Andenne 376 

Exporter un dataframe én LaTeX; tintin tft nine niet tuer ns 376 

Exporter une analyse statistique en LaTeX... 377 

Exporter une analyse statistique dans une fenêtre graphique... 378 

Exporter l'équation d'un modèle statistique en LaTeX... 380 

Plotter‘une équation LaTeX. 5eme mienne rent vers th ttanse ee 4 382 

Importer une sortie R dans LaTeX se 382 

Compiler une sortie R LaTeX en un PDF directement depuis R 387 
Exemples 43.: Importer/Exporter au format Microsoft Excel *.xlsx (2007-2019)... 389 

En;32 DIS rente ere me es tente an tent er re a rt tnt 389 

En,64'DitS sas inimnne is tie ne mem ent mean eine ène 394 

UtHSer le:presSe-DAPIETS : 7 2r re ARR re Re a nee te A A rx de 398 
Exemple 44.: Exporter des données vers Microsoft PowerPoint 399 
Exemple 45.: Exporter des données vers Micrasoft Word... 401 
Exemple 46.: Importer/Exporter des HONNÉCSÂU Format SPSS ne 403 
Exemple 47.: Importer des données au format MATLAB 404 
Exemple 48.: Importer des données de fichiers MS Access (*.mdb/*.accdb) 405 
Exemple49; Importer des données JSON:: 2 tt etre fred 412 
Exemple 50.: Importer des données XML ou HTML du web... 415 
Exemple 51: 1mportérdes données XES (XES ne Re Ninon tas 419 
Exemplé 52: Exporter/Lire dés fichiers SAS (© dat): nan deal 421 
Exemple 53: Exporter/Lire des fichiers SAS (ExXpt).sssssssssnisnt sense 423 
Exemple 54: Importer des données deStata.(f:dta):sn inde eat 424 
Exemple 55.: Export/Importer des données parquet 425 
Exemple 56.: Importer des données de Quand]... 426 
Exemple 57.: Parser du HTML (web scraping de base)... 428 
Exemple 58.: Importer des données *.csv d'un fichier Zip... 431 
Exemple 59.: Importer des données d'un serveur MySQL... 433 
Exemple 60.: Importer des données d'un serveur Oracle Express... 442 
Exemple 61.: Importer des données d'un serveur Postgre SQL 446 
Exemple 62.: Importer des données d'un serveur Microsoft SQL Server Express... 453 
Exemple 63.: Extraire le schéma relationnel d'un BDD... 463 
Exemple 64 "UnsSerIeSQL,.ss et SR A nd end ane RS ete 465 
Exemple 65; Créer ét import.de bases SOLE en nine rs An enr nt cas 468 
Exemple 66.: Importer des données de fichiers OneDrive, de bibliothèques SharePoint. 471 
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Exemple 71.: Importer des données de Google Trends... 496 
Exemple 72.: Importer des données objets 3D (*.0bj) 497 
Exemple 73.: Importer des données d'un scanner NRM Bruker Advanced II 500Mz...... 498 
Exemple 74.: Web scraping de pages HTML avec formulaires (RSelenium) 503 


Pour ceux qui préfèrent utiliser des interfaces visuelles pour l'import de données, nous les 
renvoyons à des outils comme RStudio ou SpeedR. Mais attention il faut avoir le Java 
Runtime installé sur sa machine (ce qui est toujours le cas dans les grandes organisations de 
toute façon). 


Dans ce chapitre, nous allons nous concentrer sur des méthodes se focalisant sur l'utilisation 
de l'interface native de R comme à l'habitude. 
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Exemple 33.: À propos du package "'here"' 
R 3.6.2 


Avant de commencer, nous souhaiterions ouvrir une parenthèse sur le package here et sa 
fonction here( ) qui est utilisée par certains consultants, statisticiens et data scientists car elle 
permet de travailler plus simplement avec des dossiers en relatif (c'est-à-dire sans avoir à se 
soucier de la structure des dossiers parents du dossier de travail en cours!). 


Voyons en quoi cela consiste 


R 
R File Edit 


BIS 


> library("here") 

> ton affiche le dossier de travail en cours 

> here) 

[1] "C:/tmp" 

> favec un dossier du même niveau 

> #(il faut bien faire attention à respecter la casse!) 
> here("Alphorm") #on note qu'on a pas besoin de se soucier du chemin absolu! | 
[1] "C:/tmp/Alphorm" 

> favec un sous-sous dossier 

> here ("Alphorm","un") 

% "C:/tmp/Alphorm/un" 

> 


Misc P Windows Help 


< 


® 
Maintenant considérons la structure de dossiers suivante ainsi qu'un fichier texte: 


un Mnewitem- à Moren- Mselectall 
\ 
j eo 


4 Easy access * Select none 
Delete Rename New Properties 


folder Eg History mu Invert selection 


Organize Nev Ope Select 


+ This PC OS (C:) tmp > Alphorm un 


Quick access Name Jate mo Type 
Desktop + DB incroyabletxt ARE 
Downloads + 
É Documents 3 
FA Pictures File Edit Format View Help 
Videos Ouahhh c'est super!! 


Music 


Desktop 


Voyons comment utiliser le package here pour accéder à ce fichier: 
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R File Edit View Misc Packages Windows Help 


ÉROSOSIEIE 


> #pour accéder à un fichier dans “"/Alphorm/un/deux/" on utilisera par exemple 
> print (readLines (here ("Alphorm","un","deux","incroyable.txt"))) 


[1] "Ouahhh c'est super!!" 
>| 
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Exemple 34.: Importer/Exporter des *.csv en local 
R 3.0.2 


Ici nous allons vouloir d'abord importer au propre le fichier *.csv suivant qui contient une 
petite complication assez courante dans les entreprises: 


Fichier Edition Format Affichage È 


Une ligne de début avec du texte inutile 

et une deuxième ligne inutile. 

N° Client;Activité;N° de Commande ; Date de commande;Article;Quantité;Prix par pièc|s 
100; Assurances ; 1; 03.01.2000: : Compad Presario 100;12;:1650;1. 50%: 19503 ;Oui 

123; Machines/outi1s: 2:03.01.2000;1IBM 500;2;2299;0. 00%: 4598 ; Oui 

109; Éducation; 3;03. 01. 2000; AST Intel 150;5;2690; 0.00%; 13450: Oui 

104 ;Éducation;4;03.01.2000;AST Intel 200;3;23190;0. 00%: 9570; Oui 
117;Banques;5; 04.01.2000: : Compaq Presario 100; 13:1650;1.50%;21128.25;Oui 

103; Assurances ; 6;04.01. 2006; AST Intel 150;2; 2690; 0. 00%: 5380; oui 

104 ; Éducation; 7; 04.01. 2000; AST Intel 200; 2; 3190; Ô. 00%; 6380; Oui 

111; Alimentaire: 8;04.01. 2000; IBM 500;4; 2299: 0. 00%: 9196: Oui 

413; Construction; 9; 04.01. 2000: Compaq Presario 100;4;:1650; 0. 00%; 6600; Oui 

116; Pharmaceutique ; 10;04.01. 2000: IBM 500;2;2299;0. 0%; 4598: Oui 
110;Distribution; ii: 05.01. 2000; AST Intel 200: 6; 3190: 1. 50%: 18852. 9;oui 

J12: ‘Machines/outi1s: 12;:05.01. 2000: ; Compaq Presario 100: 6;1650;1. 50%: 9751.5;Oui 
123;Machines/QOutils;13;05.01.2000;IBM 500;6,2299;1. 50%: 13587. 09; Oui 

1113; Construction;14;05.01.2000; AST Intel 150; 3; 2690; 0.00%; 8070; Oui 
|115:Distribution:15:05.01.2000:Compaq Presario 100;8:1650: 1.50%; 13002; Oui 
124 ;Éducation;16;05.01.2000;AST Intel 200;:8;3190;1.50%;25137.2;Oui 

1124 ;Éducation:17;05.01.2000; Compaq Presario 100; i1: 1650;1. 50%: 17877. 75;O0ui 
1106; Construction: 18:05.01. 2000; AST Intel 200;11; 3190; 1; 50%; 34563. 65; oui 

1101; Construction;19;05.01.2000; Compaq Presario 100: 14; 1650;1.50%#; 22753. 5; Non 
116; Pharmaceutique; 20; 06.01. 2000: IBM 500;7;2299;1. 50%:15851. 605; Non 

112: :Machines/Outi1s: 21: 06.01. 2000: AST Intel 150:6:2690:;1.50%; 15897. 9;:Oui 


« | (Il | 


Pour ce faire voici nous allons utiliser la commande native read.csv() et ignorer les deux 
premières lignes avec le paramètre skip: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> setwd{i"C:/") 

> mydata=read.csv("csvDonnees.csv",header=T,sep=":",skip=2) 

> mydata 

N..Client Activité N..de.Commande Date.de.commande Article 
100 Assurances 03.01.2000 Compaq Presario 100 
123 Machines/Outils 03.01.2000 IBM 500 
109 Éducation 03.01.2000 AST Intel 150 
104 Éducation 03.01.2000 AST Intel 200 
117 Banques 04.01.2000 Compaq Presario 100 


‘ 


103 Assurances 04.01.2000 AST Intel 150 
104 Éducation 04.01.2000 AST Intel 200 
111 Alimentaire 04.01.2000 IBM 500 


Oo Janin EU ND 


113 Construction 04.01.2000 Compaq Presario 100 
116 Pharmaceutique 04.01.2000 IBM 500 
110 Distribution 05.01.2000 AST Intel sy 
112 Machines/Outils 05.01.2000 Compaq Presario 100 
123 Machines/Outils 05.01.2000 IBM 500 
113 Construction 05.01.2000 AST Intel 150 
115 Distribution 05.01.2000 Compaq Presario 100 
124 Éducation 05.01.2000 AST Intel 200 
124 Éducation 05.01.2000 Compaq Presario 100 
106 Construction ÛS.01.2000 AST Intel 200 
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Ou plus explicitement: 


ne RGui (64-bit) - [F 


KR Fichier Edition Voir Misc Packages Fenêtres 


> mydata<-read.csv(file="C:/csvhonnees.csv",header=TRUE,sep=";",skip=2) 
> | 


Û 


R Fichier Edition Voir -Misc Packages Fenêtres Aide 


> mydata<-read.csv(file="C:/csvhonnees.csv",header=TRUE,sep=":", 
+ skip=2,blank.lines.skip=TRUE) 
> | 


Nous pouvons afficher les 6 premières lignes du data frame avec la commande head(}) (ou 
les 6 dernières avec la commande tail( ) ): 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> mydata<-read.csv{("C:/csvDonnees.csv",header=T,sep=";",skip=2) 
> head(mydata) 
N..Client ictivité N..de.Commande Date.de.commande ärticle Quantité Prix.par.pièce Rabais. 
100 issurances 03.01.2000 10:19 Compaq Presario 100 12 1650 . 50% 
123 Machines/Outils 03.01.2000 07:08 IBM 500 2 2299 . 00% 
109 Éducation 03.01.2000 14:35 AST Intel 150 5 2690 . 00$ 
104 Éducation 03.01.2000 04:14 AST Intel 200 3 3190 . 00% 
117 Banques 04.01.2000 16:25 Compaq Presario 100 13 1650 . 50% 
103 Assurances 04.01.2000 11:01 AST Intel 150 2 2690 . 00% 
Prix.total.avec.rabais Facture.payée 
19503 .00 Oui 
4598.00 Oui 
13450.00 Oui 
9570.00 Oui 
21128.85 Oui 
5380.00 Oui 
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Nous pouvons importer aussi tout un dossier comme cela est montré via un exemple à la page 
2313. 


Une fois des opérations/calculs/manipulations effectuées sur le data frame nous pouvons 
l'exporter à nouveau en *.csv avec la commande write.table( ) : 


| RGui (64-bit) [TR 


R Fichier Edition Voir Misc FE Fenêtres Aide 


> write.table (mydata,"c:/tmp/ExportCSV.csv",sep=";:") 
> | 


Nous pouvons aussi associer un commentaire à un data frame pour y mettre une petite 
remarque: 


RE Fichier Edition Voir Misc Packages Fenétres Aide 


> comment (mydataj<-"Ceci est un exemple pour les formations en entreprise" 


> attributes ((mydata) $comment 
[1] "Ceci est un exemple pour les formations en entreprise" 
> 


Nous pouvons aussi importer des fichiers textes avec le package readr qui contient 
relativement plus d'options et qui en plus génère des objets de type tibble en sortie. Voyons 
cela: 
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R Ru (64-bit - R Console] 


R Fe Ecit View Mic Packagzs Windows “sl 


> library("readr"| 
> traad_ csy2 lit les fichisre avec des ":" 
> +traad csy lit les fichiers avec des "," 
> optiens(=ihtle.print min = 15 
> (mydata<-rean_csv? (ti le="C:/tmp/eswMonnese csv", col _names=TRIF, ekip=2,sk3p empty _rowe=TRIF, 
+ ,liscale (encccing = "Ch1254"),pragreses = ekow_ procress())) 
Using ‘",!' as decimal and "._'" as grouping mark. Jse read delim() for more contrcl. 
Parsed with cclumn specification: 
cols( 
‘N° Clicent' — col double(), 
Activité — col charscter(), 
‘N° de Commande‘ = col _ double(), 
‘Date de commande = col character|i), 
Article = ccl character(), 
Quantité = col doukle!i, 
‘Prix par pièce — cul duuble(}, 
‘Rabais$' — Cul character (), 
‘Prix Lu_al avec rabais" — cul nurber(), 
‘Facture payée = col character() 
) 
# A tiktble: 109 x 10 


n n 


NT Client Acziviré “N° de Commande: ‘liäte de commans Article Quantité ‘brix par pièce: 
<dn1> <chr> <dbi> <chr}> <chr> <dr1> <dbl> 

i 100 Assuirar- 1 03.01.2000 10:19 Compag- 12 1650 
2 123 Machine- 2 03.01.2000 07:08 1BM 500 2 2299 
3 109 Éducati- 3 03.01.2000 14:35 AST In- 5 2690 
4 104 Éducati- 4 03.01.2000 04:14 AST In- 3 3190 
5 117 Banques 5 04.01.2000 16:25 Compag- 13 1650 
6 103 Zssarar- 5 04.01.2000 11:01 AST In- 2 2690 
7 104 Éducati- 7 04.01.2000 21:30 AST In- 2 3190 
8 111 Aliment- 8 04.01.2000 02:20 1DM 500 # 2299 
3 113 Constru- 3 04.01.2000 23:06 Compag- 8 1650 
10 11€ Pharmac- 10 04.01.2000 16:14 1BM 500 2 2299 
11 110 Distrib- 11 05.01.2000 14:21 AST In- (a 2190 
12 112 Mac'iirie- 12 05.01.2000 05:29 Cumpagr 6 1650 
13 123 Maciiinie- 13 05.01.2000 16:22 1BM 500 6 2299 
14 113 Constru- 14 05.01.2000 16:09 AST In- 3 2690 
15 115 Distrib- 15 05.01.2000 01:47 Compaq 8 1650 


# ... with 34 more rcws, and 3 more variables: Kabais$ë <chr>, ‘Prix tctal avec 
+ rakais  <dbl>, Facture payée <chr> 

> ciassimydata) 

11) “sper_thi_dt" “thi dt" til “data. trame" 

> +on convertit le tibble sn data frame 

> + 
> 
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Exemple 35.: Import avec gestion des encodages 
R 3.5 


L'encodage avec les dates est un des cauchemars des informaticiens (et donc du Data 
Scientist). Pour l'illustrer, considérons les trois fichiers suivants qui ont l'air a priori identiques 
mais comme leur nom l'indique... sont en réalité encodés différemment: 


= 


File Edit Format View Help 
Département ;No;Habitants 
Ain:01;631877 
Ardèche;07;324209 
Bouches-du-Rhône ;13;2016622 
Corse-du-Sud;2A;152730 
Côte-d'Or;21;533147 
Côtes-d'Armor;22;598357 


a 
File Edit Format View Help 
Département ;No;Habitants 
Ain;01;631877 
Ardèche;07;324209 
Bouches-du-Rhône ;13;2016622 
Corse-du-Sud;2A;152730 
Côte-d'Or;21;533147 
Côtes-d'Armor;22;598357 


3 

File Edit Format View Help 
Département ;No;Habitants 
Ain;01;631877 
Ardèche;07;324209 
Bouches-du-Rhône ;13;2016622 
Corse-du-Sud;2A;152730 
côte-d'Or;21;533147 
Côtes-d'Armor;22;598357 


Déjà. vérifions leur taille mémoire afin de vérifier indirectement que leur encodage est 
différent et ce à l'aide de la fonction file.size( ) : 
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GR RGui (64-bit) - [R Console] — 


OR File Edit View Misc Packages Windows Help EF X 


> file.size("c:/tmp/BaseUTF8.txt") 
[1] 165 

> file.size("c:/tmp/BaseANSI.txt") 
[1] 157 

> file.size("c:/tmp/BaseUNICODE.txt"}) 
[1] 316 

> | 


Donc oui... effectivement cela n'annonce rien de bon! Allons un peu plus loin en détectant 
l'encodage à l'aide de la fonction guess_encoding( ) du package readr: 


R RGui (64-bit) - [R Console] 


R File Edit View Misc Packages Windows Help 


> library(readr) 
> guess encoding("c:/tmp/BaseUTFB.txt") 
# À tibble: 3 x 2 

encoding confidence 


<chr> <db1l> 
|1 UTF-8 1.00 
2 ISO-8859-1 0.620 
[3 ISO-8859-2 0.430 
> guess encoding("c:/tmp/BaseANSI.txt") 
|# À tibble: 2 x 2 
encoding confidence 
<chr> <db1l> 
1 1ISO-8859-1 0.620 
2 ISO-8859-2 0.390 


|> guess encoding("c:/tmp/BaseUNICODE.txt") 
# A tibble: 3 x 2 
encoding confidence 


<chr> <db1l> 
|1 UTF-16LE 1.00 
2 ISO-8859-1 0.530 
3 lasse 0.270 
> 


Ayant ces informations, allons-y pour l'import en utilisant certains paramètres proposés par 
read.csv( ): 
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E 


U KGu (2-0 - [F Lonsole L . 


fa Edit View Misc Packzges Windows Help = x 


> mydata<-read.csy("c:/:mp/BaseUTr8.txt",encoding="UTr-6",header=T,sep=";") 
#seul pseudo-problème... il faut renommer les colonnes 
mydata 
X.U.FEFF.Département No Habitants 
Ain 01 631877 
Ardèche 07 324209 
Bouches-du-Rhône 13 2016622 
Corse-du-Sud 2A 152730 
Cête-d'Or 21 533147 
Côtes-d'Armor 22 598357 


VV V 


mydata<-read.csv("c:/tmp/BaseANST.txt",encoding="150-8859-1",header-T, sep=";") 


mydata 
Département No Habitants 


VV V UE WW N 


1 Ain 01 631877 
2 Ardèche 07 324209 
3 Bouches-du-Rhône 13 2016622 
El Corse-du-Sud 2A 152730 
5 Côte-d'Or 21 533147 
6 Côtes-d'Armor 22 598357 
> 
> fTrès subtil la différence entre encoding ou fileEncoding... 
> mydata<-read.csv("c:/:mp/BaseUNICODE.:xt",fileEncoding="UTr-16LE",header=T, sep=";") 
> mydata 
Département No Habitanzs 
1 Ain 01 631677 
2 Ardèche 07 324209 
3 Bouches-du-Rhône 13 2016622 
4 Corse-du-Sud 2A 152730 
5 Côte-d'Or 21 533147 
6 | Côtes-d'Armor 22 598357 
> 
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Exemple 36.: Importer interactivement des données 
R 3.1.2 


Le but ici est simplement de découvrir la fonction file.choose( ) qui injectée dans read.csv( ) 
dans des plus gros scripts (que ce soit en pur R ou en C# avec R.Net) permet à l'utilisateur de 
choisir son fichier avec une boîte de dialogue: 


: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> mydata<-read.csv(file.choosei) ,header=T,sep=':!) 


ter =) 


HN > Crime » 0510 » mp 20 EE] 


Organiser + Nouveau dossier d=.v... [Cl (?] 


TX Favoris 7 Nom Modifié le 
BR Bureau L_} DOESurface.csv 03.10.20 14 00:23 
" ScientificEvolution (3) sequence.fasta 17.08.20 14 14:35 
à Sciences.Ch 
à Cours 
E Vidéos 
& Téléchargements 
£3 Dropbox 
æ SkyDrive 


M Bureau 
© 3 Pibliathéaues 


|| ] 


Nom du fichier : | + [Allfiles (1) 
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Exemple 37.: Importer/Exporter des *.csv en local pour les 


listes 
R 3.0.2 


Quand nous commencerons à faire des scripts R complexes pour les domaines des SIG 
(systèmes d'information géographiques) ou la finance quantitative, nous nous retrouverons 
avec des listes importées d'Internet. 


Il est parfois plus prudent de les sauvegarder en local car parfois les serveurs les fournissant 
sont en maintenant ou disparaissent tout simplement. 


Voyons un exemple d'export en *.csv d'une liste fournie par Yahoo Finance avec le package 
quantmod et la commande d'export général à R pour les listes qui est dput ) : 


KR Fichier Edition Voir Misc Packages Fenêtres Aide 


#Nous chargeons un package de finance 

library (quantmod) 

setwdi"C:/tmp") 

#Nous lisons les prix du marché des options Google 
mydata<-getOptionChain("Goog", NULL) 

#Nous exportons une sauvegarde de sécurité 

dput (mydata, file = "GoogleOptionsQuotesFromŸahooFinance.csv") 


VYMNNNNVVY 


"TGoogieOpton 
Fichier Edition Format Affichage 2 


structure(list( févr. 2014 = structure(list(calls = structure(list( 
Strike = cs45, a 550, 550, 555, 570, 580, 585, 590, 595, 


990, 990, 995, 995, 995, 1000, 
1010, 1010, , 1015, 1020, 
1030, 1035, 1035, 1040, 1040, 
1055, 1055, 1060, 1060, 1060, 
1070, 1070, 1075, 1075, 1080, 
1090, 1090, 1090, 1090, 1095, 
1102.5, 1105, 1105, 1105, 1105, 
1115, 1115, 1115, 1120, 1120, 
, 1125, 1125, 1130, 1130, 1130, 
1137.5, 1140, 1140, 1140, 1140, 
5; 1145, 1145, 1147.5, 1147.5, 1147.35, 
1150, 1150, 1150; 1150; 11525, 1155, 1155, 1155, 1155; 115725, 
1157.5, 1157.5, 1157.5, 1160, 1160, 1160, 1160, 1162.5, 1162.5, 
1165, 1165, 1165, 1165, 1167.5, 1167.5, 1170, 1170, 1170, 
1170, 1172.5, 1172.5, 1175, 1175, 1175, 1175, 1177.5, 1177.5, 
1180, 1180, 1180, 1180, 1182.5, 1182.5, 
1187.5, 1190, 1190, 1190, 1190, 1192.5, 


mi 
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Ensuite, pour importer 1l suffit d'utiliser la commande dget( ) : 


> setwd("C:/tmp") 
> mydata<-dget (file = "GoogleOptionsQuotesFromYahooFinance.csv") 
> str imydata) 
List of 8 
$ févr. 2014:List of 3 
..$ calls :'data.frame!': 354 obs. of 7 variables: 
..$ Strike: num [1:354] 545 545 550 550 555 570 580 585 590 595 ... 
Last : num [1:354] 524 522 539 517 512 
Chg : num [1:354] 0000000000 
Bid num [1:354] 657 657 652 652 647 
sk num [1:354] 661 661 656 656 651 ... 
vol num [123541 3 16 1 18 18: L À LL 3: 
OI nu [155541 3 19 4 18 18:22 1 2 2 5 …. 
:'data.frame!: 332 obs. of 7 variables: 
Strike: num [1:332] 600 610 625 635 640 650 675 700 710 725 ... 
Last. : num [1:332] 0.05 0.19 0:2 0.2 0.2 0.05 0.35 0.1 0:2 0.2 .., 
Chg aum [1:3321 0:0 0:0 0 0 0 00 0: .…. 
Bid : num [1:332] NA NA NA NA NA NA NA NA NA NA ... 
Ask num [5939321 0:45 0:3/0:300# 074 6 0S'0:05 0205:-6:69 0:08 
Vol nu (189321: 2 À 1:2 2.2 2 5S°7 À my 
; at OE num: [439921 2% 1:21: 22% 102 Z 206 7 6 sc 
.$ symbol: chr "Goog" 
$ mars 2014 :List of 3 
..$ calls :'data.frame': 431 obs. of 7 variables: 
.. .-.$ Strike: num [1:431] 31 49 49 51 53 55 55 435 440 
ot Last. +: ui [114911 629 2:91: 1:02: 4:93 : 9:62: 3 
..$ Chg num [1:431] 6.689 1.78 -5.168 1.78 9.61 ... 


$ 
-$ 
$ 
$ 
-$ 
$ 
u 
$ 
$ 
..$ 
.$ 
$ 
$ 
$ 
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Exemple 38.: Importer des *.csv du web 
R 3.0.2 


Un cas très important dans le domaine financier est de pouvoir aller chercher des données en 
temps réel sur des sociétés fournisse ce type de service. La technique n'est pas bien différente 
d'avec la technique locale: 


RC 
R Fichier Edition Voir Misc Packages Fenêtres Aide 

OISEBIEIE 

| 


> mydata<-read.csv{("http://uwuww.sciences.ch/tmp/csvDonnees.csv", header=T, sep=";",skip=2) 


> mydata 

N..Client Activité N..de.Commande Date.de.commande irticle Quantité 
1 100 Assurances L 03.01.2000 Compaq Presario 100 12 
2 123 Machines/Outils È 03.01.2000 IBM 500 ë 
3 109 Éducation 3 03.01.2000 AST Intel 150 5 
4 104 Éducation 4 03.01.2000 AST Intel 200 3 
5 117 Banques 5 04.01.2000 Compaq Presario 100 13 
6 103 Assurances 6 04.01.2000 AST Intel 150 2 
di 104 Éducation 7 04.01.2000 AST Intel 200 2 
8 111 Alimentaire 8 04.01.2000 IBM 500 4 
9 113 Construction 9 04.01.2000 Compaq Presario 100 4 
10 116 Pharmaceutique 10 04.01.2000 IEM 500 2 
LL 110 Distribution Li 05.01.2000 AST Intel 200 6 
12 112 Machines/Outils 12 05.01.2000 Compaq Presario 100 6 
13 123 Machines/Outils 13 05.01.2000 IBM 500 6 
14 113 Construction 14 05.01.2000 AST Intel 150 3 
15 115 Distribution 15 05.01.2000 Compaq Presario 100 E] 
16 124 Éducation 16 05.01.2000 AST Intel 200 5 
17 124 Éducation 17 05.01.2000 Compaq Presario 100 11 
18 106 Construction 15 05.01.2000 AST Intel 200 11 
19 ini Cnnatrunmtinn 19 15.01.2000 Cnmnarns Presarin 1nf 14 
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Sciences.ch 


Exemple 39.: Exporter pour les forums 
R 3.0.2 


Souvent les étudiants demandent comment ils peuvent rapidement copier/coller un jeu 
reproductible de leurs données de travail sur un forum pour bien montrer où se situe leur 


problème avec le jeu de données réelles. 


Considérons alors l'import de données suivant: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


[aie] [els] 


> setwd{i"C:/") 

> mydata<-read.csv("VariationsTitres.csv",header=T,sep=";") 

> mydata 

Crédit.Lyonnais France.Télécom Lafarge Saint.Gobain Total.Fina.Elf 
—-0.017516 -0.328775 0.023053 0.003086 0.000615 
—-0.198426 -0.020374 -0.104156 -0.106509 -0.093423 
0.122761 0.197863 0.103410 0.023046 0.057627 


-0.034986 0.063419 0.038501 0.054376 -0.086536 
-0.000267 -018141 0.023415 0.040521 .-.125614 
-002667 -172160 -0.060057 -0.023602 -015586 
-021390 -180791 0.009128 0.054602 .-042971 
.142932 -153366 0.030151 0.042345 .-041789 
-072148 -232346 0.027317 0.015608 .-049716 
.-034822 -229599 0.037037 0.000000 -007729 
-039398 -545980 -0.075092 -0.043158 .-014979 
-082719 -5568855 -0.110891 -0.329373 -.102798 


© -J on On © DH 


Pour communiquer rapidement ce petit jeu de données sur un forum, vous pouvez alors 


utiliser la commande dput( ) : 


RRGu (64 bi) [RC 
R Fichier Edition Voir Misc Packages Fenêtres Aide 


> dput (mydata) 

structure(list (Crédit.Lyonnais = c(-0.017516, -0.198426, 0.122761, 
-0.034988, -0.000267, -0.002667, 0.022139, 0.142932, 0.072148, 

-0.034822, -0.039398, -0.082719), France.Télécom = c(-0.328775, 

-0.020374, 0.197863, 0.063419, 0.018141, -0.17216, -0.180791, 

0.153366, -0.232346, -0.229599, -0.54598, 0.558855), Lafarge = c(0.023053, 
0.104156, 0.10341, 0.038501, 0.023415, -0.060057, 0.009128, 


-0.106509, 0.023046, 0.054376, 0.040521, -0.023602, 0.084602, 
0.042345, 0.015608, 0, -0.043158, -0.329373), Total.Fina.Elf = c(0.000615, 
-0.093423, 0.057627, -0.086538, 0.125614, 0.015586, 0.042971, 


"France.Télécom", "Lafarge", "Saint.Gobain", "Total.Fina.Elf" 
)\, class = "data.frame", row.names = c(NA, -12L)) 
> | 


et ensuite il n'y a qu'à copier/coller sur le forum de votre choix! 


0.030151, 0.027317, 0.037037, -0.075092, -0.110891)j, Saint.Gobain = c(0.003086, 


0.041789, -0.049718, -0.007729, -0.014979, -0.102798)), .Names = c{"Crédit.Lyonnais”, 
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Exemple 40.: Fusionner des fichiers *.csv “un par un" 
R 3.0.2 


Le but ici va être de voir une manipulation fréquente dans les laboratoires qui consiste à 
fusionner des fichiers découlant typiquement de LabView à l'aide de la commande rbind( ) . 


Considérons au moins deux fichiers *.csv: 


| Ventes Ol.csv - Bloc-notes 


Fichier Edition Format Affichage 2 


NClient;Activite; NDeCommande ; DateDeCommande ; Article;Quantite;PrixParPiece;Ral « 
100; Assurances ; 1:03.01.2000 10: 19; Compaq Presario 100; 12; 1650; 1.50%;19503;Ou 1 
123; ‘Machines/outi1s: 2;03.01.2000 Ô7: O8;1IBM 500;2;2299;:0. 00%; 4598; oui 

109; Éducation; 3;03. 01.2000 14: 35; AST Intel 150;5;2690;0.00%; 13450; Oui 

104 ;Éducation;4;03.01.2000 O4:14;:AST Intel 200;3; 3190; 0.00%; 9570; Ou 
117;Banques;5; 04.01.2000 16:25; : Compaq Presario 100; 13:1650; 1. 50%;,21128.25;Ou 
103; Assurances ; 6;:04.01.2000 11:01; AST Intel 150;2; 2690: 0. 00%: 5380; oui 

104; Éducation; 7; 04.01.2000 21: 30; AST Intel 200; 2; 3190; Ô. 00%; 6380: Oui 

111; ‘Alimentaire: 8;,04.01.2000 O2: 20; IBM 500;4; 2299: (ei 00%: 9196 : ou 

113; Construction; 9; 04.01.2000 23: 06: Compaq Presario 100;4;:1650; 0. 00%; 6600 ; Ou” 
116; Pharmaceutique: 10;04.01.2000 16:14;IBM 500;2;2299;:0. 00%; 4598 : Oui 
110;Distribution; 11; 05.01.2000 14: 21: AST Intel 200; 6; 3190: 1.50%; 18852. 9;Oui 
|112:Machines/outils:12:05.01.2000 03:29; Compaq Presario 100:6;:1650;1.50%; 975: 
1123;Machines/Outils;13;05.01.2000 16:22;1IBM 500;6,2299;1. 50%: 13587. 09; Ou 
113;Construction;14;05.01.2000 16:09; AST Intel 150; 3; 2690; O. 00%; 8070; Oui 
115;Distribution;15;:05.01.2000 01:47;Compaq Presario 100; 8; 1650;1. 50%: 13002; 
124; Éducation;16;:05.01.2000 21:13; AST Intel 200;8;3190;1. SÛ%: 25137. 2: Oui 

124; Éducation;17;05.01.2000 01:48; Compaq Presario 100; 11: 1650; 1.50%; 17877.75 + 


« | pi 


fc 


__| Ventes 02.csv - Bloc-notes 


Fichier Edition Format Affichage 2? 


NClient;Activite; NDeCommande ; DateDeCommande;Article;Quantite;PrixParPiece;Ral « 
113;Construction:43:12.01.2000 09:33:IBM 500:6;2299:1.50%;13587.09:Oui 
127:Alimentaire:44:12.01.2000 20:11;AST Intel 200:2:3190:0.00%:6280;oui 

100; Assurances; 45; 12.01.2000 17: O5; AST Intel 200; 4: 3190; Ô. 00%; 12760: Oui 

109; Éducation; 46; 13.01.2000 11: 12; AST Intel 150; 1; 2690; Ô. O0; 2690; Non 

1113; Construction: 47;13.01.2000 02:28;IBM 500;11; 2299; 1.50%; 24909. 665; Qui 
114;Distribution;48;:13.01.2000 03:13;Compaq Presario 100;:8;:1650;1. 50%: 13002; 
122;Distribution;49;13.01.2000 14:28; AST Intel 200;7; 3190: 1. 50%: 21995. 05 ;Oui 
100; Assurances; 50; 13.01.2000 11: 02; AST Intel 150; 13; 2690: 1: 50%; 34445 .45; Oui 
119; Distribution: 51; 14.01.2000 O8: 33; IBM 500;2; 2299: 0. 00%;4598: Oui 

1102; ‘Machines/outi1s: 52;14.01.2000 02:22; : Compaq Presario 100;5; 1650: 0.00%; 8251 
|112:Machines/outils:53:17.01.2000 23:03:AST Intel 200:3:3190:0.00%:9570;:Oui 
1117; Banques; 54;17. 01.2000 12:43:IBM 500:5:2299:0.00%: 11495 :Oui 
|103:Assurances:55:18.01.2000 02:13:IEM 500:7:2299:1.50%:15851.605;Oui 
|109:Éducation:56:18.01.2000 16:51:AST Intel 150:21;2690: 3.00%: 54795. 3;oui 
110:Distribution:57:18.01.2000 18:56:AST Intel 200: Fi 3190: 1.50%; 21995 05 ;oui 
127;Alimentaire; 58; 18.01.2000 20: 20; Compaq Presario 100; #:1650; 1, 50%; 11276.7' 
105;Banques;59; 18.01.2000 O4: O5; IBM 500;,9;2299;1.50%; 20380. 635;Oui + 


« | ml | È 


Nous allons les fusionner dans R tout en sachant qu'au delà de plusieurs centaines de millions 
de lignes R n'arrive plus à gérer la fusion de fichier *.csv (je montrerai une technique pour 
cela après). 
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R Fichier Edition Voir Misc Packages Fenêtres Aide 


ETC) 


setwd({"C:/") 


> 
> datafilel <- read.csv("Ventes O1l.csv", header=T, sep=";") 
> datafile2 <- read.csv("Ventes 02.csv", header=T, sep=";") 
> dimidatafileli) 

[1] 43 10 

> dim(idatafile2) 


[1] 67 10 

> # petit check de cohérence des colonnes étant terminé (les deux à 10) faisons la eus À 

> datafile <- rbind(datafilel,datafile2) 

> dimidatafile) 

[1] 110 10 

> #la fusion semble bien 

> datafile 

NClient ictivite NDeCommande DateDeCommande Article Quantite PrixParPiece 
100 Assurances -01.2000 :19 Compaq Presario 100 12 1650 
123 Machines/Outils -01.2000 :08 IBM 500 2299 
109 Éducation -01.2000 : AST Intel 150 2690 
104 Éducation -01.2000 : AST Intel 200 3190 
11" Banques -01.2000 L Compaq Presario 100 1650 
103 issurances -01.2000 : AST Intel 150 2690 
104 Éducation -01.2000 : AST Intel 200 3190 
111 Alimentaire -01.2000 : IBM 500 2299 
113 Construction -01.2000 : Compaq Presario 100 1650 
116 Fharmaceutique -01.2000 : IEM 500 2299 
110 Distribution -01.2000 : AST Intel 200 3190 


SOJannmeEw NH 
LOJnnEeu RH 


H H 
khH © 
H H 
kh © 
29 19 19 19 LD LD LD LD LD LD LD LD 


Le 


U 


et ensuite nous pouvons exporter le tout: 


FR Fichier Edition Voir Misc Packages Fenêtres Aide 


> write.csv(idatafile,"C:/tmp/MergeData.csv")| 


Vous pourrez alors vérifier dans ce fichier d'export que bien que nous ayons fusionné le 
deuxième fichier aussi avec la ligne de titre, celle-ci a été éliminée a priori par R dès la fusion 
dans R avec la commande rbind( ). 
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Pour fusionner plusieurs fichiers d'un dossier sans avoir à spécifier leur nom, une possibilité 
est: 


F2 RGui {64-bit) - [R Console 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


ÉBROISES|OIE 


> mydata<-do.call('rbind',lapply(list.files(path="C:/tmp/",pattern =".csv"),FUN=read.csv,sep=";")) 
> | 


S1 les fichiers sont trop gros (centaines de millions de lignes chacun) il vaut mieux si vous 
travaillez sur le système d'exploitation Microsoft Windows utiliser le shell MS DOS avec la 
commande suivante qui est extrêmement efficace (je l'ai testée jusqu'à obtenir un fichier final 
de 11GB en moins de 3 minutes): 


Ex C'\Windows\system32\cmd.exe un 


C:Ntmp>copy *.csu MergeData.csu 
Uentes_Bi.csu 
Ventes_B2.csu 

1 fichiers) copié(s). 


C:Ntmp>.… 


Mais attention au petit piège!!! II faudra au préalable enlever la ligne de titre à tous les 
fichiers excepté le premier (sinon quoi la ligne de titre va se répéter plusieurs fois dans le 
fichier final). 
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Exemple 41.: Fusionner des fichiers *.csv d'un dossier 
R 3.4.5 


Dans de nombreuses situations il est utile de savoir fusionner tous les fichiers se trouvant dans 
un dossier. Considérons donc un dossier contenant à nouveau nos deux fichiers: 


| Ventes Ol.csv - Bloc-note 
Fichier Edition Format Affichage 2 


NClient;Activite; NDeCommande ; DateDeCommande ; Article;Quantite;PrixParPiece;Ral + 
100; Assurances ; 1:03.01.2000 10: 19; Compaq Presario 100; 12; 1650; 1.50%;19503;Ou 7 
123; ‘Machines/outi1s: 2;03.01.2000 Ô7: O8;IBM 500;2;2299;:0. 00%; 4598; oui 

109; Éducation; 3;03. 01.2000 14: 35; AST Intel 150;5;2690;0.00%; 13450; Oui 

104 ;Éducation;4;03.01.2000 04:14; AST Intel 200;3; 3190; 0.00%; 9570; Oui 
117;Banques;5; 04.01.2000 16:25; : Compaq Presario 100; 13;:1650; 1. 50%;,21128.25;Ou- 
103; Assurances ; 6;:04.01.2000 11:01; AST Intel 150;2; 2690: 0. OÙ: 5380; Oui 

104; Éducation; 7; 04.01.2000 21: 30; AST Intel 200; 2; 3190; Ô. 00%; 6380: Oui 

111; ‘Alimentaire: 8;,04.01.2000 O2: 20; IBM 500;4; 2299: 0. 00%: 9196 : ou 

113; Construction; 9; 04.01.2000 23: 06: Compaq Presario 100;4;:1650; 0. 00%; 6600 ; Ou” 
116; Pharmaceutique: 10;04.01.2000 16:14;IBM 500;2;2299;:0. 00%; 4598 : Oui 
110;Distribution; 11; 05.01.2000 14: 21; AST Intel 200; 6; 3190; 1.50%; 18852. 9;Oui 
112:Machines/outils:12:05.01.2000 03:29; Compaq Presario 100:6;:1650;1.50%; 975: 
123;Machines/Outils;13;05.01.2000 16:22; IBM 500,6;2299;1. 50%: 13587. 09; Ou 
113;Construction;14;05.01.2000 16:09; AST Intel 150; 3 2690; 0. 00%; 8070; Oui 
115;Distribution;15;:05.01.2000 01:47;Compaq Presario 100; 8; 1650;1. 50%: 13002; 
124; Éducation;16;:05.01.2000 21:13; AST Intel 200;8;3190;1. SÛ%: 25137. 2: Oui 

124; Éducation;17;05.01.2000 01:48; Compaq Presario 100; 11: 1650; 1.50%; 17877.75 


« | 


fc 


Fichier Edition Format Affichage 2 

NClient;Activite; NDeCommande ; DateDeCommande;Article;Quantite;PrixParPiece;Ral « 
113;Construction;43;12.01. 2000 09: 33; IBM 500: 6,2299;1.50%; 13587. 09; oui 
127;Alimentaire; 44; 12.01.2000 20:11;AST Intel 200:2:3190:0.00%:6280;oui 

100; Assurances; 45; 12.01.2000 17: 05; AST Intel 200; 4; 3190; Ô. 00%; 12760: oui 

109; Éducation; 46; 13.01.2000 11: 12; AST Intel 150; 1: 2690: 0. O0; 2690: Non 

113; Construction: 47;:13.01.2000 02:28;IBM 500;11; 2299: 1.50%; 24909. 665; oui 
114;Distribution;48;:13.01.2000 03:13;Compaq Presario 100;:8;:1650;1. 50%: 13002; 
122;Distribution;49;13.01.2000 14:28; AST Intel 200;7; 3190: 1: 50%: 21995. 05 ;Oui 
100; Assurances; 50; 13.01.2000 11: 02; AST Intel 150; 13; 2690: 1. 50%; 34445 .45; Oui 
119; Distribution: 51; 14.01.2000 O8: 33; IBM 500;2; 2299: 0. 00%;4598: Oui 

102; ‘Machines/outi1s: 52;14.01.2000 02:22; : Compaq Presario 1005: 1650: 0.00%; 8251 
112;Machines/Outils;53;17.01.2000 23:03;AST Intel 200;3; 3190; Ô. 00%; 9570; Oui 
117;Banques;54;17. 01.2000 12: 43;1IBM 500;5;,2299; 0.00%; 11495; Oui 

103; Assurances;55;18.01.2000 03:13;IBM 500: 7; 2299: 1: 50%: 15851. 605 ;Oui 

109; Éducation; 56; 18.01.2000 16: SL: AST Intel 150; 21: 2690; 3.00%; 54795. 3;Oui 
110; Distribution: 57;18.01.2000 18:56; AST Intel 200: 7; 3190: À. 50%: 21995.05;Oui 
127;Alimentaire; 58; 18.01.2000 20: 20; Compaq Presario 100; #:1650; 1. 50%; 11276.7' 
105;Banques;59; 18.01.2000 04: O5;IBM 500;9;2299;1.50%; 20380. 635;oui r 


« | mt ] 0 | 


Pour fusionner cela, nous écrirons à l'aide de file.list( ) : 
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MR REui (61-bit) - [R Console] : | 


R Fils Ed View Misc Packages Windows Help 5 à 


ÉROISCBIUE 


> library("data.table") 

> files<-list.files("C:/tmp/Ventes/",pattern="*.csv",full.name = TRUE) 
> files 

[1] "C:/tmp/Ventes/Ventes 01.csv" "C:/tmp/Ventes/Ventes 02.csv" 

> merge<-do.call(rbind, lapply(files,read.csv)) 

> nrow(merge) 

11 109 

> | 
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Exemple 42.: R et LaTeX 
R 3.12 


Exporter un dataframe en LaTeX 


Tous ceux qui travaillent avec TeX/LaTeX savent comme il est pénible de transformer une 
table de données en table LaTeX. Pour ceux qui travaillent avec R il existe le package xtable 
qui permet d'automatiser l'écriture du code à l'aide de la fonction xtable( ) : 


LR Roi 62-55 - RC RE, (= 1 # 


R File Edit View Misc Packages Windows Help 


Bee) 


library(xtable) 
mydata<-read.csv("C:/tmp/RtoLaTeX.csv",header=T,sep=";") 
print (xtable (mydatal,-1], display = c("£", "EN, "EN, ,NEM,"£"), digits 
format.args = list (big.mark = "'", decimal.mark = ".")) 
latex table generated in R 3.2.1 by xtable 1.7-4 package 
Thu Jul 09 20:23:08 2015 
\begin{table}[hnt] 
\centering 
\begin{tabular}{rrrrr} 
\nline 
& Couts & CoutA & CoutB & CoutC \\ 
\hline 
44'439.00 & 515.00 & 541.00 & 928.00 \\ 
& 43'936.00 929.00 & 692.00 & 711.00 \\ 
44'464.00 800.00 & 710.00 & 824.00 \\ 
41'533.00 979.00 & 675.00 & 758.00 \\ 
46'343.00 1165.00 & 1147.00 & 635.00 \\ 
44'922.00 651.00 & 939.00 & 901.00 \\ 
43'203.00 847.00 & 755.00 & 580.00 \\ 
43'000.00 942.00 & 908.00 & 589.00 \\ 
40'967.00 630.00 & 738.00 & 682.00 \\ 
48'582.00 1113.00 & 1'175.00 & 1'050.00 \\ 
45'003.00 1'086.00 & 1075.00 & 984.00 \\ 
44'303.00 843.00 & 640.00 & 828.00 \\ 
42'070.00 500.00 & 752.00 & 708.00 \\ 
44'353.00 813.00 & 989.00 & 804.00 \\ 
45'968.00 1190.00 & 823.00 & 904.00 \\ 
47'781.00 1200.00 & 1'108.00 & 1'120.00 \\ 
43'202.00 731.00 & 590.00 & 1'065.00 \\ 
18 44'074.00 1089.00 & 607.00 & 1132.00 \\ 
19 & 44'610.00 786.00 & 513.00 & 839.00 \\ 
\hline 
\end{tabular} 
\end{table} 
> | 


1 


& 
2 
3 
4 
5 
6 
7 
8 
9 


Fr Rr Rr Rio Er er Rr er 
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ve 
in 


+ + 
a ES 
en En Er Er Er Er Er Er mr 


re 
es 


« 


Il ne reste plus qu'à copier coller! 
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Exporter une analyse statistique en LaTeX 


De nombreuses analyses statistiques peuvent être automatiquement générées et exportées pour 
LaTeX. Voyons un exemple: 


ft RGui (64-bit) - [R Console] 
GR File Edit View Misc Packages Windows Help 


library(xtable) 
mydata<-read.csv("c:/tmp/ANOVAlFacteurDesempile.csv",header=T,sep=";:") 
formula<-lm(mydata$Valeurs-mydata$Classes) 
print (xtable (anova (formula) )) 
latex table generated in R 3.3.2 by xtable 1.8-2 package 
$ Mon Feb 06 15:15:42 2017 
\begin{table}{hnt] 
\centering 
\begin{tabular}{lrrrrr} 
\hline 
& Df & Sum Sq & Mean Sq & F value & Pr(S$S>SF) \\ 
\hline 
mydata\$Classes € 2 & 8.00 & 4.00 & 0.14 & 0.8739 \\ 
Residuals € 18 € 530.29 & 29.46 & &  \\ 
\nline 
\end{tabular} 
\end{table} 
> | 


Ce qui donne compilé dans LaTeX: 


Df SumSq MeanSq Fvalue Pr(>F) 
mydata$Classes 2 8.00 4.00 0.14  0.8739 
Residuals 18 530.29 29.46 


Avouons que c'est pas mal ;-) 
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Exporter une analyse statistique dans une fenêtre graphique 


Il est très utile dans le cadre de la génération de graphique, d'intégrer parfois des analyses 
statistiques poussées (ou simples!) ou de le faire pour ceux qui veulent imprimer sur du papier 
ou sur un PDF un résultat d'analyse avec le script plutôt que le script tout seul (comme le fait 
le menu File/Print). Voyons un cas au plus simple (très utile pour l'usage de Power BD à 
l'aide du package gplots et de sa fonction sinkplot( ) : 


| = L 
| R File Edit View Misc Packages Windows Help 


] 


> data('iris') 
> ANOVA <-— aov(Sepal.Width - Species, data=iris) 
> summary (ANOVA) 

| Df Sum Sq Mean Sq F value Pr(>F) 

| Species 2 LE 33 5.672 49.16 <2e-16 
Residuals 147 16.96 0.115 

| > library(gplots) 


Attaching package: ‘gplots'’ 

The following object is masked from ‘package:stats': 
lowess 

> sinkplot() 

> summary (ANOVA) 


> sinkplot ("plot") 
> | 


Ce qui donne: 
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__ 2» 


M À Grer evice 2 (ACTIVE EEE 


Df Sum Sq Mean Sq F value Pr(>F) 
Species 2. -11:393 072 49.16 <2e-16 
Residuals 147 16.96 0.115 


Figure 25 Graph d'un tableau statistique 
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Exporter l'équation d'un modèle statistique en LaTeX 


Pour certains modèles statistiques, extraire l'équation du modèle automatiquement permet de 
gagner du temps lors de la rédaction d'articles scientifiques. Il en est de même lors de l'usage 
de R Markdown où il peut être utile de générer le code LaTeX des modèles. 


Pour cela il existe un package nommé equatiomatic et sa fonction extract_eq( ) qui fait ce 
travail pour un petit nombre de modèles dont voici la liste au jour du mois d'octobre 2020: 


Model Packages/Functions 

linear régression stats::1m 

logistic regression stats::glm(family = binomial(link = ‘logit')) 
probit regression stats::glm(family = binomial(link = ‘probit'})) 


ordinal logistic regression MASS::polr(method = ‘logistic'}); ordinal::clm(link = ‘logit') 


ordinal probit regression MASS::polr(method 


il 


‘probit'}); ordinal::clm(link = ‘probit') 


Voyons un premier exemple: 


R File Edit View Misc Packages Windows Help Et Re 


SSCÈCECIE | 


> library("equatiomatic") 

> fit <- 1m(mpg - cyl + disp, mtcars) 

> extract_eq(fit) 

55 

\operatorname{mpg} = \alpha + \beta {1}(\operatorname{cyl}) + \beta_{2}(\operatorname{disp}) + \epsilon 
$5> 


Ce qui donne: 


mpg — à + B1(cyl) + Ba(disp) + € 


ou Encore: 


R File Edit View Misc Packages Windows Help & X 


$$> extract_eq(fit, use coefs = TRUE) 

CE 

\operatorname{mpg} = 34.66 - 1.59(\operatorname{cyl}) - 0.02(\operatorname{disp}) + \epsilon 
$5> 


Ce qui donne: 
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mpg — 34.66 — 1.59(cyl) — 0.02(disp) + € 


Ou encore: 
MR RGui (64-bit) - [R Console] EL 
ŒR File Edit View Misc Packages Windows Help = x 


> library("lme4") 
> str(sleepstudy) 


"data.frame': 180 obs. of 3 variables: 
$ Reaction: num 250 259 251 321 357 ... 
$ Days : num 0123456 7 8 9 .. 
$ Subject : Factor w/ 18 levels "308","309","310",..: 1 L L À 1 1 1 1 1 1 ... 


> fit <- Imer(Reaction-Days + (1|Subject), sleepstudy) 
> extract_ eq(fit, use coefs=TRUE, wrap = TRUE) | 


Ce qui donne: 
Reaction + N (a; + B1(Days), a) 
a;  N (Ha,:02,) ,forSubject j = 1,...,J 


LC 
à 
à 
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Plotter une équation LaTeX 


Ceci est facilement faisable avec le package latex2exp de la manière suivante: 


- 


R MIE 
> library("latex2exp") 
> plot(TeX(r'(A $\LaTeX$ formula: $\frac{2hc"2}{\lambda”"5}\frac{l}{e"{\frac{hc}{\lambda k_ B T}} - 1}$)'), cex=2, main="") 
R R Graphics: Device 2 (ACTIVE) || 51 |) 
2hc° 1 
A LATEX formula: — > —; 
e’ksT en 1 


Importer une sortie R dans LaTeX 


Considérons maintenant la sortie R suivante qui a été copiée dans un fichier * .txt: 
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| ROutput:txt - Notepad = [a] X 
File Edit Format View Help 


GARCH Model : sGARCH(1,1) 
Mean Model : ARFIMA(O,0,5) 
Distribution : norm 


Optimal Parameters 


Estimate Std. Error t value Pr(>|t|) 
e.e8888e NA NA NA 
0.000000 NA NA NA 
e.eeeeee NA NA NA 
e.00888e NA NA NA 
-0.041598 0.020328 -2.0463 0.040727 
omega  @.000006  @.000001 4.2148 0.000025 
alphal 0.092063 0.011337 8.1205 0.000000 
betal 0.892993 0.012696 70.3366 0.000000 


Robust Standard Errors: 
Estimate Std. Error Pr(>|tl) 
2.000000 NA NA 
2.000000 NA NA 
0.000000 NA NA 
0.000000 NA NA 
-0.041598 0.020374 0.041178 
0.000006 0.000002 0.001992 

alphal 0.092063 4.018209 0.000800 

betal 0.892993 0.019863 0.000008 


LogLikelihood : 6757.949 

Information Criteria 
-5,2356 
-5.2265 

Shibata -5.2356 


Hannan-Quinn -5.2323 


Q-Statistics on Standardized Residuals 


La question est de savoir s’il existe un moyen rapide et pas trop salissant de le rendre dans un 
document LaTeX”? 


Nous utilisons TeXMaker 4.1.2 avec: 
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XX Document : C:/Users/Vincent Isoz/Downioads/ROuput.tex _ 0 x 
File Edit Tools LaïeX Math Wizard Bibliography User View Options Help 


PURE) 
\documentclass{12pt] {article} 1 
ge[english, 


CELL 


style = r-style, 
style = r-output-user, 
AR output with SASnRdisplay package 


S'5028208 


Here is bone R output ALL au ses 1 


\begin {document } A: Outpat 
\appendix = 
\section{R output with SASnRdisplay package) 

Here is how R output-\ref{code:r-out} and shown on Page-\pageref{code:r-out} = 
\inputRcode [caption={Output},numbers=left, numberstyle=\tiny, label=code:r-out] Bitte abbé) ya 


8 


BE8M 


GARCH Model : #GARCH (I 
. Me 1 


SESRSH# B m0WOSE 


-2.0463 0.040727 
4:2148 0.000028 
8.1208 0.000000 
10.3366 0.000000 


# value PrG1t1) 
à m wa 


-2.0417 0.041178 
30914 0.001992 

phal 0.092063 182 5.0560 0.000000 
0.202003 0.019863 44,9586 0.000000 


Type Line Message s 
= Loglinelibood : 6787.94 


Loc FLE : 
This is pdfTex, Version 3.14159265-2.6-1.40.17 (MKTEX 2.9.6100) (prelosded format=pdfiatex 2016.10.8) 11 NOV 2016 21:41 
extended mode 


où il est fait usage du package SASnRdisplay: 


ROupu X ETC (1H 283 


\documentclass[12pt]{article} 
\usepackage[english,noautotitles-r]{SASnRdisplay} 
% front-end to the listings package 

% http://www.ctan.org/tex-archive/macros/latex/contrib/sasnrdisplay 
\istdefinestyle{r-output}{ 

style = r-style, 

style = r-output-user, 


Incase code output numbering is not required, replace 

“caption={Output}" with "title={Output}" 

\begin{document} 

\appendix 

\section{R output with SASnRdisplay package} 

Here is how R output-\ref{code:r-out} and shown on Page-\pageref{code:r-out} 
\inputRcode[caption={Output},numbers=left,numberstyle=\tiny, label=code:r-out] 
{ROutput.txt} 

\end{document} 


ECC CLEA 


O0 oÙ0 


BH 
D H 


BéS 41010 00 OS TIE 4.0 E 
bhHH 
U1 æ W 


re 
a 


Ce qui donne donc: 
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Sciences.ch 


A R output with SASnRdisplay package 


Here is how R output A.1 and shown on Page 1 


R code A.1: Output 


Re * 
* GARCH Model Fit * 
Re * 


GARCH Model : sGARCH(1,1) 
Mean Model : ARFIMA(O,0,5) 
Distribution : norm 


Optimal Parameters 


Estimate Std. Error t value 
mai 0.000000 NA NA 
ma2 0.000000 NA NA 
ma3 0.000000 NA NA 
ma4 0.000000 NA NA 
ma$ -0.041598 0.020328 -2.0463 
omega 0.000006 0.000001 4.2148 
alphai 0.092063 0.011337 8.120565 
betai 0.892993 0.012696 70.3366 


Robust Standard Errors: 


Estimate Std. Error t value 
mal 0.000000 NA NA 
ma2 0.000000 NA NA 
ma3 0.000000 NA NA 
ma4 0.000000 NA NA 
mas -0.041598 0.020374 -2.0417 
omega 0.000006 0.000002 3.0914 
alphai 0.092063 0.018209 5.0560 
betai 0.892993 0.019863 44.956586 


LogLikelihood : 6757.949 


et sur la seconde page: 


Pr(>ltl) 
NA 
NA 
NA 
NA 
0.040727 
0.000026 
0.000000 
0.000000 


Pr(>ltl) 
NA 
NA 
NA 
NA 
0.041178 
0.001992 
0.000000 
0.000000 


R Statistical Software 


3835/3133 


Vincent ISOZ, Daname KOLANI 


Sciences.ch 


“w Information Criteria 


” Akaike -6. 
“ Bayes -5. 
“1 Shibata -5. 


« Hannan-Quinn -5. 


“«“ Q-Statistics on 


«7 Lag [1] 

«“ Lag(p+q+1][6] 
“  Lag{(p+q+5][10] 
mm d.0.f=5 


statistic p-value 


8.037 0.0045839 
12.096 0.0005053 
15.367 0.0089041 


51 HO : No serial correlation 


55 Q-Statistics on Standardized Squared Residuals 


“  Lag [1] 

sr Lag(p+q+1][3] 
ss Lag(p+q+5] [7] 
5”  d.0.f=2 


_ : ÿ 
dont la qualité est comme à l'habitude avec LaTEX: remarquable!!! 


statistic p-value 


1.581 0.208686 
10.346 0.001298 
13.172 0.021820 
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Compiler une sortie R LaTeX en un PDF directement depuis R 


Si MikTeX est installé sur votre ordinateur, alors vous pouvez compiler un fichier *.tex 
directement depuis R à l'aide du package tinytex et sa fonction pdflatex( ) comme le montre 
l'exemple ci-dessous: 


 RGui (64-bit) - [R Console] 


R File Edit View Misc Packages Windows Help 
sel] 


library("tinytex") 
#création d'un fichier *.tex dans le dossier de travail 
writeLines(c( 
"m\\documentclass{article}", 
"m\\begin{document}", "Hello world!", "\\end{document}" 
), “test.tex") 
#compilation en LaTeX 
pdflatex("test.tex") 
1] "test.pdf" 


Ce qui donne: 


[M] test.tes 


test.pdf 


Le fichier text.tex contient comme attendu: 


[M] Document : C:\tmp\test.tex 


File Edit Tools LaTeX Math Wizard Bibliography User View Options Help 
) lc ck Build | » [View PDF + 


ŒE < >» test.tex 


| faocumentclass{article} 
| \begin{document} 

Hello world! 

| \end{document} 


[v! 


Et le pdf lui contient bien: 
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B test.pdf - Adobe Acrobat Reader (22-br) 


File Edit View Sqr Window Help 


Home Jools test.pdf 


 ® #8 Q 
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Exemples 43.: Importer/Exporter au format Microsoft Excel 


* xIsx (2007-2019) 
R 3.02 


De nombreux packages de lecture/écriture XLSX ne marchent pas actuellement avec la 
version x64 de R. Il faut exécuter la version x32 et de plus avoir la version x32 du Runtime 
Java d'installé. De plus, parfois l'installation de ce package cause beaucoup d'ennuis 
concernant le chargement de la dépendance avec le package rJava. Si c'est le cas, on doit 
s'assurer de définir les chemins d'accès aux dossiers bin ("C:\Program Files\Java\jre 
1.8.0_71\bin") et server ("C:\Program Files\Java\jre 1.8.0_71\server") de Java comme 
variables d'environnement et redémarrer RStudio ou R Visual Studio (voir plus bas). Ou 
simplement, comme ici, utiliser la version 32 bits de R permet de ne rien avoir à modifier 
comme paramètres dans le système d'exploitation! 


En 32 bits 


Nous installons maintenant le package XLConnect en apprenant directement au passage 
comment le faire avec la commande install.packages( ) au lieu de passer par un menu: 


-* RGuï (32-bit)} - [R Console] 


File Edit View Misc Packages Windows Help -lFixl! 


> install.packages ("XLConnect") El 
trying URL 'http://stat.ethz.ch/CRAN/bin/windows/contrib/3.0/XLConnect 0.2-5.zip' 
Content type 'application/zip' length 17913666 hytes (17.1 Mb) 

opened URL 

downloaded 17.1 M 


package ‘XLConnect’ successfully unpacked and MDS sums checked 


The downloaded binary packages are in 
C:\Documents and Settings\aidministrateur\Local Settings\Temp\Rtmpez11lal\down1é 
> libraryi{i"XLConnect"}) 
Loading required package: rJava 
XLConnect 0.2-5 by Mirai Solutions GmbH 
http://www.mirai-solutions.com , 
+ 
> 


oo x 


Ensuite le but est d'importer le contenu du fichier suivant x/sxDonnees.xlsx dans un data 
frame: 
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Sciences.ch 


FimestiowRomn [2 JA à 
oz s-|E5-| 2-2 


IMIN° Client 


mme 
NN OS we Manu BE W Die 


CE 
An Un BR 


Activité 


C2 


N° de ComméDate de comn Article 


100 Assurances 
123 Machines/Out 
109 Éducation 
104 Éducation 
117 Banques 

103 Assurances 
104 Éducation 
111 Alimentaire 

13 Construction 
116 Pharmaceutiq 
110 Distribution 
112 Machines/Out 
123 Machines/Out 
113 Construction 
115 Distribution 
124 Éducation 
124 Éducation 
106 Construction 
101 Construction 


D 


E 

Quantité 
03.01.2000 Compaq Pres 
03.01.2000 IBM 500 
03.01.2000 AST Intel 15C 
03.01.2000 AST Intel 20C 
04.01.2000 Compaq Pres 
04.01.2000 AST Intel 15C 
04.01.2000 AST Intel 20C 
04.01.2000 IBM 500 
04.01.2000 Compaq Pres 
04.01.2000 IBM 500 
05.01.2000 AST Intel 20C 
05.01.2000 Compaq Pres 
05.01.2000 IBM 500 
05.01.2000 AST Intel 15C 
05.01.2000 Compaq Pres 
05.01.2000 AST Intel 20C 
05.01.2000 Compaq Pres 
05.01.2000 AST Intel 20C 
05.01.2000 Compaq Pres 
06.01.2000 IBM 500 


Prix par pièce Rabais 


12 1650 
2 2299 
2690 
3190 
1650 
2690 
3190 
2299 
1650 
2299 
3190 
1650 
2299 
2690 
1650 
3190 
11 1650 
11 3190 
14 1650 
% 2299 


un 


00 WW M M mm N EE ND ND LU LU) 


09 


1.50% 
0.00% 
0.00% 
0.00% 
1.50% 
0.00% 
0.00% 
0.00% 
0.00% 
0.00% 
1.50% 
1.50% 
1.50% 
0.00% 
1.50% 
1.50% 
1.50% 
1.50% 
1.50% 
1.50% 


Prix total avec Facture payée 


19503 Oui 
4598 Oui 
13450 Oui 
9570 Oui 


21128.25 Oui 


5380 Oui 
6380 Oui 
9196 Oui 
6600 Oui 
4598 Oui 
18852.9 Oui 
9751.5 Oui 


13587.09 Oui 


8058 Oui 
13002 Oui 
25137.2 Oui 


17877.75 Oui 
34563.65 Oui 


22753.5 Non 


15851.605 Non 


PS: Remarquez la dernière colonne n'a pas de titre (légende) pour voir quel va être le 
comportement du package dans cette situation. 


Pour cela, nous allons utiliser la commande read WorkhseetFromFile( } comme ci-dessous: 


R File Edit View Misc Packages Windows Help 


Æ|e) 4 


> setwdi"C:/") 


LC 
SN 


=181x| 


> myData <- readWorksheetFromFile({"xlsxDonnees.xlsx", sheet=1) 
> myData 

N..Client Activité N..de.Commande Date.de.commande Article 
1 1 100 Assurances 1 2000-01-03 
2 2 123 Machines/Outils 2 2000-01-03 
3 3 109 Éducation 3 2000-01-03 
4 4 104 Éducation 4 2000-01-03 
5 5 117 Banques 5 2000-01-04 
6 6 103 Assurances 6 2000-01-04 ps 
7 7 104 Éducation 7 2000-01-04 
8 8 111 Alimentaire 8 2000-01-04 
9 9 113 Construction 9 2000-01-04 
10 10 116 Pharmaceutique 10 2000-01-04 
11 11 110 Distribution 11 2000-01-05 
12 12 112 Machines/Outils 12 2000-01-05 
13 13 123 Machines/Outils 13 2000-01-05 
14 14 119 Construction 14 2000-01-05 
15 15 115 Distribution 15 2000-01-05 
16 16 124 Éducation 16 2000-01-05 
17 17 124 Éducation 17 2000-01-05 
18 18 106 Construction 18 2000-01-05 
19 19 101 Construction 19 2000-01-05 
20 20 116 Pharmaceutique 20 2000-01-06 
21 21 112 Machines/Outils 21 2000-01-06 


nil 


= 
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et ensuite on exporte à nouveau le tout dans un fichier *.xlsx (bon évidemment dans la réalité 
on fera des manipulations dessus entre temps!) dans le dossier courant de R (qui pour rappel 
peut être changé par la commande setwd( ) ): 


+ RGui (32-bit) - [R Console] | [Of X| 


R File Edit View Misc Packages Windows Help -15/xl 
|| 


whExcel<-loadWorkbook("ExportExcel.xlsx", create = TRUE) 

createSheet (whbExcel, name = "Ventes'") 

writeWorksheet (wbExcel,myData, sheet = "Ventes", startRow = 1, startCol = 1) 
savelWorkbook(wbExcel) 


NN NY 


Formules 


N..Client lActivité N..de.Commande Date.de.c Article Quantité Prix.par.p Rabais.  Prix.total. Facture.p: Col1l 
2 1 100 Assurances 1 01.03.2000 00:00:00 Compaq P 12 1650 0.015 19503 Oui 
3 2 123 Machines/Outils 2 01.03.2000 00:00:00 IBM 500 2 2299 0 4598 Oui 
4 3 109 Éducation 3 01.03.2000 00:00:00 ASTIntel : 5 2690 0 13450 Oui 
5 4 104 Éducation 4 01.03.2000 00:00:00 AST Intel : 3 3190 0 9570 Oui 
6 5 117 Banques 5 01.04.2000 00:00:00 Compaq P 13 1650 0.015 21128.25 Oui 
7 6 103 Assurances 6 01.04.2000 00:00:00 AST Intel : 2 2690 0 5380 Oui 
8 7 104 Éducation 7 01.04.2000 00:00:00 AST Intel : 2 3190 0 6380 Oui 
F] 8 111 Alimentaire 8 01.04.2000 00:00:00 IBM 500 4 2299 0 9196 Oui 
10 9 113 Construction 9 01.04.2000 00:00:00 Compaq P 4 1650 (el 6600 Oui 
11 10 116 Pharmaceutique 10 01.04.2000 00:00:00 IBM 500 2 2299 0 4598 Oui 
12 11 110 Distribution 11 01.05.2000 00:00:00 AST Intel : 6 3190 0.015  18852.9 Oui 
L 12 112 Machines/Outils 12 01.05.2000 00:00:00 Compaq P 6 1650 0.015 9751.5 Oui 
13 123 Machines/Outils 13 01.05.2000 00:00:00 IBM 500 6 2299 0.015 13587.09 Oui 
14 113 Construction 14 01.05.2000 00:00:00 AST Intel : 3 2690 0 8070 Oui 
15 115 Distribution 15 01.05.2000 00:00:00 Compaq P 8 1650 0.015 13002 Oui 
16 124 Éducation 16 01.05.2000 00:00:00 AST Intel : 8 3190 0.015 25137.2 Oui 
17 124 Éducation 17 01.05.2000 00:00:00 Compaq P il 1650 0.015 17877.75 Oui 
18 106 Construction 18 01.05.2000 00:00:00 AST Intel : il 3190 0.015 34563,65 Oui 
19 101 Construction 19 01.05.2000 00:00:00 Compaq P 14 1650 0.015 22753.5 Non 


Nous voyons alors ce que deviennent les espaces initialement dans les titres des colonnes 
ainsi que la colonne qui n'avait initialement pas de titre. 
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Nous pouvons aller plus loin en termes de manipulation de fichiers Microsoft Excel avec le 
package xlsx toujours avec une version 32 bits de R comme le montre l'exemple ci-dessous: 


R RGui (32-bit) - [R Console] 
R File Edit View Misc Packages Windows Help 


> library(xlsx) 

> mydata<-read.csv("c:/tmp/VentesClean.csv",header=T,sep=";") 

> str(mydata) 

‘data.frame': 109 obs. of 10 variables: 

$ NClient : int 100 123 109 104 117 103 104 111 113 116 ... 
Activite : Factor w/ 8 levels "Alimentaire",..: 2766326148 


$ 

$ NCommande : int 1293456789 10 .…. 

$ DateDeCommande : Factor w/ 21 levels "03.01.2000","04.01.2000",..: 1111222222 
$ Article : Factor w/ 4 levels "AST Intel 150",..: 3 4 1 2 3 1 2 4 3 4 ... 

$ Quantite : int 122531322442... 

$ PrixParPiece : int 1650 2299 2690 3190 1650 2690 3190 2299 1650 2299 ... 

$ Rabais : Factor w/ 4 levels "0.00%","1.50%",..: 2111211111 

$ PrixTotalAvecRabais: num 19503 4598 13450 9570 21128 ... 

$ . 


FacturePayee Factor w/ 2 levels "Non","Oui": 2222222222 ... 


Ensuite, nous écrivons: 


R RGui (32-bit) - [R Console] 
R File Edit View Misc Packages Windows Help 


ÉROSGSOE 


data.xlsx<-createWorkbook|() 

client<-createSheet (wb=data.xlsx,sheetName="clients") 

ventes<-createSheet (wWb=data.xlsx,sheetName="ventes") 

fdéfinir le style des en-têtes des colonnes 

style<-CellStyle (data.xlsx)+Font (data.xlsx,isBold=TRUE, color="red") 

fremplir ces feuilles avec une partie des dataframes et sans la colonne des numéros de ligne 

addDataFrame (x=mydata,sheet=client,row.names=FALSE, colnamesStyle=style) 

addDataFrame (x=mydata{c("Article","Quantite","PrixParPiece")],sheet=ventes,row.names=FALSE, colnamesStyle=style) 
saveWorkbook(data.xlsx,file="data.xlsx") 


> 
> 
> 
> 
> 
> 
> 
> 
> 
> | 


Ce qui donne: 


dataxisx - Microsoft Excel 


data.xisx - Microsoft Excel 


v A NClient cs 
B LE D E F G 
Activite  NCommar DateDeCo Article Quantite PrixParPie Rabais Pi 
100 Assurance: 1 03.01.200( Compaq P: 12 1650 1.50% 12 1650 
123 Machines/ 2 03.01.200(1BM 500 2 2299 "0.00% 3 2 2299 
109 Éducation 3 03.01.200(AST Intel 1 5 2690 0.00% É si 2690 
104 Éducation 4 03.01.200(AST Intel 2 3 3190 "0.00% 3 3190 
117 Banques 5 04.01.200( Compaq Pi 13 1650 1.50% 13 1650 
103 Assurance: 6 04.01.200(AST Intel 1 4 2690 "0.00% 2 2690 
104 Éducation 7 04.01.200(AST Intel 2 2 3190 0.00% 4 3190 
111 Alimentair 8 04.01.200(1BM 500 4 2299/0.00% 9 4 2299 & 
113 Constructi & 9 04.01.200( Compaq PI 4 1650 70.00% CA compaq P: 4 1650 
116 Pharmacet 10 04.01.200(1BM 500 2 2299 10.00% LEA IBM 500 2 2299 
110 Distributio 11 05.01.200(AST Intel 2 6 3190 1.50% AST Intel 2 6 3190 
112 Machines/ 12 05.01.200( Compaq Pi 6 1650 71.50% LEA Compaq P: 6 1650 
123 Machines/ 13 05.01.200(1BM 500 6 2299 (1.50% IBM 500 6 2299 


e CRAN TN ventes €] 


= 


DR clients AE 
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Enfin, voyons le package qui pose le moins de problèmes en matière d'import de fichier 
Microsoft Excel et qui est le package readxl avec sa fonction read_excel( ): 


R t)-[R ole C 
GR File Edit 


> library("readxl") 

> tcette fonction permet aussi de choisir une plange donnée dans la feuille!!! 
> myData<-read_ excel (path="c:/tmp/xlsDonnees.xlsx",sheet=1) 

New names: 

MP => sert 

> fnotez que le résultat un tibble... 

> head(myData) 

# A tibble: 6 x 10 


Misc Packages Windows Help -8 x 


ID ‘N° Client‘ Activité ‘Date de commande’ Article Quantité ‘Prix par pièce ‘Rabais$' ‘Prix total avec rab-+ ...10 

<db1l> <db1> <chr> <dttm> <chr> <db1> <db1> <db1> <db1> <chr> 
1 1 100 Assurances 2003-06-03 00:00:00 Compaq Presar-+ 12 1650 0.01 19503 Oui 
2 2 123 Machines/Out-+ 2009-10-17 00:00:00 IBM 500 2 2299 0 4598 Oui 
3 3 119 Alimentaire 2004-05-09 00:00:00 IBM 500 22 2299 0.03 49061. Oui 
4 4 101 Construction 2003-01-14 00:00:00 Compaq Presar- 11 1650 0 18150 Oui 
5 s 117 Pharmaceutiq-+ 2005-03-14 00:00:00 IBM 500 8 2299 0.01 18116. Oui 
6 6 121 Distribution 2009-09-11 00:00:00 AST Intel 200 23 3190 0.03 71169. Oui 
> #on convertit en un dataframe 
> myData<-as.data.frame (myData) 
> head(myData) 

ID N° Client Activité Date de commande Article Quantité Prix par pièce Rabais$ Prix total avec rabais ...10 
ce © 100 Assurances 2003-06-03 Compaq Presario 100 #2 1650 0.01 19503.00 Oui 
2 2 123 Machines/Outils 2009-10-17 IBM 500 2 2299 0.00 4598.00 Oui 
3. 3 419 Alimentaire 2004-05-09 IBM 500 22 2299 0.03 49060.66 Oui 
4 4 101 Construction 2003-01-14 Compaq Presario 100 LE 1650 0.00 18150.00 Oui 
5 5 117 Pharmaceutique 2005-03-14 IBM 500 8 2299 0.01 18116.12 Oui 
6 6 121 Distribution 2009-09-11 AST Intel 200 23 3190 0.03 71168.90 Oui 
> dim(myData) 
[1] 1048575 10 
> 


Notez que ce package fonctionne dans la version 64 bit mais ne sait faire uniquement de 
l'import!! 1!!! 
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En 64 bits 


Maintenant voyons comment faire marche le package xlsx dans l'environnement 64 bits! 
D'abord on se rendra sur la page web: 


https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 


pour télécharger et installer le jdk8 pour Microsoft Windows et installer ce dernier de façon 
classique: 


V 


| Java SE Development Kit 8 - Setup _ 


This wizard will guide you through the installation process for the JDK 8 Update 211 


The terms under which this version of the software is licensed have changed. 
Updated License Agreement 


The Java Mission Control profiling and diagnostic tools suite is now available as part of the JDK 


No personal information is gathered as part of our install process. 
Details on the information we collect 


Et maintenant allons-y: 


MR RGui (64-bit) - [R Console] — 


ŒR File Edit View Misc Packages Windows Help IE: 


> *on vérifie si la variable d'environnement JAVA HOME existe? 
> Sys.getenv("JAVA HOME") 
[1] LLEL . 
e n'es as le cas donc on ajoute! 
#C 'est p 1 d l'ajoute! 
Sys.setenv (JAVA HOME='C:\\Program Files\\Javal\jrel.8.0 211) 
tet maintenant on peut y aller sans autres et sans messages d'erreurs! 


library("rJava") 
library("xlsx") 


tensuite c'est la même chose... 


VUNNVNNVNNVNNNNVV 
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S1 les jeux de données Microsoft Excel à importer sont conséquents, un message d'erreur de 
dépassement de capacité de mémoire apparaîtra, pour l'éviter (quand la mémoire est 
suffisante) on ajoutera: 


R RG 


R File Edit View Misc Packages Windows Help NE 


> Sys.setenv(JAVA HOME='C:\\Program Files\\Java\\jrel.8.0 211) 
> [options (Java.parameters = "-Xmx4096m") 

> library("rJava") 

> “tac Lou 

> 


Ensuite... bonne chance! 


Sinon indépendamment de toute package relatif à Java, on a le package openxlsxf et ses 
fonctions read.xlsx( ) et write.xIsx( ): 


R ] 
8 File Edit View Misc Packages Windows Help mix 


See) el 


> library("openxlsx") 
| > myData<-read.xlsx("c:/tmp/xlsDonnees.xlsx") 


en" 
| > head(myData) 
ID N°.Client Activité Date.de.commande Article Quantité Prix.par.pièce Rabais®% 
L' + 100 Assurances 37775 Compaq Presario 100 12 1650 0.01 
2 2 123 Machines/Outils 40103 IBM 500 2 2299 0.00 
3 3 119 Alimentaire 38116 IBM 500 22 2299 0.03 
4 4 101 Construction 37635 Compaq Presario 100 11 1650 0.00 
5 5 117 Pharmaceutique 38425 IBM 500 8 2299 0.01 
6 6 121 Distribution 40067 AST Intel 200 23 3190 0.03 
Prix.total.avec.rabais X10 


x À 19503.00 Oui 
2 4598.00 Oui 
: 49060.66 Oui 
4 18150.00 Oui 
5 18116.12 Oui 
6 71168.90 Oui 


> #notez les options disponibles! 

> args(read.xlsx) 

function (xlsxFile, sheet = 1, startRow = 1, colNames = TRUE, 
rowNames = FALSE, detectDates = FALSE, skipEmptyRows = TRUE, 
skipEmptyCols = TRUE, rows = NULL, cols = NULL, check.names = FALSE, 
namedRegion = NULL, na.strings = "NA", fillMergedCells = FALSE) 

NULL 

> 

> #on peut exporter aussi! 

> PA EE "c:/tmp/Export.xlsx", asTable = TRUE) 

> 


6 Un package alternatif est en cours de développement, nommé openxlsx2 qui devrait résoudre en théorie 
certains problèmes du package openxlsx. 
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Pour ceux qui souhaite un exemple plus complet en voici un: 


O 


R RGui (64-bit) - [R Console] _ 


R File Edit View Misc Packages Windows Help 


#Exemple pris de: https://www.youtube.com/watch?v=EMSkzZOF-ZGSsfeature=youtu.be 


library("openxlsx") 
library("tidyquant") 
library("tidyverse") 
library("timetk") 


#Obtention des données 
stock _ data tbl <— c("AAPL", "GOOG", "NELX", "NVDA") %5>% 
tq_ get (from = "2010-01-01", to = "2019-12-31") 


VVNNVNNVNVNNVNVNNNNNNNNNNNNNN ENV EEE ENV V ENV VV VV NN NV 


#Préparation des données 
stock pivot table <- stock data tbl 5>% 
pivot _table( 


| .rOowS = + YEAR(date), 

.-columns = - symbol, 

-values = + PCT CHANGE FIRSTLAST(adjusted) 
| ) +5>$ 
| rename (year = i) 


stock _plot <- stock data tbl %5>% 

group by(symbol) 5>% 

plot time series(date, adjusted, .color var = symbol, 
.facet_ncol = 2, .interactive = FALSE) 


#fCréation du classeur Microsoft Excel 
wb <-— createWorkbook() 


#Ajout d'une feuille 
addWorksheet (wb, sheetName = "stock analysis") 


+ Ajout d'une graphique 
print (stock _plot) 
wb %>% insertPlot (sheet = “stock analysis", startCol = "G", startRow = 3) 


#Ajout de données 
writeDataTable(wb, sheet = "stock analysis", x = stock pivot table) 


#On sauve le fichier Microsoft Excel 
saveWorkbook(wb, "stock _ analysis.xlsx", overwrite = TRUE) 


#On l'ouvre immédiatement derrière 
openXL("stock analysis.xlsx") 


Ce qui donne une fois le fichier Microsoft Excel ouvert: 
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4 A B C D E 

year Mar Mocooc Mnrix Mnvoa 
0.50721922 -0.05230156 2.28534031 -0.16711731 
0.22887416 0.06875155 -0.61162493 -0.12389398 Time Series Plot 
0.30558546  0.06307393 -0.12114671 
0.04750831  0.54954725 0.28695125 


0.42628392 -0.05324423 0.28681002 | 
-0.02082252 0.44997898 el sn 
0.12384333 0.040413 je ” 
2017 0.48042523 0.33106063  0.5056868  0.90426322 
2018 -0.07054347 -0.02759626 0.33117817 -0.32845499 
2019 0.87373401 0.27756375 0.207913 0.7121370 
300 
300 | 200 
200 | ; 
co! 00 
0 0 
2010 2015 2020 2010 2015 2020 
Legend — AAPL — GOO0G — NFLX — NVDA 
XC 
Ÿ 
R 
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Utiliser le presse-papiers 


Il est possible de mettre un data frame dans la mémoire (presse-papier) pour pouvoir ensuite 
par un simple copier/coller se retrouver avec une un tableau type dans Microsoft Excel(ou 
autre). 


Voici cela avec un exemple d'abord pour des colonnes une par une: 


R Fichier Edition Voir Misc Packages Fenêtres 


> setwd{"C:/"] 


> mydata<-read.csv("csvDonnees.csv",header=T,sep=":",skip=2) 
> writeCliphboard(as.character (mydataf$därticle)) #une colonne à la fois 
> #il suffit ensuite de faire une Ctrl+V dans Excel 


et pour un data frame en entier: 


R : [R 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> setwd{"C:/") 


> mydata<-read.csv("csvDonnees.csv",header=T,sep=";:",skip=2) 

> write.table (mydata,"clipboard",sep="\it",col.names-=Ni) #data frame en entier 
> #reste plus qu'à faire un Ctrl+V dans XL 

> | 
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Exemple 44.: Exporter des données vers Microsoft 


PowerPoint 
R 3.6.2 


Beaucoup de multinationales ont besoin d'automatiser la génération automatisée de 
présentation Microsoft PowerPoint. Voyons donc comment un exemple simple d'un telle 
situation qui utilise la fameux package officer: 


GR RGui (64-bit) - [R Console — (m] 


GR File Edit View Misc Packages Windows Help | IX 
ÉROSGSIOIE 


library("officer") 
library("flextable") 
library("tidyverse") 
library("tidyquant") 
library("timetk") 


#Obtention des données 
stock _ data _ tbl <- c("AAPL", "GOOG", "FB", "NVDA'") %>% 
tq_ get (from = "2019-01-01", to = "2020-08-31") 


#Préparation des données 
stock _ returns tbl <- stock data tbl %5>% 
select(symbol, date, adjusted) %>% 
group _ by(symbol) 5>% 
summarise ( | 


FAST ENV VV ENV VV VV VV 


week = last(adjusted) / first(tail(adjusted, 7)) -— 1, 
month = last(adjusted) / first(tail(adjusted, 30)) -— 1, 
quarter = last(adjusted) / first(tail(adjusted, 90)) -— 1, 
year = last(adjusted) / first(tail(adjusted, 365)) -— 1, 
all = last(adjusted) / first(adjusted) - 1 
) 
‘summarise()' ungrouping output (override with ‘.groups' argument) 


> 

> #Préparation du graphique 

> stock plot <- stock data tbl %5>% 

dE group _by(symbol) %>% 

+ summarize by time (adjusted = AVERAGE (adjusted), .by = "week") 5>% 

+ plot time series(date, adjusted, .facet ncol = 2, .interactive = FALSE) 

-date var is missing. Using: date 

> stock plot 

> 

> #Préparation de la table 

> stock _ table <- stock returns tbl $5>% 

+ rename all(.funs = str to sentence) %5>% 

+ mutate if(is.numeric, .funs = scales::percent) 9%>% 

+ flextable::flextable() 

> stock table 

> Il 
> #Création du fichier Microsoft PowerPoint 

> doc <- read pptx({(}) 

> doc <- add slide (doc) 

> doc <- ph with(doc, value = "Stock Report", location = ph location type (type = "title")) 
> doc <- ph with(doc, value = stock table, location = ph location left()) 

> doc <- ph with(doc, value = stock plot, location = ph location right()) 

> 

> print(doc, target = "stock report.pptx") 

> | 
L | 


Ce qui donne: 
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Sciences.ch 


Exemple 45.: Exporter des données vers Microsoft Word 


R 4.1.1 


L'exemple qui suit utilise aussi officer et est un copier/coller de l'exemple fournit ici par 


Sang-Heon Lee: 


https://kiandlee.blogspot.com/2022/08/paste-r-plot-image-into-ms-word.html 


Le code simplifié à son strict minimum est: 


R RGui (64-bit) - [R Console] 


QR File Edit View Misc Packages Windows Help 


sdate <- as.Date("2010-01-01") 
edate <- as.Date("2020-01-01") 

> getSymbols(""GSPC", from=sdate, to=edate) 

[1] "*GSPC" 
|> getSymbols(""IXIC", from=sdate, to=edate) 

[1] "“IXIC" 

> df <- data.frame( time(GSPC[,6]), GSPC[,6], IXIC[,6]) 


CE nn nnnnennnnnennnnnnnns à 
> # Quantitative ALM, Financial Econometrics & Derivatives 

> # ML/DL using R, Python, Tensorflow by Sang-Heon Lee 

> # 

> # https://kiandlee.blogspot.com 

> 2 RE 
> 

> graphics.off(); rm(list = 1s()) 

> 

> library(quantmod) # getSymbols 

> library(officer) 

> setwd("c:/tmp/") 

> 

D mm mm mm mm mm mm mm 

> # read S&P 500 and NASDAQ index 

D Re mm m 

> 

| > 

|> 


rownames (d£f) <- NULL 
colnames (df) <- c("date", "GSPC", "NDAQ") 


### create a new document object 
doc <- read docx() 


VVNVNNVNNVNNNNEHEVVNVVNVNNVNNN NN NN NN NN NN NV OV 


### add title and description 

doc <- body add(doc, "Fig. 1", style = "Normal") 

desc <- "This figure plots a time series ... blah blah" 
doc <- body add(doc, desc, style = "Normal") 


### various method to add figure into WORD 


# 1) by direct commands 

doc <- body add(doc, plot_instr(code = { 

matplot (df$date, df$GSPC, main = "S&P 500", type = "1", 
lwd = 3, col = "blue", xlab="Date", ylab="Index") 


}), height = 4) 
### add table if necessary 


doc <- body add(doc, "", style = "Normal") 


### save word file 
print(doc, target="r to word test.docx") 


legend('topleft',legend="S£P 500", col="blue", lty=1l,lwd=3, box.lty=0) 


doc <- body add(doc, head(as.data.frame (GSPC)), style = "table template") 
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Ce qui donne: 
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Exemple 46.: Importer/Exporter des données au format SPSS 
R 3.0.2 


De nombreux étudiants universitaires doivent passer leurs anciennes données SPSS en R pour 
pouvoir utiliser toute la puissance de R. Cela est possible avec la commande read.spss() du 
package foreign qui en plus gère magnifique bien les labels SPSS qui sont normalement une 
sa**#*#%# À gérer et à transformer avec d'autres packages: 


TT 
R File Edit View Misc Packages Windows Help = 


ÉBOBOBSIOIE 


> library("foreign") 
> mydata<-read.spss(file="c:/tmp/SPSS.sav",use.value.labels=TRUE,max.value.labels=Inf,to.data.frame=TRUE) 
> str(mydata) 


h 
x 


"data.frame': 54 obs. of 16 variables: 

$ ID : num 12345 6 7 8 9 10 

$ Sex : Factor w/ 2 levels "Female","Male": 1111211122 ... 

$ Age : num 22 22 21 21 20 18 22 22 20 20 

$ Ethnicity : Factor w/ 6 levels "European American",..: 1111111132 
$ C1 St : Factor w/ 5 levels "Freshman","Sophomore",..: 3 33342 3423 
$ Fam_ Income : Factor w/ 10 levels "O0 to 15,000",..: 5 5 5 6 6 6 6 6 7 7 ... 
$ Candy : Factor w/ 2 levels "Skittles","None" L'L L LL TTLÉE LT: 
$ Stimuli : Factor w/ 3 levels "Printed","Spoken",..: 1 1111111112 
$ Distraction: Factor w/ 3 levels "No Distraction",..: 1112223331 

$ Recall1 : num 9911 8 7 6 10 8 9 8 - 

$ Recall2 : num 8.28 8.28 10.12 7.36 6.02 

$ Skittles com LÉLLLITALL 

$ Printed : aus + LE 4 L L À L 1 0 

$ Spoken : num 0000000001 

$ CellPhone : num 0001110000 

$ LightBulb : num 0 0 O0 O O0 O0 1 1 1 O ... 

— attr(*, "variable.labels")= Named chr "Participant Identification Number" "Gender" "Age" "Ethnicity" 

.— attr(*, "names")= chr "ID" "Sex" "Age" "Ethnicity" 
| > head (mydata) 
ID Sex Age Ethnicity EL:SE Fam_Income Candy Stimuli 

1 1 Female 22 European American Junior 45,001 to 55,000 Skittles Printed 
2 2 Female 22 European American Junior 45,001 to 55,000 Skittles Printed 
3 3 Female 21 European American Junior 45,001 to 55,000 Skittles Printed 
4 4 Female 21 European American Junior 55,001 to 65,000 Skittles Printed 
5 5 Male 20 European American Senior 55,001 to 65,000 Skittles Printed 
6 6 Female 18 European American Sophomore 55,001 to 65,000 Skittles Printed 


Distraction Recalll Recall2 Skittles Printed Spoken CellPhone LightBulb 


1 No Distraction 9 8.28 È 1 0 0 0 
2 No Distraction 9 8.28 & £ 0 0 0 
3 No Distraction 11 10:12 À 1 0 0 0 
4 Cell Phone Ring 8 7.36 1 1 0 L ( 
5 Cell Phone Ring 7 6.02 L + 0 si 0 
6 ‘ba Phone Ring 6 T2 Eh 1 0 ci 0 
-; 
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Exemple 47.: Importer des données au format MATLAB 
R 342 


L'import de données MATLAB se fait qu'avec des matrices contenues dans des fichiers *.mat 
avec le package R.matlab et sa fonction readMat( ) : 


M ARGui (64-bit) - [R Cons: 
QR File Edit View Misc Packages Windows Help 


Sl°8] See] els] 


> library("R.matlab") 
> mydata<-readMat ("c:/tmp/Ventes.mat") 
> mydata 
£Sales 
[,1] [1,2] [,3] [,4] 1,5] [,6] [,9] [,10] 
[1,] 100 NaN 730488 NaN 22 19503.00 NaN 
2,1 123 Nan 730488 NaN 4598.00 NaN 
[3,] 109 NaN 730488 NaN 13450.00 NaN 
[4,] 104 NaN 730488 NaN 9570.00 NaN 
{5,] 117 NaN 730489 NaN 21128.25 NaN 
[6,] 103 NaN 730489 NaN 5380.00 NaN 
[7,] 104 NaN 7304893 NaN 6380.00 NaN 
[8,] 111 NaN 730489 9196.00 NaN 
[9,1] 113 NaN 730489 NaN 6600.00 NaN 
{10,] 116 NaN 730489 NaN 4598.00 NaN 
[11,] 110 NaN 730490 NaN 18852.90 NaN 
[12,1 112 Nan 730450 NaN 9751.50 NaN 
[13,] 123 NaN 730490 NaN 13587.09 NaN 
{[14,] 113 NaN 7304950 NaN 8070.00 NaN 
{[15,] 115 NaN 730490 NaN 13002.00 NaN 
[16,] 124 NaN 730490 25137.2 NaN 
(17,] 124 NaN 7304950 NaN 17877.75 NaN 
[18,] 106 NaN 7304950 NaN 34563.65 NaN 
{19,] 101 730490 NaN 22753.50 NaN 
[20,] 116 730491 NaN 15851.60 NaN 
[21,1] 112 730491 NaN 15897.90 NaN 
22; 125 730491 36811.50 NaN 
100 730491 NaN 6897.00 NaN 
125 730491 NaN 6380.00 NaN 
104 730492 NaN 31795.80 
126 730492 62623.20 NaN 
121 730492 18116.12 NaN 
114 730492 28279.35 NaN 
103 730492 9751.50 NaN 
125 730492 12760.00 
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Exemple 48.: Importer des données de fichiers MS Access 


(*.mdb/*.accdb) 
R 3.0.2 


Nous allons d'abord installer le package suivant RODBC: 


RE RGui (64 bit 2 


R Fichier Edition Voir Misc Packages Fenétres Aide F5 


> install. packages] ""RODEC") 


L 
ù 
Attention!!! Ce package ne permet pas que d'accéder aux données mais également des les 
modifier, de créer des tables, etc.! 


Ensuite, il faut suivant la manière dont vos informaticiens ont installé Microsoft Windows 
dans votre organisation aller télécharger la bonne version des drivers ODBC Access de 
Microsoft: 


http://www.microsoft.com/en-us/download/details.aspx?1d=23734 


ce qui donnait au jour où j'écris ces lignes, la page Internet suivante avec un exécutable à 
installer: 
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© Web microsoft.com/en-us/dowr 


BE Microsoft 


Download Center 


Shop Products Categories Support Security 


2007 Office System Driver: Data Connectivity 
a Ee Share SIL 
Components 


Select Language English Free PC u pd ates 
a 


Security patches 


This download will install a set of components that can be used to 
facilitate transfer of data between 2007 Microsoft Office System files 
and non-Microsoft Office applications 


+ Hardware drivers 


© Run Microsoft Upclate 


@ Details 


Ensuite, nous lançons le gestionnaire ODBC de Windows en 32 bits car le package ODBC ne 
marche pas correctement en x64: 


Entrez le nom d'un programme, dossier, document ou ressource Internet, et 
Windows l'ouvrira pour vous. 


[=] 


Quvrir:  CWindows\Sy:WOW64\odbcad32.exe 


| Annuler | | Parcourir... | 


S'ouvre alors la boîte de dialogue suivante et nous cliquons sur Ajouter: 
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| Pilotes ODBC | Traçage | Groupement de connexions ] à propos | 
Sources de données utilisateur | Sources de données système [ Sources de données fichier | 


Sources de données utilisateur : 


Nom Pilote 


dBASE Files Microsoft Access dBASE Driver (*.dbf, “ndx, * 
Excel Files Microsoft Excel Driver (xls, *xlsx, *xlsm, * xls 


MS äccess Database Microsoft #ccess Driver (.mdb, “ accdb] 


Visio Database Samples Microsoft Access Driver (.mdb, “ accdb] 


Une source de données utilisateur ODBC stocke des informations relatives à 
la connexion du fournisseur de données spécifié. Elle est visible uniquement 
pour vous et sur cette machine. 


Nous prenons ensuite le driver qui correspond au premier fichier que nous voulons utiliser 
(nous commençons par un *.mdb et nous verrons ensuite pour le *.accdb): 


Sélectionnez un pilote pour lequel vous souhaitez définir une source 
de données. 


Nom Version  * 


Driver da Microsoft para arquivos texto (°txt: * csv] 6.01 760E) 
Driver do Microsoft äc * mdb} 6.01.760 
Driver do Microsoft dBase (* dbf] 6.01.760 
Driver do Microsoft Excel(*.xls] 6.01.760 
Driver do Microsoft Paradox (*. db ] NS 6.01.760 
Driver para o Microsoft Visual FoxPro 1.00.02.C 


+ 
binrnnnft Annnnn ADACE Disirsne LE ARE Eds # made À 4 NN 70 
« | put | b 


< Précédent Terminer ännuler 


Nous cliquons ensuite sur Terminer et dans la boîte de dialogue qui apparaît il faut 
absolument donner au nom de la source de données le nom du fichier Access lui-même 
auquel vous voulez par la suite vous connecter: 
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Nom de la source de données : AccessDataSet952003.mdb 


Description : 
Annuler 
Base de données 
hide 


Base de données 


Sélectionner... Créer. Réparer. Compacter... 
Avancé... 


Base de données système 


©) Aucun 


1) Base de données : 


Base de données système 
Options>> 


Ensuite, nous cliquons sur le bouton Sélectionner: 


Base de données Répertoires : 
äccessDataSet952003.mdb  c:\temp 
aSet952003. mi > C\ 


€ temp 


(| Lecture seule 
(] Exclusif 


Types de fichiers : 
Base de données Access + Réseau... 


et nous allons chercher le dossier où se trouve le Access qui nous intéresse. Nous validons par 
OK une première fois: 


Nom de la source de données : AccessDataSet952003.mdb 


Description : 
x Annuler 
Base de données 


Base de données : C:\temp\äccessD ataS et952003.mdb hide 


| Créer. | | Réparer... ] | Compacter.. | 


hyancé.. 


Base de données système 


@ Éucun 


(0) Base de données : 


Base de données système 
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et encore par OK: 


[ Pilotes ODBC [ Traçage Ï Groupement de connexions Ï À propos 
Sources de données utilisateur | Sources de données système ] Sources de données fichier 


Sources de données utilisateur : 


aSet3 ë Driver do Microsoft Access (* mdb] 


dBASE Files Microsoft Access dBASE Driver (*.dbf, “n 


Excel Files Microsoft Excel Driver (xls, *xlsx, *xlsm, | | Configurer. 


MS äccess Database Microsoft gcess Driver (.mdb, * accdb] 
Visio Database Samples Microsoft ess Driver (.mdb, * accdb] 


ET )at 


Une source de données utilisateur ODBC stocke des informations relatives à 
la connexion du fournisseur de données spécifié. Elle est visible uniquement 
pour vous et sur cette machine. 


OK | | Annuler | &ppliquer Aide 


et nous validons ensuite sur OK et retournons dans R. Nous chargeons comme à l'habitude la 
librairie et avec la commande odbcDataSources( }) nous testons si R voit bien notre driver: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> library(RODEC) 
> odhcDataSources({) 
Visio Database Samples 
"Microsoft diccess Driver (*.mdb, *.accdb)" 
HS iccess Database 
"Microsoft diccess Driver (*.mdb, *.accdb)" 
Excel Files 
"Microsoft Excel Driver (*.xls, #*.xlsx, ‘*.xlsm, *.xlsb)" 
dABiSE Files 
"Microsoft iccess dBiSE Driver (*.dbf, *.ndx, *.mdx)" 
iccessDataSet952003 .mdhb 
"Driver do Microsoft iccess (*.mdb)" 


> | 


et c'est donc bien le cas. 


Pour la suite nous sommes obligés d'utiliser (du moins au jour où j'écris ces lignes) la version 
x32 de R pour pouvoir poursuivre et nous utilisons la commande odbcConnectAccess( ) 
comme il s'agit d'un fichier Access 2003 ou antérieur et ensuite la commande sqlFetch( ) 
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pour chercher la table XLSData qui nous intéresse et qui contient effectivement environ 1 
million de lignes: 


R Fichier Edition Voir Misc Packages Fenétres Aide 


library (RODEC) 

setwd{("C:/temp") 
channelDSN<-odbcConnecticcess("iccessDataSet952003.mdb") 
dataSet<-sqlFetch(channelDSN, "XLSDatas") 


dimidataset) 
1] 1048655 10 


affichons quelques colonnes et quelques lignes pour voir que tout est ok: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> dataSet[1:5,1:3] 
Customer Number ictivity Order Number 
100 Insurance 
123 Machine tools 


119 Food 
101 Construction 
117 Pharamceutic 


Donc c'est tout bon! 


Attention!!! Si le fichier Microsoft Access est en lecture seule ou ouvert par un autre 
utilisateur l'accès par R ne sera pas possible. 


La méthode est presque exactement la même pour des *.accdb à part qu'on prendra au début 
un driver *.odbc pour les fichiers *.accdb et non *.mdb et que le code change un peu pour car 
nous devrons utiliser la commande odbcConnectAccess2007() (même si c'est pour des 
fichiers d'Access 2010 ou du 2013): 
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R Fichier Edition Voir Misc Packages Fenétres Aide 


library (RODEC) 
setwd{"C:/temp"} 
channelDSN<-odbcecConnecticcess2007{("iccessDataSet20072013.accdb") 
> dimidataSet) 
[1] 1048655 10 


> dataSet[1:5,1:3] 
Customer Number ictivity Order Number 
100 Insurance 
123 Machine tools 
119 Food 
101 Construction 
117 Pharamceutic 


Pour fermer la connexion, on utilisera: 


MR RGui (64-bit) - [R Console] 


R File Edit View Misc Packages Windows Help 6 x 


Ou: 


HR RGui (64-bit) - [R Console] us 


y 
x 


R File Edit View Misc Packages Windows Help = 


> odbcCloseAll O| 


Enfin, gardez à l'esprit que vous ne pourrez pas importer plus de données que la 
quantité de mémoire vive (RAM) qui est libre sur votre ordinateur!!!! 
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Exemple 49.: Importer des données JSON 
R 3.2.1 


Un fichier JSON (JavaScript Object Notation) est un fichier contenant des données structurées 
comme du XML mais qui dérive de la notation des objets javascript. Pour importer des 
données d'un fichier *.json, il faut d'abor installer et charger le package rjson et avec la 
fonction fromJSON( ), on importe les données sous forme de liste. 


Considérons maintenant le fichier *.json suivant: 


4 GOOG.json - Notepad 


File Edit Format View Help 


{ 


"Date":["10/12/2015","09/12/2015","08/12/2015","07/12/2015", 
"04/12/2015" ,"03/12/2015","02/12/2015","01/12/2015"], 

OBS IS SR PTS TION 107; 
“747.11, 

"High":["755.85","764.23","764.80" ,"768.73","768.49", 
"768.99" ,"775.96" ,"768.95"], 

LOST ARS" AT TT SOS ASS TS AE TL, 

"Close":["749.46","751.61","762.37","763.25","766.81","752.54", 
"762.38","767.04" |, 

"Volume" : ["1984900" ,"2695300" ,"1827400" ,"1807300" ,"2741500" ,"" 

, "2195700" ,"2129900"] 


} 


L'import se fait relativement facilement avec la fonction fromJSON\( ): 


R Statistical Software 412/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


R RGuï (64-bit) - [R Console] — 0 X 
R File Edit View Misc Packages Windows Help 6x 


> library(rijson) 
> mydata <- fromJSON( file ="c:/tmp/GO00G.json ") 
> str(mydata) 
List of 6 
$ Date : chr [1:8] "10/12/2015" "09/12/2015" "08/12/2015" "07/12/2015" 
$ Open : chr [1:86] "752.8" "7 9757.8" "767.7" .….. 
$ High : chr [1:8] "755.85" "764.23" "764.80" "768.73" 
$ Low : CRE [150] "72908" 2737 "754.2" "755.0" 
$ Close : chr [1:8] "749.46" "751,61" "762.37" "763.25" 
$ Volume: chr [1:8] "1984900" "2695300" "1827400" "1807300" ... 
> mydata<-as.data.frame (mydata) 
mydata 
Date (Open High Low Close Volume 
10/12/2015 752.8 755.85 743.8 749.46 1984900 
09/12/2015 764.23 737 751.61 2695300 
08/12/2015 757.8 764.80 754.2 762.37 1827400 
07/12/2015 767.7 768.73 755.0 763.25 1807300 
04/12/2015 753.1 768.49 . 766.81 2741500 
03/12/2015 766.0 768.99 745.6 752.54 
9 
1 


LA 


02/12/2015 768.9 775.96 758.9 762.38 2195700 
01/12/2015 747. rh 767.04 2129900 


V © -J Oo O1 :B © NN 


On peut inverser aussi la procédure en exportant qu JSON à parti d'un dataframe avec la 


fonction to JSON( ): SN 
| 8 RGui (64-bit) - [R Console ( 
R File Edit View Misc Packages Windows Help = 6 .X 


| 


> jsonData<-toJSON (mydata) 
> write(jsonData,"c:/tmp/GO0G export.json") 
|> | 


S1 le fichier est nettement plus gros, comme le suivant: 


w StockPrices.json 


Alors il faudra changer de package pour passer à jsonlite et sa fonction stream_in( ) et être 
beaucoup plus patient (entre 5 et 10 minutes sur un ordinateur contemporain): 
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R il 


R File Edit View Misc Packages Windows Help 


BROBOSIEIE | 


> library("jsonlite") 
> get _tweets <- stream in(file("c:/tmp/StockPrices.json"),pagesize = 10000) 
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Exemple 50.: Importer des données XML ou HTML du web 
R 3.0.2 


D'abord il va nous falloir installer le package XML: 


R Fichier Edition Voir Misc [Packages | Fenétres Aide 
Sa] Charger le package. 

Choisir le site miroir de CRAN... 

Choisir les entrepôts... 

Inst{ller le(s) package(s).. 

Mettre à jour les packages. 


Installer le(s) package(s) depuis des fichiers zip... 


Enfin, nous utilisons la commande xmIToDataFrame( ) : 


library(XML) 

url<-"http://www.sciences.ch/tmp/xmlVentes.xml" 

mydata<-xmlToDataFrame (url) 

mydata 

idclient activite idcommande datecommande article quantite prixparpiece abs ptar facture 

100 Assurances 36528 Compaq Presario 100 12 1650 0.015 19503 Qui 
123 Machines/Outils 36528 IBM 500 2 2299 4598 Oui 
109 Éducation 36528 AST Intel 150 2690 13450 Oui 
104 Éducation 36528 AST Intel 200 3190 9570 Oui 
117 Banques 36529 Compaq Presario 100 1650 . 21128.25 Oui 
103 Assurances 36529 AST Intel 150 2690 5360 Oui 
104 Éducation 36529 AST Intel 200 3190 6380 Oui 
111 Alimentaire 36529 IEM 500 2299 9196 Oui 
113 Construction 36529 Compaq Presario 100 1650 6600 Oui 
116 Pharmaceutique 36529 IBM 500 2299 4598 Oui 
110 Distribution 36530 AST Intel 200 3190 . 18852.9 Oui 
112 Machines/Outils 36530 Compaq Presario 100 1650 : 9751.5 Oui 
123 Machines/Outils 36530 IBM 500 2299 2 13587.09 Oui 
113 Construction 36530 AST Intel 150 2690 8070 Qui 
115 Distribution 36530 Compaq Presario 100 1650 . 13002 Oui 


+'AR d De 2 


in 


QD Inn EU NN h 


© © Oo oo on NN ,b ,b ND D © to 
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Un cas de plus en plus fréquent consiste à aspirer des données provenant des tables HTML et 
nous pouvons faire cela toujours avec le même package XML. 


Considérons la page Internet suivante: 


sciences.ch/htmlfr/php/cedstat/indexph 


ACCUEIL TÉLÉCHARGER ANNONCES CHAT FORUM LIVRE D'OR PARTENAIRES CONTACT BLOG APROPOS 


2 News :: D Ereur :: fa Msiteurs : TT ClearType : () Imprimer : PARTAGER nf 42 29 


STATISTIQU 
VISITEU 


Accueil Détails des visiteurs Curmuls mensuels Historique du mois Analyses annuelles Références 


[tes | Amine | 
201402 18199 254994 En cours 
Te 


2013-11 30968 1063277 
2013-10 31715 589180 [| __ Arhwé | 


2013-09 26453 768721 Archivé 
2013-07 19836 410803 Archivé 


EE 25884 51260 
2013-01 32287 667549 an 


2012-12 2196670 
2012-11 563932 


Nous voulons importer les données dans KR. xC 


R R Console 


> library(XML) 
> #ittention cela renvoie une liste! 
> WebStats<-readHTNLTable ("http://www.sciences.ch/htmlfr/php/cedstat/index.php?type=cumul£éhier=" 
> str(iWebStats) #pour voir qu'il s'agit bien d'une liste contenant toutes les tables de la page 
List of 8 
$ NULL: NULL 
$ NULL:'data.freme!: 165 obs. of 4 variables: 
.$ Vi: Factor w/ 140 levels "","2002-2014 Sciences.ch",..: 134 136 135 134 134 134 134 134 134 134 $ 
.$ V2: Factor w/ 134 levels "","10737","12116",..: 132 NA 133 NA 1 1 1 1 11 
.$ V3: Factor w/ 132 levels "100231","100655",..: NA NA 131 Ni Ni NA Ni Ni NA NA ... 
.$ V4: Factor w/ 3 levels "archivi@","Aärchivage",..: NA NA NA NA NA NA NA NA NA Ni ... 
$ NULL: NULL 
$ NULL:'data.frame!: 161 ohbs. of 4 variables: 
.$ Vi: Factor w/ 137 levels "","2003-05","2003-06",..: 133 133 133 133 133 133 133 133 133 133 
«8 V2: Factor w/ 132 levels "","10737","12116",..: NA 1 1 1 1 1 1 1 1 1 
.$ V3: Factor w/ 131 levels "100231","100655",..: NA NA NA NA Ni Nä Ni Ni NA Ni 
.$ V4: Factor w/ 3 levels "Archivi@","ärchivage",..: NA NA NA NA NA NA Ni Ni Na Ni ... 
$ NULL:'data.frame!: 26 obs. of 2 variables: 
.$ V1: Factor w/ 3 levels "","4 connecti@s",..: 3.3 3 49% ES 4413 
.$ V2: Factor w/ 1 level "": 1111111111 
$ NULL:'data.freme!': 134 obs. of 4 variables: 
.$ Vi: Factor w/ 134 levels "2003-05","2003-06",..: 132 131 134 133 130 129 128 127 126 125 
.$ V2: Factor w/ 131 levels "10737","12116",..: NA NA NA 131 12 73 87 68 72 43 
.$ V3: Factor w/ 131 levels "100231","100655",..: NA NA NA 131 51 76 80 11 82 100 
l..$ Va: Factor w/ 3 levels "Archivi@","ärchivage",..: Ni Ni Ni 2 3 1 1 1 1 1 
$ NULL:'data.frame!: 133 obs. of 4 variables: 
.$ Vi: Factor w/ 133 levels "2003-05","2003-06",..: 131 133 132 130 129 128 127 126 125 124 
.$ V2: Factor w/ 131 levels "10737","12116",..: Nà Ni 131 12 73 87 68 72 43 18 
.$ V3: Factor w/ 131 levels "100231","100655",..: NA NA 131 51 76 80 11 82 100 81 
.$ V4: Factor w/ 3 levels "irchivi@","Aärchivage",..: NA NA 2 3 11 1 4 1 1 
$ NULL:'data.frame!: 131 obs. of 4 variables: 
.$ Vi: Factor w/ 131 levels "2003-05","2003-06",..: 131 130 129 128 127 126 125 124 123 122 ... = 
.$ V2: Factor w/ 131 levels "10737","12116",..: 131 12 73 87 68 72 43 18 17 25 
.$ V3: Factor w/ 131 levels "100231","100655",..: 131 51 76 80 11 82 100 81 67 58 


LL 
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Nous poursuivons: 


#iprès observation de la liste on voit que c'est le tableau de la web qui nous intéresse 
WebStats<-as.data.frame(WebStats[[85]]) 

#on regarde le résultat 

striWebhStats) 

data.frame!: 131 obs. of 4 variables: 

$ V1: Factor w/ 131 levels "2003-05","2003-06",..: 131 130 129 128 127 126 125 124 123 122 
$ V2: Factor w/ 131 levels "10737","12116",..: 131 12 73 87 68 72 43 18 17 25 ... 

$ V3: Factor w/ 131 levels "100231","100655",..: 131 51 76 80 11 82 100 81 67 58 ... 

$ V4: Factor w/ 3 levels "irchivi@","ärchivage",..: ee LL EL ELLE 

#On enlève la première ligne de données qui contient les en-têtes du tableau 
WVebhStats<-WebStats[-1,] 

#On renomme les colonnes 

names (WebhStats)<-c{"AinnéeMois","Visiteurs","Requétes","Status") 

#On nettoie un problème d'encodage de caractères 

WebStats$Status<-gaub("i@","é" WebStats$Status) 

#et enfin on change le type de certaines colonnes (ce qui n'est pas toujours trivial...) 
WebStats$innéeMois<-as.character (WebStats$innéeMois) 
WebStats$Visiteurs<-as.numeric{(levels (WebStats$Visiteurs)) [WebStats$Visiteurs] 


Message d'avis : 
Nis introduits lors de la conversion automatique 


> 


WebStats$Requétes<-as.numeric (levels (WehStats$Requétes)) [WebStats$Requétes] 


Message d'avis : 
Nis introduits lors de la conversion automatique 


> 


str(ilWeb$tats) 

data.frame!: 130 obs. of 4 variables: 

$ AnnéeMois: chr "2014-02" "2014-01" "2013-12" "2013-11" 
$ Visiteurs: num 168205 31783 34375 30968 31715 ... 

$ Requêtes num 255010 504080 567679 1063277 589180 

$ Status chr "En cours" "irchivé" "Archivé" "irchivé" 


> | 


On regarde le résultat qui est nickel: 
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> WebhStats 


innéeMois Visiteurs Requêtes 


2014-02 
2014-01 
2013-12 
2013-11 
2013-10 
2013-09 
2013-08 
2013-07 
2013-06 
2013-05 
2013-04 
2013-03 
2013-02 
2013-01 
2012-12 
2012-11 
2012-10 
2012-09 
2012-08 
2012-07 
2012-06 
2012-05 
2012-04 
2012-03 
2012-02 
2012-01 
2011-12 
2011-11 
2011-10 
2011-09 
2011-08 
2011-07 
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18205 
31783 
34375 
30968 
31715 
26453 
20077 
19836 
21364 
26770 
22986 
30269 
25884 
32287 
32441 
34702 
34708 
27157 
17965 
18463 
25974 
30859 
29783 
43157 
45946 
50654 
508544 
57953 
55748 
42823 
24906 
208576 


255010 
504080 
567679 
1063277 
589160 
768721 
574265 
410803 
294148 
331367 
2156485 
336905 
512469 
667549 
2196670 
563932 
561741 
302038 
2620685 
208317 
822464 
1308661 
466520 
346856 
338589 
277940 
261947 
300936 
215952 
119264 
95369 
87312 


Status 
En cours 
ärchivé 
irchivé 
Archivé 
Archivé 
ärchivé 
ärchivé 
ärchivé 
ärchivé 
Archivé 
ärchivé 
ärchivé 
Archivé 
ärchivé 
Ârchivé 
irchivé 
ärchivé 
ärchivé 
ärchivé 
ärchivé 
irchivé 
irchivé 
irchivé 
ärchivé 
irchivé 
ärchivé 
ärchivé 
Archivé 
ârchivé 
ärchivé 
irchivé 
ärchivé 
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Exemple 51.: Importer des données XES (*.xes) 


R 3.4.1 


Nous allons pour importer un fichier un fichier *.xes (eXtensible Event Stream’) utiliser le 
package xesreadR avec le contenu suivant: 


1 
- 
5 
6 


À 


Case ID 


nono on on on on on on on On 01 O1 01 O1 O1 Fe Le Fe Le Le 09 C9 C9 C9 C0 C9 C9 C9 CO PJ NO 9 ND 9 nu nu nu un 


B [ER D 


Event ID dd-Mht-yus &ctivity Resource Costs 


35654423 30-12-2010:1 register req Pete 

35654424 31-12-2010: examine th Sue 

35654425 05-01-2011! check ticke Mike 
35654426 06-01-20111 decide Sara 
35654427 07-01-2011 reject reque Pete 

35654483 30-12-2010:1 register reg Mike 
35654485 30-12-2010:1 check ticke Mike 
35654487 30-12-2010:1 examine ca Sean 
35654488 05-01-2011 decide Sara 
35654489 08-01-2011: pay compet Ellen 
35654521 30-12-2010:1 register req Pete 

35654522 30-12-2010:1 examine ca Mike 
35654524 30-12-2010:1 check ticke Ellen 
35654525 06-01-2010 decide Sara 
35654526 06-01-2011 reinitiate re Sara 
35654527 06-01-2011: examine th Sean 
35654530 08-01-2017 check ticke Pete 

35654531 09-01-2010 decide Sara 
35654533 15-01-2011 pay compei Ellen 
35654641 06-01-2011 register req Pete 

35654643 07-01-2011: 1 check ticke Mike 
35654644 08-01-2011: examine th Sean 
35654645 09-01-2011: 1 decide Sara 
35654647 12-01-2011 reject reque Ellen 
35654711 06-01-2010 register req Ellen 
35654712 07-01-2011: 1 examine ca Mike 
35654714 08-01-2011:T check ticke Pete 

35654715 10-01-2011: decide Sara 
35654716 11-01-2016 reinitiate re Sara 
35654718 14-01-2011: check ticke Ellen 
35654719 16-01-2011 examine ca Mike 
35654720 19-01-2011: decide Sara 
35654721 20-01-2011: % reinitiate re: Sara 
35654722 21-01-2011.0! examine ca Sue 

35654724 21-01-2011: 11 check ticke Pete 

35654725 23-01-2011 1 decide Sara 
35654726 24-01-2011: reject reque Mike 
35654871 06-01-2011: 1! register req Mike 
35654873 06-01-2011 examine ca Ellen 
35654874 07-01-2011 check ticke Mike 
35654875 07-01-2011 1 decide Sara 
35654877 16-01-2011: 11 pay compei Mike 


50 
400 
100 
200 
200 

50 
100 
400 
200 
200 

5Û 
400 
100 
200 
200 
400 
100 
200 
200 

5 
100 
400 
200 
200 

5 
400 
100 
200 
200 
100 
400 
200 
200 
400 
100 
200 
200 

50 
400 
100 
200 
200 


Donc nous chargeons d'abord les packages et ensuite le fichier *.xes d'exemple à l'aide de la 


fonction read_xes( ) : 


T1 s'agit du format normalisé des logiciels qui stockent en temps réel ou manuellement les étapes d'avancement 


de processus business. 
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R RGuiï (64-bit) - [R Console] = 


GR File Edit View Misc Packages Windows Help -# x 


> library("xesreadR") 
> eventlog<- read _xes("c:/tmp/business process event _analysis.xes") 
Warning messages: 
|1: In read _xes("c:/tmp/business process event _analysis.xes") L 
| No lifecycle transition id specified in xes-file 
|2: In read xes("c:/tmp/business process event _analysis.xes") : 
No activity instance identifier specified in xes-file. By default considered each event a$ 

|> eventlog 
|Event log consisting of: 
| 42 events 

6 traces 
|6 cases 
|8 activities 
| 42 activity instances 


| 
|# À tibble: 42 x 10 


CASE_concept_name CASE_ creator Activity activity _ id Costs resource _ id 
| <chr> <chr> <chr> <chr> <chr> <chr> 
|. 2 3 Fluxicon Nitro register request register request 50 Pete 
| 2 3 Fluxicon Nitro examine casually examine casually 400 Mike 
| 3 3 Fluxicon Nitro check ticket check ticket 100 Ellen 
| 4 3 Fluxicon Nitro decide decide 200 Sara 

5 3 Fluxicon Nitro reinitiate request reinitiate request 200 Sara 
6 3 Fluxicon Nitro examine thoroughly examine thoroughly 400 Sean 
| 7 3 Fluxicon Nitro check ticket check ticket 100 Pete 
| 8 3 Fluxicon Nitro decide decide 200 Sara 
| 8 3 Fluxicon Nitro pay compensation pay compensation 200 Ellen 
| 10 2 Fluxicon Nitro register request register request 50 Mike 


# ... with 32 more rows, and 4 more variables: Resource <chr>, timestamp <dttm», 
| # lifecycle_ id <lgl>, activity instance id <int> 
l> | 


et voilà! Pour en savoir plus sur l'utilité de ce type de données, le lecteur pourra se référer aux 
exemples sur la business process analysis donnés plus loin à la page 1986. 
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Exemple 52.: Exporter/Lire des fichiers SAS (*.dat) 
R 3.2.3 


Ceux qui travaillent dans le pharma connaissent bien l'exigence de la FDA (Federal Drug 
Administration) à propos du format des données analysées. Heureusement et bien 
évidemment, il existe un package R pour écrire et lire ce type de fichier: le package 
SASxport. 


D'abord nous chargeons le package avec un jeu de données se trouvant dans un *.csv: 


R RGui (64-bit) - [R Console] — O X 
R File Edit View Misc Packages Windows Help ACLE: 


> library(SASxport) 


> mydata<-read.csv("C:/tmp/VentesClean.csv",header=T,sep=";:") W 
> head(mydata) 
NClient Activite NCommande DateDeCommande Article Quantite PrixParPiece 
1 100 Assurances 1 03.01.2000 Compaq Presario 100 12 1650 
2 123 Machines/Outils 2 03.01.2000 IBM 500 2 2299 
3 109 Éducation 3 03.01.2000 AST Intel 150 5 2690 
4 104 Éducation 4 03.01.2000 AST Intel 200 3 3190 
1 117 Banques 5 04.01.2000 Compaq Presario 100 13 1650 
6 103 Assurances 6 04.01.2000 AST Intel 150 2 2690 
Rabais PrixTotalAvecRabais FacturePayee 
1 1.50% 19503.00 Oui 
2 0.00% 4598.00 Oui 
3 0.00% 13450.00 Oui 
4 0.00% 9570.00 Oui 
S 1.50% 21128.25 Oui 
6 lsiss 5380.00 Oui 
> 


Ensuite, nous exportons avec la fonction write.xport( ): 


R RGui (64-bit) - [R Console] 
R File Edit View Misc Packages Windows Help 


> tempdir() 

[1] "C:\\Users\\VINCEN-1\\AppData\\Local\\Temp\\RtmpUREqm4" 

> tmp <- tempfile(fileext = ".dat") 

> write.xport (mydata, file = tmp ) 

Warning message: 

In makeSASNames (colnames (df)) : Truncated S long names to 8 characters. 


> | 
R 


Nous allons dans le dossier concerné pour voir que le fichier *.dat est bien là: 
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L RtmpUREqm4 


File Home Share View 
[TE Preview pane Ru) Extra large icons [Æ] Large icons EE] Medium ic 
[Details pane EE Small icons SE List ÊEZ Details 
dent cure E Tiles = Content 
pane æ 
Panes Layout 
AR E-- 
æ = + Ÿ 1 > ThisPC > OS(C) > Users > Vincentisoz > AppD 
: Name 
x Quick access 
HE Desktop # |] file24901806a0c.dat 
% Downloads + À downloaded_packages 
TE Pacuments # 


Ce qui est bien le cas (c'est un fichier binaire donc inutile de penser à l'ouvrir dans le bloc- 
notes)! 


Après avoir renommé et déplacer el fichier, nous pouvons aussi le lire avec la fonction 
read.xport( ) : 


R RGui (64-bit) - [R Console] — O X 
R File Edit View Misc Packages Windows Help - #8 x 


ÉBSOISOSINIE 


> mysas<-read.xport ("C:/tmp/Ventes SAS.dat") 
> summary (mysas) 


NCLIENT ACTIVITE NCOMMAND DATEDECO 
Min. :100.0 Construction 21 Min. 2 À 19.01.2000:10 
1st Qu.:105.0 Éducation :19 1st Qu.: 28 05.01.2000: 9 
Median :113.0 Machines/Outils:18 Median : 55 28.01.2000: 9 
Mean :112.8 Distribution :13 Mean : S5 18.01.2000: 8 
3rd Qu.:120.0 Pharmaceutique :12 3rd Qu.: 82 04.01.2000: 6 
Max. :127.0 Assurances :10 Max. :109 07.01.2000: 6 
(Other) :16 (Other) :61 
ARTICLE QUANTITE PRIXPARP RABAIS PRIXTOTA 
AST Intel 150 °21 Min. : 1.00 Min. :1650 0.00#:46 Min. : 2690 
AST Intel 200 2 13t Ou.: 4:00 1st Qu.:1650 1.50%:52 ist Qu.: 9196 
Compaq Presario 100:29 Median : 6.00 Median :2299 3.00%: 9 Median :13587 
IBM 500 :27 Mean : 6.21 Mean :2463 4.00%: 2 Mean :18785 
3rd Qu.:11.00 3rd Qu.:3190 3rd Qu.:22754 
Max. :33.00 Max. :3190 Max. :85219 
FACTUREP 
Non:48 
Oui:61 
> | 


R Statistical Software 422/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Exemple 53.: Exporter/Lire des fichiers SAS (*.xpt) 
R 3.6.0 


Ceux qui travaillent dans le pharma connaissent bien les fichiers *.xpt de SAS (Transport File 
Format) qui restent actuellement la référence du BFSS (Behavioral Risk Factor Surveillance 
System). Heureusement et bien évidemment, il existe un package R pour écrire et lire ce type 
de fichier: le package foreign et sa fonction read.xport( ). 


Voyons ceci: 


RF 4-bit) - [R Console] : 
R File Edit View M Packages Windows Help | le) Xe 


> library("foreign") 
| > BFSS<-read.xport ("LLCP2014.xpt") 
| > str(BFSS) 


"data.frame': 464664 obs. of 279 variables: 
X_ STATE : num 1111111111 
FMONTH que. 1: À LL LL L LL À 
IDATE : Factor w/ 399 levels "01022014","01022015",..: 31 11 15 11 29 1 9 19 1 13 ... 
IMONTH s Factor w/ 12 levels “01”","02","03";::z À À 1. L LL À L 1 1 
IDAY : Factor w/ 31 levels "01","02","03",..: 17 7 9 7 16 2 6 11 2 8 
IYEAR : Factor w/ 2 levels "2014","2015": 1111111111 
DISPCODE : num 1100 1100 1100 1100 1100 1100 1100 1100 1100 1100 
SEQNO : num 2.01e+09 2.01e+09 2.01e+09 2.01e+09 2.01e+09 


X_PSU : num 2.01e+09 2.01e+09 2.01e+09 2.01e+09 2.01e+09 
CTELENUM : num 1 1 1 1 1 1 1 1 1 1 ... 

PVERESDI =: aum ZL 4 1 1 1 1 1 1 L'1 ... 

COLGHOUS : num NA NA NA NA NA NA NA NA NA NA ... 

STATERES : num 1111111111 ... 

LADULT : num NA NA NA NA NA NA NA NA NA NA ... 


S 

S 

$ 

$ 

$ 

$ 

$ 

$ 

S 

S 

$ 

$ 

$ 

$ 

$ NUMADULT : num 2121222122 

$ NUMMEN s aus À 4 1 O0 1 1. 1 O À 1 

$ NUMWOMEN : num 1 0 1 1111111 

$ GENHLTH : num 5313332321 ... 

$ PHYSHLTH : num 25 7 88 77 2 5 2 3 88 1 ... 
$ MENTHLTH : num 5 14 88 77 88 4 88 88 14 88 
$ POORHLTH : num 88 7 NA 88 88 6 88 88 88 88 
S HLPHPENZL : num 1 1 1 1 1 1 1 1 2 1 

$ PERSDOC2 : num 1111121111 

$ MEDCOST : num 1222222212 

$ CHECKUP1 : num 1111111111 

$ EXERANY2 : num 2112211111 

$ SLEPTIMI1 : num 968 8 8 7 7 7 10 8 

$ CVDINFR4 : num 1222222222 

$ CVDCRHD4 : num 2222122222 

$ CVDSTRK3 : num 1122222222 

$ ASTHMA3 : num 2221212222 ... 

$ ASTHNOW : num NA NA NA 1 NA 2 NA NA NA NA 
S$ CHCSCNCR : nim 222222 22 2 2 - 

S CHCOCNCR : num. 2 2 2 2 1 1 2 2 2 2 - 

$ CHCCOPDI : num 1121222221. 

$ HAVARTH3 : num 1121121112 

$ ADDEPEV2 : num 2121222212 

$ CHCKIDNY : num 1222222222 

$ DIABETES : aum 1 3 3 1 3 1 3 3 3 3 

$ DIABAGEZ2 : num 61 NA NA 32 NA 70 NA NA NA NA ... 
$ LASTDEN3 : num 2111121221 

$ RMVTETH3 : num 2118821131 

$ VETERAN3 : num 2222212221. 

$ MARITAL : num 1113111211 ... 

$ CHILDREN : num 68 88 868 88 88 688 1 88 88 88 
$ EDUCA : num 5 4 6 6 5 6 6 4 3 5 :.. 

$ EMPLOY1 : num 8817777881 
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Exemple 54.: Importer des données de Stata (*.dta) 
R 3.6.0 


Comme pour SPSS, nous allons utiliser ici le package foreign mais sa fonction read.dta( ). 
Voyons-en un exemple: 
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Exemple 55.: Export/Importer des données parquet 
R 3.6.0 


Nous allons utiliser ici le package arrow mais et ses fonctions write_parquet( ) pour créer 
un fichier parquet à partir d'un fichier CSV et ensuite read_parquet() pour lire le fichier 
créé. Voyons-en un exemple: 


Re RGui (64-bit) - [R Console] = Ü 


R File Edit View Misc Packages Windows Help EX 


library("arrow") 


start time <- Sys.time() 
mydata<-read.csv("c:/tmp/Source CSV Ventes.csv",header=T,sep=";") 
end time <- Sys.time() 

end_ time - start time 

Time difference of 32.88602 secs 


VUYNVNVNVYV 


> 
> start _ time <- Sys.time() 

> write parquet (mydata, "c:/tmp/Source Parquet Ventes.parquet") 
> end time <- Sys.time() 

> end time - start time 

Time difference of 20.02654 secs 


> 
> start _ time <- Sys.time() 
> d£ <- read parquet ("c:/tmp/Source Parquet _Ventes.parquet") 
> end time <- Sys.time() 
> end time - start _ time 
Time difference of 1.385324 secs 
> 
> str(df) 
"data.frame': 12044587 obs. of 10 variables: 
$ ID = Int «123245679910 .:.;: 
$ N..Client : num 100 123 119 101 117 121 102 122 104 107 ... 
$ Activité : chr "Assurances" "Machines/Outils" "Alimentaire" "Construction" ... 
$ Date.de.commande : chr "2003-6-3 00:00:00" "2009-10-17 00:00:00" "2004-5-9 00:00:00" "2003-$ 
$ Article : chr "Compaq Presario 100" "IBM 500" "IBM 500" "Compaq Presario 100" ... 
$ Quantité : num 12 2 22 11 8 23 24 23 4 24 ... 
$ Prix.par.pièce : num 1650 2299 2299 1650 2299 ... 
$ Rabais. : num O.01 O 0.03 O 0.01 0.03 O O 0.03 0.03 ... 
$ Prix.total.avec.rabais: num 19503 4598 49061 18150 18116 ... 
$ Facture.payée sCuE OULT FOMET "ONE? "Out ee 
>| 
< > 
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Exemple 56.: Importer des données de Quand 


R 3.4.1 


L'objectif ici va être d'importer des données de Quand qui est un site tout aussi fameux que 
Yahoo en ce qui concerne les données (entre autres...), financières. 


Nous souhaitons importer les données de la page suivante: 


Q YALE | Historical Housing 


Oo Menu 
< 8 à 


X DE 


quandl.com 


ALTERNATIVE DATA CORE FINANCIAL DATA 


Historical Housing Market Data - Nominal Home Price Index 


FROM THE DATABASE: [ 


REFRESHED 
5 days ago, on 17 Oct 2017 


FAVORITE 


Yale Department of 
Economics 
(35 datasets) 


CHART 


FREQUENCY 
Monthly 


DESCRIPTION 

Robert J. Shiller, Irrational Exuberance, 2nd. 
Edition, Princeton University Press,2005, 2009, 
Broadway Books 2006, also Subprime Solution, ds) 
2008, as updated by author 20 


DOCS & HELP 


Quandl Code :i 
YALE/NHPI 


DOWNLOAD 


TABLE 


VALIDATE à 


http://www.econ.yale.edu/-shiller/data/Fig3-1.xls 


1920 


2000 


PERMALINK à 1300 1910 1520 1930 1940 1850 1960 1970 


https://www.quandl.com/data/YALE/NHPI 


1980 1990 2000 2010 


SD | 3M | 6M | 1Y | 3Y | 5Y | MAX From: | 1890-12-31 To: 


2017-06-29 


Default + No Transform + 


BLOG 


EXPORT DATA 

API 

JSON | CSV | XML 
Libraries 

PYTHON | R | MATLAB | + 


Tools 


EXCEL | TRADINGVIEW 


Observez bien sur la page web ci-dessus le Quand! Code que nous avons mis en évidence par 
un rectangle rouge. C'est ce que nous allons utiliser pour importer les données dans R avec le 


package Quand. 


Attention!!! Sans compte Quandi, le nombre d'appels depuis R est limité par jour! 
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MR RGui (64-bit) - [R Console] = X 


R File Edit View Misc Packages Windows Help sx 


> library (Quandl) 
> mydata<-Quandl ("YALE/NHPI", type="ts", start date="1990-01-01") 


[> mydata 

Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 
1990 76.53 76.59 76.79 77.04 77.30 77.50 77.56 77.47 77.22 76.91 76.38 75.97 
1991 75.53 75.25 75.14 75.32 75.77 76.25 76.51 76.59 76.57 76.29 76.04 75.83 
1992 75.70 75.65 75.81 76.08 76.40 76.60 76.71 76.74 76.63 76.60 76.59 76.47 
1993 76.40 76.33 76.39 76.67 77.04 77.52 77.89 78.14 78.20 78.18 78.18 78.12 
1994 78.21 78.21 78.36 78.71 79.22 79.72 80.08 80.33 80.35 80.31 80.18 80.09 
1995 80.04 80.01 80.10 80.39 80.71 81.09 81.43 81.68 81.76 81.75 81.66 81.54 
1996 81.45 81.43 81.69 82.15 82.63 83.08 83.45 83.68 83.73 83.66 83.59 83.52 
1997 83.56 83.62 83.94 84.35 84.90 85.43 85.88 86.19 86.34 86.44 86.67 86.88 
1998 87.20 87.41 87.91 88.59 89.41 90.23 90.89 91.44 91.78 92.03 92.23 92.47 
11999 92.75 93.01 93.64 94.47 95.40 96.40 97.23 97.93 98.44 98.87 99.19 99.58 
2000 100.00 100.57 101.47 102.54 103.70 104.86 105.72 106.52 107.14 107.73 108.29 108.79 
2001 109.22 109.64 110.40 111.25 112.20 113.27 114.23 114.99 115.47 115.68 115.84 116.06 
2002 116.44 116.92 117.93 119.21 120.79 122.33 123.69 124.73 125.49 126.14 126.64 127.15 
2003 127.65 128.33 129.31 130.49 131.84 133.23 134.65 135.96 137.08 137.98 138.77 139.63 
2004 140.71 142.04 144.09 146.18 148.34 150.52 152.34 153.81 155.11 156.30 157.50 158.67 
2005 160.14 161.93 164.58 167.00 169.54 172.01 174.10 175.92 177.61 178.75 179.68 180.11 
12006 180.83 181.51 182.75 183.65 184.38 184.55 184.62 184.42 184.21 184.06 183.64 183.24 
2007 182.73 182.48 182.20 182.14 181.89 181.55 181.00 180.25 179.13 177.54 175.18 173.36 
2008 171.09 169.21 167.92 167.34 167.03 166.55 165.73 164.30 161.93 159.17 156.08 152.56 
12009 149.37 147.63 146.53 146.96 148.19 149.81 150.76 150.68 149.64 148.60 147.96 146.69 
2010 145.00 143.06 143.60 145.40 147.03 147.69 147.54 146.40 144.58 143.12 141.82 140.64 
2011 139.05 137.75 137.79 139.15 140.68 141.93 142.33 141.77 140.16 138.40 136.65 135.16 
|2012 134.16 134.00 135.88 138.50 141.08 143.19 144.30 144.72 144.37 143.98 143.98 143.89 
2013 144.33 145.18 147.99 151.00 153.90 156.46 158.32 159.43 159.71 159.61 159.42 159.34 
2014 159.43 159.93 161.25 163.03 164.74 166.26 167.19 167.50 167.30 166.97 166.73 166.53 
2015 166.32 166.70 168.17 170.05 171.94 173.54 174.59 175.04 175.16 175.17 175.28 175.26 
[2016 175.19 175.44 176.75 178.65 180.51 182.10 183.22 183.88 184.19 184.29 184.52 184.72 
2017 184.95 185.33 186.80 188.78 190.79 192.60 


MR Console 


> plot.ts(mydata, main = "Robert Shiller's Nominal Home Price Index") 
>| 


MR Graphics: Device 2 (ACTIVE) 


Robert Shiller's Nominal Home Price Index 


mydata 
100 120 140 160 180 


80 


1990 1995 2000 2005 2010 2015 


Time 


Figure 26 Graph d'une série temporelle avec données longitudinales 
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Exemple 57.: Parser du HTML (web scraping de base) 
R 3.1.1 


Toujours avec le package XML, nous parsons la page suivante: 


R R: Mailing Lists 


<+ C 


[Home] 


Download 


CRAN 


R Project 


About R 
Contributors 
What's New? 
Mailing Lists 
Bug Tracking 
Conferences 
Search 


R Foundation 


Foundation 
Board 
Members 
Donors 
Donate 


r-project.org 


Mailing Lists 


Please read the instructions below and the posting guide before 
sending anything to any mailing list 


Thanks to Martin Maechler (and ETH Zurich), there are five 
general mailing lists devoted to R 


R-announce 


This list is for major announcements about the development of 
R and the availability of new code. It has a /ow volume (typically 
only a few messages a month) and everyone mildly interested 
should consider subscribing, but note that R-help gets 
everything from R-announce as well, so you don't need to 
subscribe to both of them 


Note that the list is mnoderated to be used for announcements 
mainly by the R Core Development Team. Use the web 
interface for information, subscription, archives, etc 


R-help 


The ‘main’ R mailing list, for discussion about problems and 
solutions using R, announcements (not covered by ‘R- 
announce' or ‘R-packages’, see above), about the availability of 
new functionality for R and documentation of R, comparison and 


Nous utilisons alors la fonction htmlParse() du package XML: 
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RGui (64-bit} - [R 


4 Fichier Edition Voir Misc Packages Fenêtres Aide 


> library("XML'") 
> mailing url = "http://wwuw.r-project.org/mail.html" 
> mailing doc htmlParse (mailing url) 
> mailing doc 
<!DOCTYPE html> 
<htrml lang="en"> 
<head> 
<meta charset="utf-6"> 
<meta http-equiv="X-Ui-Compatible" content="IE=edge"; 
<meta name="viewport" content="width=device-width, initial-scale=1"> 
<title>R: Mailing Lists</title> 
<link rel="icon" type="image/png" href="/favicon-32x32.png" sizes="32x32"> 
<link rel="icon" type="image/png" href="/favicon-16x16.pnag" sizes="16x16"> 
<!-- Bootstrap --><link href="/css/hbootstrap.min.css" rel="stylesheet"> 
<link href="/css/R.css" rel="stylesheet"> 
<!l-- HTMLS shim and Respond.ijs for IES support of HTMLS elements and medif 
<script src="https://oss.maxcan.com/html5Sshiv/3.7.2/html5Sshiv.min.$ 
<script srce="https://oss.maxcdn.com/respond/1.4.2/respond.min.js"><é$ 
<![endif]--> 
</{head> 
<body> 
<div class="container page"> 
<div class="row"> 
<div class="col-xs-12 col-sm-offset-1 col-sm-2 sidebar" role="nav$ 
<div class="rouw"> 
<div class="col-xs-6 col-sm-12"> 
<p><a href="/"><img sre="/Rlogo.pnag" width="100" height="78" alt="R"></a>é 
<p><small><a href="/"> [Home] </a></small></p> 


« | Qi 


Pour lire ensuite les titres <h2> il nous suffit alors d'écrire: 


Gui {64-bit} - [R 
R Fichier Edition Voir Misc Packages Fenêtres Aide 


> mailing root = xmlRoot (mailing doc) 
> mailing body xmlChildren(mailing root) $body 
[> xpathSipply(mailing body, "//h2",xmlValue) 
[1] "Download" "R Project" 
[3] "R Foundation" "Documentation" 


[5] "Links" "R-announce" 
"R-help" "R-package-devel" 
"R-devel" "R-packages'" 
"Special Interest Groups" "Archives and Search Facilities'" 
"General Instructions" 
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ou les paragraphes: 


R Fichier Edition Voir Misc Packages Fenétres Aide 


> xpathSäpply(mailing body, "//p",xmlValue) 
CE] verre 
[2] "[Home]”" 
[3] "CRAN" 
[4] "Please read the instructions below and the posting quide before s$ 
[5] "Thanks to Martin Maechler (and ETH Zurich), there are five generaf 
[6] "This list is for major announcements about the development of KR a$ | 
[7] "Note that the list is moderated to be used for announcem s mains 
[8] "The ‘main’ R mailing list, for discussion about problems and soluf$ 
[9] "This has become quite an active list with dozens of messages per $ 
[10] "is to get help about package development in R, i.e., to provide af 
[11] "There may be some overlap of topics with the R-devel mailing list$ 
[12] "This list is intended for questions and discussion about code dev$ 
[13] "If you don't want to receive more than a daily message, you can s$ 
[14] "This list is for announcements as well, usually on the availabilis 
[15] "Note that the list is moderated. However, CRAN package authors (af 
[16] "Additionally, there are several specific Special Interest Group ($ 
[17] "R-SIG-Mac: R Special Interest Group on Mac ports of R'" 
[18] "R-SIG-DB: R SIG on Database Interfaces" 
[19] "R-51IG-Debhian: R Special Interest Group for Debian ports of R'" 
[20] "R-SIG-dynamic-models: Special Interest Group for Dynamic Simulati$ 
[21] "R-SIG-ecology: Using R in ecological data analysis" $ 
[22] "R-SIG-Epi: R for epidemiological data analysis” $ 
[23] "R-SIG-Fedora: R Special Interest Group for Fedora and Redhat port$ 
[24] "R-SIG-Finance: Special Interest Group for ‘R in Finance’”" 


« KT | 
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Exemple 58.: Importer des données *.csv d'un fichier zip 
R 3.0.2 


Un cas relativement courant de jeux de données se trouvant sur Internet est ceux qui sont 
retrouvent compressés dans des fichiers *.z1p. 


Considérons alors le fichier *.zip suivant: 
) csvDanneeszip 


Avec le contenu: 


C\Users\soz \ 


Fichier Edition Affichage Favoris Outils Aide 


(je (—) V4 oc) = » < ll 


Ajouter Extraire Tester Copier Déplacer Supprimer Informations 


æ L C:\Users\lsoz Vincent\Documents\Sciences.Ch\tmp\csvDonnees.zip\ 


Nom Taille Compressé Modifié le Crée le Accede le 
7755 1577 2014-10-05 02:31 2014-10-05 02:31 2014-10-05 02:31 


où le fichier *.csv contient: 


Fichier Edition Format Affichage 2? 


tr Client Activité: N° de Commande; Date de commande; érticle Quantité; Prix par pièce; Rabais%; Prix total avec rabais Facture payée 
100,4 ssurances;1:03.01.2000; Compaq Presario 100:12:1650;1.50%;19503;Oui 
123;,Machines/Outils;2:03.01.2000;TBM 500,2,2299:0.00% 4598 Oui 
109;Education,3,03.01.2000,4ST Intel 150,5;2690:0.00%;13450;Oui 
104;Education;4;03.01.2000,AST Intel 200;3,3190:0.00%:,9570;Oui 
117,Banques;5:04.01.2000; Compaq Presario 100:13:1650;1.50%;21128.25 Oui 
103,4 ssurances;6,04.01.2000,48T Intel 150;2,2690,0.00%,5330,Oui 
104;Education;7;04.01.2000,AST Intel 200:2,3190:0 00% ;,6380;Oui 
111;,4limentaire;8:04.01 2000; TPM 500,4,2299:0.00% 9196; Oui 
113;Construction;9:04.01.2000;Compaq Presario 100,4,1650;,0.00% ;6600;Oui 
116;Pharmaceutique;,10;04.01 2000;:1BM 500,2;2299:0.00% ,4598 Oui 
110;,Distribution;11:05.01 2000, ST Intel 200,6,3190;1.50%;18852.9 Oui 

112, Machines/Outils,12:05.01.2000;,Compaq Presario 100,6,1650;1.50%,9751.5 Oui 
123 Machines/Outis;13:05.01.2000,1BM 500:,6:2299;1.50%:,13587 09;Oui 
113;Construction;14:,05.01 2000;,AST Intel 150;3,2690;,0 00% ;8070;Oui 
115;Distribution,15:05.01.2000;Compaq Presario 100,8:1650;1.50%;,13002; Oui 

124; Éduc ation,16;05.01.2000;, ST Intel 200:8,3190;1.50%,25137.2; Oui 

124; Éduc ation,17:05.01.2000;Compaq Presario 100:11:1650;1.50%:17377.75 Oui 
106;,Construction;18:05.01.2000,AST Intel 200,11:3190;1.50%;,34563.65 Oui 
101;Construction;19:05.01.2000;Compag Presario 100:14;1650;1.50%;22753.5: Non 
116, Pharmaceutique;20:06.01.2000;TBM 500,7,2299:1.50%;15351 605; Non 

112, Machines/Outils;21:06.01.2000,48T Intel 150,6,2690;1.50%;15897 9 Oui 
125;Construction;22:06.01.2000;,Compaqg Presario 100:,23:1650;3.00%;36811.5 Oui 


«| ul 
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Le fichier zip est stocké à l'adresse Internet visible dans le script ci-dessous dans la fonction 
download.file( ) et nous utilisons la fonction unzip( ) pour le décompresser: 


RGui (64-bit} - [R Ce 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> loc.url<-"http://www.sciences.ch/tmp/csvDonnees.zip" 

> temp<-tempfileli) 

> download.file(loc.url,temp) 

essai de L'URL 'http://wuwuw.sciences.ch/tmp/csvDonnees.zip! 
Content type 'application/zip' length 1739 bytes 

URL ouverte 

downloaded 1739 bytes 


> list.files <- unzip(temp, list=TRUE) 

> list.files$Name[1] 

[1] "csvDonnees.csv" 

> mydata<-read.csvi(unz(temp,list.files$Name[1]),header=TRUE,sep=";:") 


> | 


È 


et nous avons bien récupéré les données comme le montre la commande ci-dessous: 
CO 
N 
NS 


ichier Edition Voir Misc Packages Fenétres Aide 


OISECSIOIE 


> mydata[1:8,1:5] 

N..Client ictivité N..de.Commande Date.de.cormande Article 
100 issurances L 03.01.2000 Compaq Presario 100 
123 Machines/Outils 03.01.2000 IBM 500 
109 Éducation 03.01.2000 AST Intel 150 
104 Éducation 03.01.2000 AST Intel 200 
117 Banques 04.01.2000 Compaq Presario 100 
103 issurances 04.01.2000 AST Intel 150 
104 Éducation 04.01.2000 AST Intel 200 
111 Alimentaire 04.01.2000 IBM 500 


1 
2 
3 
4 
5 
6 
f 
8 
> 
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Exemple 59.: Importer des données d'un serveur MySQL 
R 3.0.2 


Pour l'exemple nous supposerons que le lecteur aura téléchargé et installé XAMPP: 


<< > D [ @ web wrww.apachefriends.org/fr/xampp.html *|(H- Rechercher avec Google | # © 


deutsch : english : français : italiano : portuqués (brasil) + A4: SAR «PER 


APACHE . (el & 
FRIENDS... Ç 


accueil XAMPP nouveauté équipe projets docs extras liens contact 


Install your favorite apps on top of XAMPP | ES | à | WW | 


bitnami.com/xampp — 


[=] XAMPP 


Plusieurs personnes savent par expérience qu'il n'est pas facile d'installer un serveur 
web 4pache et que ça se complique si vous voulez y ajouter MySQL, PHP et Perl. 


XAMPP est un kit d'installation d'Apache qui contient MySQL, PHP et Perl. XAMPP est 
réellement très facile à installer et à utiliser - vous n'avez qu'à le télécharger, le 
décompresser et le démarrer, 


Pour le moment il existe quatre kits XäMPP: 


Zä XAMPP pour Linux Z 


Ce kit pour les systèmes Linux (testé sous SUSE, RedHat, Mandrake and Debian) 
comprend : Apache, MySQL, PHP & PEAR, Perl, ProFTPD, phpMyädmin, OpenSSL, GD, 
Freetype2, libjpeg, libpng, gdbm, zlib, expat, Sablotron, libxml, Ming, Webalizer, pdf 
class, ncurses, mod_perl, FreeTDS, gettext, mcrypt, mhash, eâccelerator, SQLite et IMAP 
C-Client. 


5 XAMPP pour Windows 


Le kit pour Windows 2000, XP, Vista et 7, Cette version comprend : Apache, MySQL, PHP 
+ PESR, Perl, mod_php, mod_perl, mod_ssl, OpenSSL, phpMyâädmin, Webalizer, Mercury 


Une fois téléchargé et installé, si vous travaillez avec une version Pro de MS Windows, il 
vous faudra arrêter le serveur IIS pour poursuivre: 


[65 » DELLISOZ +» 


Aide 


LE) Page d'accueil de DELLISOZ - = 
É È Gérer le serveur 
D E.DELUSOZ (Dellsozifsoz Vine Filtrer : + BG atteindre - Gh Affichertout | Regrouper par: ee RTE 
à A 


D Démarrer 
ASP.NET e 


Arréter 
FE FLAT À S icher les pools 
4 d'applications 


Ÿ 
Chaines de Clé d'ordinateur Compilation … Courrier Etat de session Afficher les sites 


connexion éle. iq… 


@ q = Déployer @ 


> 1E a Exporter un package serveur... 


Fournisseurs  Globalisation …  Niveauxde Pages d'erreurs Pages et & Importer un package serveur 


UGS 
ma Modifier la version du .NET 
= “ Framework 


Paramètres Règles @ Aide 
d'application d'autorisation … Aide en ligne 


confiance .NET .NET contrôles 


FTP 


"® 


| Affichage des fonctionnalités [15 Affichage du contenu 
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Ensuite, ouvrez XAMPP et démarrez-les servies Apache et MySQL: 


|] XAMPP Control | 


Modules 
Service Module 


Apache 


MySQL 
FileZilla 


Mercury 
Tomcat 


43:42 [Apache] 
43:42 [Apache] 
3:42 [Apache] 
45:42 [Apache] 
43:42 [Apache] 
44:25 [Apache] 
44:25 [Apache] 
44:32 [mysql] 
44:32 [mysql] 


XAMPP Control Panel v3.2.1 


PID(s) Port(s) Actions 


4372 - 
GS [N 80,443 | Stop || Admin || Config | 


7304 3306 Admin _| [Config 


Start Admin Config ] 


Start Admin Config 


Start Admin Config ] 


improper privileges, a crash, or a shutdown by another method. 
Press the Logs button to view error logs and check 

the Windows Event Viewer for more clues 

If you need more help, copy and post this 

entire log window on the forums 

Attempting to start Apache app. 

Status change detected: running 

Attempting to start MySQL app... 

Status change detected: running 


Ouvrez ensuite votre navigateur préféré et tapez http://localhost. Vous devrez alors avoir: 


IC 


@ Web | localhost xampp X% || - Rechercher avec Google 


XAM PP for Windows English / Deutsch! Francais ; Nederland / Palski Italiano 


XAMPP 
1.8.2 
[PHP: 5,4,19] 


orwegian / Español RX, Português (Brasil) A#%A 


Welcome to XAMPP for Windows! 


Congratulations: 


You have successfully installed XAMPP on this system! 


Security Now you can start using äpache and Co. You should first try »Status« on the left navigation to make sure everything 
Documentation works fine, 


Components 


Applications For OpenSSL support please use the test certificate with httos://127.0.0.1 or https://localhost 


Php 


) 
CD Collection 
Biorhythm &pache Friends and BitNami are cooperating to make dozens of open source applications available on XAMPP, for free. 
Instant Art BitNami-packaged applications include Wordpress, Drupal, Joomla! and dozens of others and can be deployed with 
Phone Book one-click installers. Visit the BitNarmi XMPP page for details on the currently available apps. 


Perl 
perlinfo() 
Guest Book 


J2ee 
Info 
Tomcat examples 


Tools 
phpMy4dmin 
FileZilla FTP 
Webalizer 
MET 


Good luck, Kay Vogelgesang + Kai 'Oswald' Seidler 
Install applications on XAMPP using BitNami 
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et cliquez en bas à gauche de cette même page sur phpMyAdmin pour accéder aux bases de 
données et tables de MySQL: 


4 localhost / 127.0.0.1|p…. X 


+ + D 0 1 | Web | localhost/phpmyadmin/PMAURL-D:indexphp 


phpMyAdmin 127 001 


48e @ Bases de données  [} SOL (& État  #: Utilisateurs [& Exporter + plus 


(Tables récentes) | 


cdcol = Interclassement pour la connexion au serveur @) 
information_schema utf_general_ci 2 Serveur. 127.0.0.1 via TCP/IP 
mysql Type de serveur: MySQL 


performance_schema = Version du serveur: 5.5.32 - MySQL 
phpmyadmin DD A A FE OS Community Server (GPL) 
| test D eee SE pomme ee d Version du protocole: 10 
| testdatabase Utilisateur: root@localhost 


webauth & Langue - Language @ : [Français - French - Jeu de caractères du serveur: UTF-8 
U de (utf 
© Thème pmahomme + | HERBE) 

. Taille du texte: 182% x] 


# Plus de paramètres 


Apache/2.4.4 (Win32) 
OpenSSL0.9.8y PHP/5.4.19 

Version du client de base de 

données: libmysql - mysglnd 5.0.10 - 
20111026 - $ld 

e707 c415db32080b3752b232487 a438e 
$ 

Extension PHP: mysqli @) 


Ensuite, téléchargez le connecteur ODBC MySQL pour MS Windows à l'adresse suivante: 


http://dev.mysql.com/dogiiloads/connector/odbc/ 


BW ms0L : Download Co... x 
Ps 


Search 
Login | Register 


MySQL 


The world's most popular open source database 


CEE - 
Downloads Documentation E3 lw) Lite ] 


Developer Zone 


ärchives 


CR — Download Connector/ODBC 


MySQL Enterprise Edition 


Connector/ODEC is a standardized 


MySQL Cluster CGE datab driver for Windows, Linux, HER CON ERNRE 
software is provided under 


MySQL Community Server *, and Unix platforms the GPL License. 


RES 
MySQL Cluster Online Décumentaton: OEMs, ISVs and VARS can 


+ MySQL Connector/ODBC Installation purchase commercial 
Instructions, Documentation and licenses. 
Change History 


MySQL Workbench & Utilities 
MySQL Proxy 


MySQL Connectors 
Connector/ODBC 


Please report any bugs or inconsistencies you observe to our Bugs Database, 
Thank you for your support! 


Connector/Net 
Connector/l F 

/ Generally Available (GA) Releases Development Releases 
Connector/Python 


O  @ 


Une fois les drivers ODBC de MySQL téléchargés, ouvrez le gestionnaire ODBC de 
MS Windows et cliquez sur Ajouter: 
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Pilotes ODBC | Traçage (| Groupement de connexions ] À propos 
Sources de données utilisateur | Sources de données système | Sources de données fichier 


Sources de données utilisateur : 


Nom Pilote 
Microsoft Access Driver (* mdb, * acc 


AccessDataSet952003.mdb Driver do Microsoft Access (* mdb] 
dBASE Files Microsoft Access dBASE Driver (*.db 
Excel Files Microsoft Excel Driver (xls, “alex, *9 
MS âccess Database Microsoft Access Driver (*mdb, * acc 
Visio Database Samples Microsoft Access Driver (“mdb, “ acc 


Une source de données utilisateur ODBC stocke des informations relatives à 
la connexion du fournisseur de données spécifié. Elle est visible uniquement 
pour vous et sur cette machine. 


OK Annuler &ppliquer Aide 


Sélectionnez un pilote pour lequel vous souhaitez définir une source 
de données. 


Nom Version Société 


MySQL ODBC 5.2 8N< 5.02.06.00 Oracle Cx 
MySQL ODEC 5.2 Unicode Driver 5.02.06.00 Oracle Ci 
SQL Server 6.01.7601.17514 Microsoft 
SQL Server Native Client 10.0 2007.100.5500.00 Microsoft 
SQL Server Native Client 11.0 2011.110.2100.60 Microsoft 


«| 


< Précédent Terminer 


Cliquez sur Terminer et vous aurez alors une boîte de dialogue qu'il vous faudra remplir 
comme indiqué ci-dessous: 
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on 
Connector/ODBC 


Connection Parameters 


Data Source Name: localhost 


Description: 


@ TCP/IP Server: localhost Port: 3306 


(©) Named Pipe: 


User: 


Password: 


Database: L 


Cliquez sur le bouton Test: 


C Data Source Configuration 


in 


MySQL 
Connector/ODBC 


Connection Parameters 


Data Source Name: localhost 


@) TCP/IP Ser 


(©)  NamedP 


Us 


Database: 


Cu Ca 


Vous pourrez alors choisir la base de données disponible dans le serveur MySQL: 
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MySQL Connector, 
Ft 
Connector/ODBC 


Connection Parameters 


Data Source Name: localhost 


Description: 


© TCPjIP Server: localhost Port: 3306 
Named Pipe: 


User: 


Password: 


Database: | rl [e] 


cdcol 
information _schema 


performance_schema ancl | [Hp | 


phpmyadmin 
test 
testdatabase 
webauth 


Ici, nous avons pris empiriquement pour exemple la base de données installée par défaut avec 
MySQL et qui se nomme mysql. Nous validons par OK et revenons alors à: 


Pilotes ODBC I Traçage | Groupement de connexions I À propos 
Sources de données utilisateur | Sources de données système | Sources de données fichier 


Sources de données utilisateur : 


Nom Pilote Ajouter. 
AccessDataSet20072013.accdb Microsoft Access Driver (.mdb, * acc 


äccessDataSet952003.mdb Driver do Microsoft Access (* mdb] 

dBASE Files Microsoft Access dBASE Driver (“db 

Excel Files Microsoft Excel Driver (xls, “xlsx, *+ 
MySQL ODEC 5.2 ANSI Driver 

MS âccess Database Microsoft Ad\ess Driver (.mdb, “acc 

Visio Database Samples Microsoft Access Driver (.mdb, “acc 


| b 


Une source de données utilisateur ODBC stocke des informations relatives à 
la connexion du fournisseur de données spécifié. Elle est visible uniquement 
pour vous et sur cette machine. 


Appliquer ide 


Ensuite, nous retournons dans R et pour voir la liste des tables de la base de données, nous 
utilisons la commande sqlTables() du package RODBC (souvenez que ce package permet 
pas seulement de lire, mais aussi de modifier, créer des données dans la base! !!): 
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> library(RODBC) 

> channelDSN<- odbcConnect ("localhost") 

> sqlTables (channelDSN) 

TÈBLE CAT TABLE SCHEM TABLE NAME TABLE TYPE REMARKS 
mysql columns priv TABLE Column privileges 
mysql db TABLE Database privileges 
mysql event TABLE Events 
mysql func TABLE User defined functions 
mysql general_log TABLE General log 
mysql help category TABLE help categories 
mysql help_keyword TABLE help keywords 
mysql help relation TABLE keyword-topic relation 
mysql help topic TABLE help topics 
mysql host TABLE Host privileges; Merged with database privileges 
mysql ndh binlog index TABLE 
mysql plugin TABLE MySQL plugins 
mysql proc TABLE Stored Procedures 
mysql procs priv TABLE Procedure privileges 
mysql proxies priv TABLE User proxy privileges 
mysql servers TàBLE MySQL Foreign Servers table 
mysql slow _ log TABLE Slow log 
mysql tables _priv TABLE Table privileges 
mysql time _zone TABLE Time zones 
mysql time zone leap second TABLE Leap seconds information for time zones 
mysql time_zone_name TABLE Time zone names 
mysql time zone transition TABLE Time zone transitions 
mysql time zone transition type TABLE Time zone transition types 
mysql user TABLE Users and global privileges 


© -J o O4 © D h 


K 
Ÿ 


Nous pouvons aussi afficher les colonnes d'unê table donnée de la base. Ainsi, avec la 
commande sqlColumns(}) nous demandons à R de nous montrer la structure de la table 
columns_priv: 


library (RODEC) 

channelDSN<-odbcConnect ("localhost") 

sqlColurmns (channelDSN,"columns priv"})[,1:5] 

TABLE CAT TABLE SCHEM  TÂBLE NAME COLUMN NAME DATA TYPE 
<Ni> columns priv Host 
<Ni> columns priv Dh 
<Ni> columns priv User 
<Ni> columns priv Table name 
<Ni> columns priv Column name 
<Ni> columns priv Timestamp 
<Ni> columns priv Column priv 


1 
2 
3 
4 
5 
6 
7 
> 
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et pour lire le contenu de la table MySQL et la mettre dans un data frame, nous utilisons la 


commande sqlFetch( ) : 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


library(RODEC) 
channelDSN<-odhcConnect ("localhost") 


VVVY 


mydata 

Host 
localhost 
localhost 
localhost 
localhost 
localhost 
localhost 
localhost 
localhost 
localhost 
localhost 
localhost 


Db 
mysql 
mysql 
mysql 
mysql 
mysql 
mysql 
mysql 
mysql 
mysql 
mysql 
mysql 


User 
pra 
pra 
pra 
pa 
pra 
pra 
pra 
pa 
pra 
pa 
pra 


Table _ name 
user 
user 
user 
user 
user 
user 
user 
user 
user 
user 
user 


1 
2 
3 
4 
5 
6 
7 
E] 
9 


mydata<-sqlFetchichannelDSN,"columns priv") 


Column name 
Host 

User 

Select _priv 
Insert _priv 
Update _priv 
Delete_ priv 
Create _priv 
Drop _priv 
Reload_priv 
Shutdoun_priv 
Process priv 


Timestamp Column priv 


2012-06-18 
2012-06-18 
2012-06-18 
2012-06-18 
2012-06-18 
2012-06-18 
2012-06-18 
2012-06-18 
2012-06-18 
2012-06-18 
2012-06-18 


13 
13 
13 
13 
13 
13 
13 
13 
13 
13 
13 


DEA 
:26: 
:26: 
1:26: 
1:26: 
126: 
126: 
126: 
126: 
126: 
126: 


21 
21 
21 
21 
21 
21 
21 
21 
21 
21 
21 


Select 
Select 
Select 
Select 
Select 
Select 
Select 
Select 
Select 
Select 
Select 


2012-06-18 
2012-06-18 


13 
13 


126: 
:26: 


21 
21 


Select 
Select 


localhost 
localhost 


mysql 
mysql 


pra 
pra 


user 
user 


File _priv 
Grant_priv 


Il existe encore d'autres nombreuses possibilités comme de faire des requêtes en SQL 
directement sur les tables de votre choix maïs pour cela vous pouvez vous référer au PDF du 
package RODBC qui contient des exemples très bien fait. 


Sinon il y a aussi le package RMySQL comme éflustre l'exemple ci-dessous: 


GR RGui (32-bit}) - [R Console] 
R Fichier 


Edition Misc Aide 


BAE 


Voir Packages Fenêtres 


> library("RMySQL") "4 
> con<-dbConnect (MySQL () ,user="root",password="",dbname="mysql",host="localhost") 
> dbListTables (con) 


[1] "columns priv" "db" "event" $ 
[5] "general log" “help_category" "help_keyword" $ 
[9] "help topic" "host" "ndb_binlog_index" $ 
[131 “proc” "procs priv" “"proxies priv" $ 
[17] "slow _ log" "tables priv" “time zone" $ 
[21] "time zone name" “time zone transition" "time zone transition type" $ le 


> fextraire les données d'une des tables 
> dbGetQuery(con, "SELECT * FROM columns priv") 


Host Db User Table name Column_ name Timestamp Column_ priv 
1 localhost mysql pma user Host 2012-06-18 13:26:21 Select 
2 localhost mysql pma user User 2012-06-18 13:26:21 Select 
3 localhost mysql pma user Select_priv 2012-06-18 13:26:21 Select 
4 localhost mysql pma user Insert _priv 2012-06-18 13:26:21 Select 
S localhost mysql pma user Update priv 2012-06-18 13:26:21 Select 

6 localhost mysql pma user Delete priv 2012-06-18 13:26:21 Select 
7 localhost mysql pma user Create priv 2012-06-18 13:26:21 Select 
8 localhost mysql pma user Drop_priv 2012-06-18 13:26:21 Select 
9 localhost mysql pma user Reload priv 2012-06-18 13:26:21 Select 
10 localhost mysql pma user Shutdown_priv 2012-06-18 13:26:21 Select 
11 localhost mysql pma user Process priv 2012-06-18 13:26:21 Select 
12 localhost mysql pma user File priv 2012-06-18 13:26:21 Select 
13 localhost mysql pma user Grant _priv 2012-06-18 13:26:21 Select 
14 localhost mysql pma user References priv 2012-06-18 13:26:21 Select 
15 localhost mysql pma user Index priv 2012-06-18 13:26:21 Select 
localhost mysql pma user Alter priv 2012-06-18 13:26:21 Select 
Ti | L 

—————— 
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Avec ce package on fermer la connections de la manière suivante: 


GR RGui (32-bit) - [R Console] 


R Fichier Edition Voir Misc Packages _ Fenêtres Aide 
GE 


> library("RMySQL") 

> con<-dbConnect (MySQL () ,user="root",password="", dbname="mysql",host="localhost") 
> lapply(dbListConnections( dbDriver( drv = "“MySQL")), 
[(1]] 

[1] TRUE 


dbDisconnect) 


W 
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Exemple 60.: Importer des données d'un serveur Oracle 


Express 
R 3.0.2 


Nous allons donc supposer qu'Oracle Express 10g est installé®: 


Le-]L-é-/0Es) 
[7 \ ca 
@S ©] http://127.0.01:8080/apex/f?p=4950:1:125384577154569 © + à C | Fi Home x À 
ORACLE: Oracle Database XE 11.2 
Storage Sessions Parameters Application Express 
Link 
View currently used storage. > Online Help 
> Learning Library 
Sessions > Oracle Technology Network 
View current database sessions. > Oracle SQL Developer 
> Oracle Express Edition 
Parameters > Oracle Application Express 
View initialization parameters. > Oracle JDeveloper 11g 
> Pre-built Developer VMs 
Application Express Application Express > 
Get started with Oracle Application Express. 
News OTN News 
Language: English, Português (Brasil), +Xx ($£) ,E+4% 
CC > 


Pour la démo nous utiliserons le compte système (dont le nom est system et le mot de passe 
demandé par l'installateur d'Oracle Express lors de. l'installation). 


Une fois donc constaté le démarrage d'Oracle Express, nous ouvrons l'application ODBC de 
MS Windows: 


8 Si l'icône d'Oracle Expresse ne fonctionne pas, tapez le lien suivant: http://127.0.0.1:8080/apex/f?p=4950 
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Microsoft Access dBASE Driver (*.dbf, * ndx, * 
Microsoft Excel Driver (ds, *xsx, “xs, “xls 
Microsoft Access Driver (* mdb, * accdb) 

Visio Database Samples Microsoft Access Driver (* mdb, * accdb) 


Une source de données utilisateur ODBC stocke des infommations relatives à 
pour vous et sur cette machine. 


CR Cane Ce Ca 


Nous cliquons sur Ajouter...: 


Sélectionnez un pilote pour lequel vous souhaitez définir une source 
de données. 


Nom Version * 
Microsoft Text Driver (bt: * csv) 6.01.760° 
Microsoft Text-Treiber (bd; *.csv) 6.01.760° 
Microsoft Visual FoxPro Driver 1.00.02.0 
Microsoft Visual FoxPro-Treiber 1.00.02.0 


11.02.00. 
6.01.760° 


Nous choisissons le pilote Oracle in XE et cliquons sur Terminer et nous remplissons la 
boîte de dialogue qui apparaît comme ci-dessous: 
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Data Source Name Oracle Express 


Description 


TNS Service Name 


User ID 


Application | Oracle | Workarounds | SQLServer Migration 


Enable Result Sets W| Enable Query Timeout [Y! 


Enable Closing Cursors ||  Enable Thread Safety [V! 


Batch Autocommit Mode Commit onby f all statements succeed % 
Numeric Settings Use Oracle NLS settings SA 


Nous cliquons ensuite sur Test Connection. Le nom de la base ainsi que le compte et la 
password d'accès ava alors nous être demandé: 


| Oracle ODBC Driver Configuration 


Data Source Name Oracle Express 
De ” 


TNS Service Name |. Cevice Name 


RE 


User Name 


system 
f 


Nous validons par OK pour obtenir un succès de la connexion: 


Oracle ODBC Driver Configuration 


Data Source Name Oracle Express 


Description 


TNS Service Name 


Batch Autocommit Mode 


Numerc Settings [Use Oracle NLS settings - 
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Nous validons encore par OK pour revenir à: 


Microsoft Access dBASE Driver (*.dbf, * ndx, * 
Microsoft Excel Driver (*2ds, * xisx, * xism, * xls 
Microsoft Access Driver ( mdb, * accdb) 
Oracle Express Oracle in XE 
Visio Database Samples Microsoft Access Driver ( mdb, * accdb) 


à Une source de données utilisateur ODBC stocke des infomations relatives à 
la connexion du foumisseur de données spécifié. Elle est visible uniquement 
0 pour vous et sur cette machine. 


Con Cane) Cane 


et encore une dernière fois par OK. 


De retour dans R, nous chargeons la libraire RODBC (souvenez que ce package ne permet 
pas seulement de lire, mais aussi de modifier, créér des données dans la base!!!), regardons le 
nombre de tables dans la base par défaut associée au compte système (nous affichons 
seulement les dix premières tables) et nous faisons une requête sur une des tables: 


R File Edit View Misc Packages Windows Help 
EBROISECBIEIE 


| > sqlTables (channelDSN)[1:10,] 

TABLE CAT TABLE SCHEM TABLE NAME TABLE TYPE REMARKS 
<NA> APEX 040000 APEX ACTIVITY LOG SYNONYM <NA> 
<NA> APEX 040000 APEX APPLICATION FILES SYNONYM <NA> 
<NA> APEX 040000 APEX COLLECTIONS SYNONYM <NA> 
<NA> APEX 040000 APEX FEEDBACK TYPES SYNONYM <NA> 
<NA> APEX 040000 APEX MAIL ATTACHMENTS SYNONYM <NA> 
<NA> APEX 040000 APEX MAIL LOG SYNONYM <NA> 
<NA> APEX 040000 APEX MAIL QUEUE SYNONYM <NA> 
<NA> APEX 040000 APEX _ PLSQL JOBS SYNONYM <NA> 
<NA> APEX 040000 APEX USER ACCESS LOG SYNONYM <NA> 

0 <NA> APEX 040000 DBA ARGUMENTS SYNONYM <NA> 
> sqlQuery(channelDSN, "SELECT Sys Context ("'USERENV','DB NAME') AS DB FROM DUAL") 
DB 


1 
2 
3 
4 
5 
6 
= 
8 
9 
1 


bingo! 
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Exemple 61.: Importer des données d'un serveur Postgre SQL 


R 3.6.0 


Pour l'exemple nous supposerons que le lecteur aura téléchargé et installé PostgreSQL: 


_— | 
SP PostgreSQL: Downloads  X | + v _ O X 


< 88 à postgresal.org S>Q 


14th February 2019: PostgreSQL 11.2, 10.7, 9.6.12, 9.5.16, and 9.4.21 Released! 


SZ Quick Links 


D oc Downloads 

o Binary 

o Source 
o Software Catalogue 
° File Browser 


# Downloads & 
© PostgreSQL Core Distribution 


The core of the PostgreSQL object-relational database management system is available in several source and binary 
formats. 


Binary packages 


Avec le module suivant activé lors de l'assistant d'installation: 


#3 Stack Builder 4.1.0 


Please select the applications you would like to install, 


ae ! [7 EDB Language Pack v10-6 
: [7 pgAgent v3.4.0-3 


.…[T PostgreSQL (32 bit) v9.4.22-1 


if PostgreSQL (32 bit) v9.5.17-1 


The official PostgreSQL ODEC driver (64bit version). Packaged by EnterpriseDB. 
Source code download: http://www.enterprisedb.com/products/download.do 


__<Ba [ next> ] | Cancel 
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Une fois l'installation terminée, lancez pgAdmin via le menu démarrer: 


PostgreSQL 10 
Application Stack Builder 
Installation notes 
pgAdmin 4 
pgAdmin documentation 
PostgreSQL documentation 


PostgreSQL release notes 


Reload Configuration 


SQL Shell (psql} 


Constatez qu'il existe déjà une base de données nommée postfgres et un utilisateur nommé 
postgres sur la page qui apparaît alors à l'écran (c'est important pour la suite!): 


CAdmin Filev Objectv Toolsv Helpv 


Browser Dashboard Properties SQL Statistics Dependencies  Dependents x 
Y = Servers (1) 


« Server sessions Transactions per second 
v GP PostgreSQL 10 
Y © Databases (1) 7.0 6.0 
Total Mrransactions 
Es]  ‘J# s0 
ti t 
v <à Login/Group Roles (6) 5.0 Acte 4.0 (mCommits 
| 40 Midie mRollbacks 
#àpg-monitor 3.0 
#àpg-read_all_settings ni 20 
éapgread_all-stats : : an 
£àpg-signal_backend do 0.0 
#àpg-stat_scan_tables : 
Tuples in Tuples out Block 1/0 
> fs Tablespaces 1.00 1500 2000 
Minserts 1250 retched MReads 
MUpdates Mreturned 1500! |BHits 
MDeletes 10e 
0.50 750 1000 
500 
500 
250 
0.00 0 0 
Server activity 
Sessions  Locks  Prepared Transactions Configuration Q Search Le] 
PID Database User Application Client Backend start State Wait event Bla 
© M» 2956 postgres postgres pgAdmin 4 -DB:postgres ::1 2019-06-10 21:26:47 CEST active 
Om» 3608 postgres 2019-06-10 21:21:41 CEST Activity: LogicalLauncherMain 


Pour les besoins, nous allons créer une nouvelle base de données avec un contenu utilisable 
pour R. Pour cela, nous faisons un clic droit sur Database et choisissons l'option 
Create/Database...: 
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[JA dmin Filev Objectv Toolsv Help 
Browser Dasl 


v © Servers (1) G 
v (E} PostgreSQL 10 & 
v © Databases /1) | 


TE 


v “à Login/C 


1 
pq | Refresh.. E 
à pg_read_all_settings 3 
#àpg_read_all_stats 4 
à pg-signal_backend c 
éàpg-stat_scan_tables 6 
& postgres 7 
Dans la fenêtre qui apparaît, mettez le nom de Database suivant: 

æ Create - Database x 

General Definition Security Parameters SQL 

Database l dvdrental| x 

Owner A, postgres v 

Comment 


il 7? x Cancel € Reset 


Et validez par Save. Une fois ceci fait, faites un clic droit sur la base de données dvdrental et 
choisissez Restore dans le menu contextuel: 
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Admin 


Browser 


File v 


v Æ Servers (1) 
v Œ} PostgreSQL 10 
v % Databases (2) 
v © dvdrental 
> casts 
> ® Catalogs 
> (C Event Triggers 
> Extensions 
>= Foreign Data Wrapf 
> ©} Languages 
> % Schemas 
> © postgres 
v <b Login/Group Roles (6) 
à pg-monitor 
à pg-read_all_settings 
éàpg-read_all_stats 
à pg-signal_backend 
éàpg-stat_scan_tables 


Object + 


Sciences.ch 
Toolsv Helpv 
; Dashbo. 
& 
L 
| Query E 
Create > 
Refresh... 
Delete/Drop 
CREATE Script 


Disconnect Database... 
Maintenance. 
Backup... 

Grant Wizard... 

Query Tool... 
Properties. 


Allez télécharger la base de données d'exemple de Postegresql disponible via le lien suivant: 


http://www.postsresgltutorial.com/postgresql-sample-database/ 


Dont le schéma relationnel est résumé ci-dessous: 


“CO 
category 
* category_id * inventory_id * customer_id 
name film_id store_id 
last_update Store_id first_name 
last_update last_name 
email 
address_id 
(0) activebool 
create_date 
film_category last_update 
*film_id * rental_id active 
* category_id rental_date 
last_update inventory_id 
customer_id S 
+ retum_date 
tante 
film * address_id 
“Him address 
title 
description 
release_year city_id 
language_id postal_code 
rental_duration phone 
rental_rate last_update 
length 
replacement_cost 
rating 
last_update 
special_features 
fulltext 
Y 
® a 
first_name 
last_name 
address_id 
language one 
" Te id : moe 
4, active 
name username 
last_update password 
last_update 
picture 
ar — 
actor_id : 
*fim id * actor_id 
last_update first_name manager_staff_id Le 
last_name address_id 
last_update last_update 
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Décompressez le fichier *.zip téléchargé précédemment et conservez le fichier *.tar en 
résultant comme visible ci-dessous dans l'explorateur Microsoft Windows: 


LT M ! | + | Downloads 
Home Share View 


+ + ® À > ThisPC > Downloads 
Name 
# Quick access 
EM Desktop # Y Today (2) 
L Download + E dvdrental 


[ dvdrental.tar 
Ê Documents # 


De retour dans pgAdmin, sélectionnez le bouton .… à la hauteur du champ Filename: 


General Restore options 
Format Custom or tar Y 
Filename | [-] 
Number of jobs 
Role name Select an item LU 

i ? 


x Cancel 


Apparaît alors la boîte de dialogue suivante, où vous devrez naviguer jusqu'au dossier où vous 


avez décompressé le fichier *.zip, et sélectionner l'option All files (sinon quoi vous ne verrez 
pas le fichier *.tar): 


# 1  C:\Users\WDAGUtilityAccount\Downloads\ c'e +4 ses |s# le | 
Name + Size + Modified + 
B dvdrental.tar 2.7 MB Mon Jun 10 21:53:18 2019 
F dvdrental.zip 538.0 KB Mon Jun 10 21:53:09 2019 


Show hidden files and folders? Format 
Bsciect | 


x Cancel 
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Validez par Select et vous revenez alors à: 


Restore (Database: dvdrental) 


General Restore options 


Format 
Filename 
Number of jobs 


Role name 


Custom or tar 


C:\Users\WDAGUtilityAccount\Downloads\dvdrental.tar 


Select an item... 


x Cancel +, Restore 


Cliquez sur Restore et alors toutes les tables seront importées (un exemple est donné avec la 
table customer dans la capture d'écran ci-dessous): 


ŒAdmin Filev Objectv Toolsv Helpv 


Browser 
v E Servers (1) 
v f}PostgresQL 10 
v © Databases (2) 
v © dvdrental 
> Gicasts 
> % Catalogs 
> (C Event Triggers 
> Extensions 
> % Foreign Data Wrappers 
> ©) Languages 
v % Schemas (1) 
v © public 
> À Collations 
> à Domains 
> (à FTS Configurations 
> [RFTS Dictionaries 
> AaFTS Parsers 
> [E)FTS Templates 
> [FX Foreign Tables 
> {E)Functions 
> [Materialized Views 
> *3Sequences 
v Tables (15) 
> Factor 
> address 
> Æcategory 
> Æcity 
> Æcountry 


LAIL:IIR d 


&'B|v 


2 


| Query Editor 


Dashboard Properties 
a + 


4 


Query History 


« DataOutput  Explain 
EE ————— 


4 [PK] integer 
1 524 
2 1 
3 2 
4 3 
5 4 
6 5 
7 6 
8 7 
9 8 
10 9 
11 10 


customer_id store id 


smallint 


SQL 


Le) 


Messages 


nislnin||n||n | ||! 


1 SELECT + FROM public.customer 


Statistics  Dependencies Dependents  #postgres/postgr…  #Yblasql* Æj€ + x 
2, Sv/|v|v/[Nolimt v||m|#v 8 = +2 l 2e) 2vl) 2 
8 
Scratch Pad x 
Notifications 
first_name last name ‘email address_id activebot 
character varying (45) character varying (45) character varying (50) smallint boolean 
Jared Ely jared.ely@sakilacustomer.… 530 true = 
Mary Smith mary.smith@sakilacusto.. 5 true 
Patricia Johnson patriciajohnson@sakilac.. 6 true 
Linda Williams linda.williams@sakilacust.. 7 true 
Barbara Jones barbara jones@sakilacust.. 8 true 
Elizabeth Brown elizabeth.brown@sakilacu... 9 true 
Jennifer Davis jennifer. davis@sakilacust... 10 true 
Maria Miller maria.miller@sakilacusto... 11 true 
Susan Wilson susan.wilson@sakilacust.. 12 true 
Margaret Moore margaret.moore@sakilac... 13 true 
Dorothy Taylor dorothy.taylor@sakilacust.. 14 true 
Lisa Anderson lisa.anderson@sakilacust... 15 true 


Maintenant, nous pouvons retourner à R avec le package RPostgresSQL et ses fonctions 
dbDriver( ), dbConnect( ) pour nous connecter au serveur comme visible ci-dessous: 
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R RGui (64-bit) - [R Console] — O X 


AR File Edit View Misc Packages Windows Help - nm x 


> library("RPostgreSQL") 

drv <- dbDriver ("PostgreSQL") 

con <- dbConnect (drv,dbname="dvdrental",host="localhost",port=5432, 
user = "postgres", password = "password") 


Une fois la connexion effectuée, nous utilisons la fonction dbExistsTable( ) pour vérifier que 
la table customer existe et enfin nous utilisons la fonction dbGetQuery( ) pour y lancer une 
requête: 


R RGui (64-bit) - [R Console] = Ü X 
R File Edit View Misc Packages Windows Help 8 x 


SERGE EE 


> #on vérifie que la table customer existe 

> dbExistsTable(con, "customer") 

[1] TRUE 

> #on lance une requête dessus 

> df_postgres<-dbGetQuery(con, "SELECT * FROM customer") 
> #on affiche les 10 premières lignes 

> head(df_postgres,10) 


customer_id store id first name last_name email address _id activebool create date last_update active 
1 524 LA Jared Ely jared.ely@sakilacustomer.org 530 TRUE 2006-02-14 2013-05-26 14:49:45 1 
2 a 1 Mary Smith mary.smith@sakilacustomer.org 5 TRUE 2006-02-14 2013-05-26 : 1 
3 2 1 Patricia Johnson patricia.johnson@sakilacustomer.org 6 TRUE 2006-02-14 2013-05-26 1 
4 3 1 Linda Williams linda.williams@sakilacustomer.org L TRUE 2006-02-14 2013-05-26 1 
5 4 2 Barbara Jones barbara.jones@sakilacustomer.org 8 TRUE 2006-02-14 2013-05-26 n À 
6 5 1 Elizabeth Brown elizabeth.brown@sakilacustomer.org s TRUE 2006-02-14 2013-05-26 1 
7 6 2 Jennifer Davis jennifer.davis@sakilacustomer.org 10 TRUE 2006-02-14 2013-05-26 1 
8 ri 1 Maria Miller maria.miller@sakilacustomer.org 11 TRUE 2006-02-14 2013-05-26 1 
g 8 2 Susan Wilson susan.wilson@sakilacustomer.org 12 TRUE 2006-02-14 2013-05-26 1 
10 gs 2 Margaret Moore margaret.moorefsakilacustomer.org 13 TRUE 2006-02-14 2013-05-26 » 


> #on se déconnecte 
> dbDisconnect (con) 
[1] TRUE 

>| 


Et enfin, nous avons fermé la connexion avec la fonction dbDisconnect( )! 
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Exemple 62.: Importer des données d'un serveur Microsoft 


SQL Server Express 
R 3.6.0 


Pour l'exemple nous supposerons que le lecteur aura téléchargé et installé Microsoft SQL 
Server Express: 


Téléchargements SQL Sen X + 


C #8 | vww.microsoft.com/fr-fr/sql-server/sql-sen 


ss Oo 

Q [To 4 

SQL Server 2017 local SQL Server dans le 
88 

cloud 

Dé Créez des applications intelligentes à l'aide d'une Profitez de la disponibilité élevée intégrée, de la 

plateforme de données hybride, évolutive pour les sécurité et de l'intelligence d'Azure SQL Database et 
(a scénarios d'usage exigeants. Commencez votre essai utilisez le moteur SQL familier, sans subir la complexité 
, gratuit de 180 jours de SQL Server 2017 sous Windows. d'une gestion de l'infrastructure. Commencez à utiliser 
(Q] SQL Database gratuitement dans Azure. 


Télécharger la version d'évaluation gratuite Démarrer gratuitement » 
Ÿ 


Ou téléchargez une édition spécialisée gratuite 


Developer Express 
SQL Server 2017 Developer est une édition gratuite SQL Server 2017 Express est une édition gratuite de 
comprenant toutes les fonctionnalités, cédée sous SQL Server, idéale pour le développement et la 
licence pour être utilisée comme base de données production d'applications de bureau, d'applications 
de développement et de test dans des web et de petites applications serveur. 


environnements non dédiés à la production. 


Télécharger maintenant L Télécharger maintenant Ÿ 
v 


Ainsi que Microsoft SQL Server Management Studio: 
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Download SQL Server Man X + 


C 88 docs.microsoft.com/en-us/sqal/ssms/download-sql-server-management-studio-ssms 


- Download SSMS 18.1 


SQL Server 2017 v 


© Filter by title SSMS 18.1 is now available, and is the latest general availability (GA) version of 
| SQL Server Management Studio that provides support for SQL Server 2019 
> Database Tuning Advisor (DTA) " : 
a preview! 
de > Distributed Replay 
> SQL Server Configuration Manager © Download SQL Server Management Studio 18.1 


> SQLCMD 


SSMS 18.1 is the latest general availability (GA) version of SSMS. If you have SSMS 
> SSB Diagnose 


8 18.0 (GA) installed, installing SSMS 18.1 upgrades it to 18.1. If you have an older 
> SQL Server Data Tools (SSDT) preview version of SSMS 18.0 installed, you must uninstall it before installing SSMS 

(@) * SQL Server Management Studio 18.1. 

(SSMS) 
FE) Version Information 

Download SSMS 

© Release Notes ° Release number: 18.1 

> Overview ° Build number: 15.0.18131.0 


> Quickstarts ° Release date: June 11, 2019 


> Tutorials If you have comments or suggestions, or you want to report issues, the best way to 
> Concepts reach out to the SSMS Team is at UserVoice. 
> How-to 


The SSMS 18.x installation does not upgrade or replace SSMS versions 17.x or 
earlier. SSMS 18.x installs side by side with previous versions so both versions are 
? Resources available for use. 


> References 


> SalPackage.exe 
If a computer contains side by side installations of SSMS, verify you start the 


correct version for your specific needs. The latest version is labeled Microsoft SQL 
Server Management Studio 18 


> SQL Server Profiler 
> Visual Studio native helpers 
> Tutorials 
> SQL Server on Linux v 


Available Languages (SSMS 18.1) 


This release of SSMS can be installed in the following languages: 
Q°" 


} Download PDF 


v 


Une fois tout cela installé, ouvrez SQL Server Management Studio et faites un clic droit sur 
Databases et choisissez l'option Restore Database dans le menu contextuel: 


M; Microsoft SQL Server Management Studio 
File Edit View  Debug Tools Window Help 


h | # - à ut | À New Query ERERA| à -|n| 


Connect # *# Ô 4h 
a &R ALIENWAREISOZ\SQLEXPRESS (SQL Server 14.0.2014 - 


+] 


H 


Restore Files änd Filegroups... 


+] 


#] 


Deploy Data-tier Application... 


æ) 


[1] XEven Import Data-tier Application. 


[3] 


Start PowerShell 


Reports 


Refresh 
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Activez le bouton radio en face de Device et cliquez sur le buton ...: 


Restore Database - 


€ No backupset selected to be restored. 
LT Script - | @ Help 


Source 
© Database: 


©bevce 


Database: 


Destination 


Database: 
Restore to: 


Restore plan 
Backup sets to restore: 
Restore Name Component Type Server Database Position First LSN Last LSN  Checkpoint LSN Full LE 


Connection 
#7 ALIENWAREISOZ\SQLEXPRES 
S [AienwarelSOZ\Vincent |soz] 


View connection properties 
Progress 


Apparaît alors la boîte de dialogue suivante où on cliquer sur Add! 


Specify the backup media and its location for your restore operation. 


Backup media type: File v 
Backup media: 
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Et naviguez jusqu'au dossier où se trouve le fichier SOL_Server_ContosoRetailDW.bak qu'on 
vous donné pour le cours: 


= Locate Backup File - ALIENWAREISOZ\SQLEXPRESS 

Backup Fi bone CA | | - 
©. C: D Scripts 

5-0 D: 

+ 


M System Volume Infomation 
- E D SQL_Server_ContosoRetailDW .bak 


File name: |SQL_Server_ContosoRetailDW bak | Backup Files( bak:"tm:" log) 


| OK = Cancel 


Select a page © Script + | @ Help 
# General 
# Files 
# Options Source 
© Database: 
© Device: E:\SQL_Server_ContosoRetailDWbak | 
Database: |ContosoRetaiDW S| 
Dons 
Database: ContosoRetailDW 6 
Restore to [The last backup taken (Monday. Juiy 6, 2015 13:46:13 PM) Timeine.… | 
Database Position First 
HARRY\SQL2012  ContosoRetailDW 1 619! 
Connection 
9 ALIENWAREISOZ\SQLEXPRES 
S [AienwarelSOZ\Vincent Isoz] 
View connection erties 
Progress 
| 
2 se 
| Venfy Backup Media | 
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Et encore une fois on valide par OK, et on y voit alors: 


Pr Microsoft SQL Server Management Studio 
File Edit View  Debug Tools Window Help 


x | lé ïé É a sit | dà New Query ÊË HOX DMX 1 Dai | Ü > d 


Connectr # *F À + 
E u ALIENWAREISOZ\SQLEXPRESS (SQL Server 14.0.201 


E 0 Databases 
Œ M System Databases 


Database Snansho 
Œ] Database Diagrams 
E M Tables 
Bn System Tables 
 FileTables 
En External Tables 
M Graph Tables 
F4 dbo.DimAccount 
F& dbo.DimChannel 
FE dbo.DimCurrency 
FE dbo.DimCustomer 
F& dbo.DimDate 
FA dbo.DimEmployee 
F3 dbo.DimEntity 
F3 dbo.DimGeography 
Æ& dbo.DimMachine 


nm. mn 


CCR CRC CRC CRC CCR CRC) 


Maintenant dans Microsoft Windows, on ouvre le gestion de sources ODBC: 


Vincent Isoz Fi 


Programs > 


Apps > 


EMI This PC 
C Settings > 
J> Search P| + Programs (1) 
ss 15] Run... > Settings (2) 
L Log Off Vincent Isoz... 5 ODBC Data Sources (64-bit) 
d Q Shut Down... >| 2e: Set up ODBC data sources (64-bit) 
= X | J See more results 
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Et dans la boîte de dialogue qui apparaît, dans l'onglet User DSN, on clique sur le bouton 
Add...: 


En on - “r = 
 ODBEC Data Source Administrator (64-bit) 


User DSN System DSN File DSN Drivers Tracing Connection Pooling About 


User Data Sources: 
dBASE Files 32-bit Microsoft dBase Driver (*.dbf) 
Excel Files 32bit Microsoft Excel Driver (* xls) Remove 
MS Access Database  32-bit Microsoft Access Driver (* mdb} 
Qlik-apache-hive N/A installed Configure… 


Qlik-apache-phoenix N/A installed 
Qlk-apache-spark N/A installed 


Qlk-azure_sql N/A installed 
Qlik-db2 N/A installed 
Qlik-drill N/A installed 
Qlik-aba N/A installed Mi 


The driver of this User DSN only has a 32-bit version available. t can only be removed or configured 
EE) with the 32-bit ODBC Data Source Administrator 


| OK || Cancel Appy Hep | 


Et dans la boîte de dialogue qui apparaît alors, on sélectionner SOL Server et on clique sur le 
bouton Finish: 


Create New Data Source 


Select a driver for which you want to set up a data source. 


Name Version 


ODEC Driver 11 for SQL Server 2014.120.2000.08 
BC. Driver, 13 for SQL Server 2017.140.2014.14 
10.00.18362.01 
SQL Server Native Client 11.0 2011.110.6540.00 
SQL Server Native Client RDA 11.0 2011.110.5069.66 
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Sciences.ch 


Apparaît la boîte de dialogue alors suivante que l'on remplira comme indiqué et où on 


sélectionnera le nom du serveur installé précédemment: 


Create a New Data Source to SQL Server 


connect to SQL Server. 
What name do you want to use to refer to the data source? 


This wizard will help you create an ODBC data source that you can use to 


4 Name: [SQL Server Express 


How do you want to describe the data source? 


Which SQL Server do you want to connect to? 


ALIENWAREISOZ\SQLEXPRESS 


Description: |Démo 


On clique alors sur Next: 


Create a New Data Source to SQL Server 


How should SQL Server vernfy the authenticity of the login ID? 


©) With Windows NT authentication using the network login ID. 


£ Q With SQL Server authentication using a login ID and password 
entered by the user. 


To change the network library used to communicate with SQL Server, 


to er to obtain settings for 
pa Connect SQL Server to obtain default forthe 
additional configuration options. 
oain [D: [Vincent Isoz 


Password 


a 


Et encore sur Next: 
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| Create a New Data Source to SQL Server 


| [] Change the language of SQL Server system messages to: 

| English Y 

| : [.] Use strong encryption for data 

| M1 Perfom translation for character data 

| [A Lee regional settings when outputting curency, numbers, dates and 

times. 

| [] Save long running queries to the log file: 

C:\Users\Vincent Isoz\AppData\Local\Temp\QUEF Browse. 
Long query time (miliseconds): 20000 


[] Log ODBC driver statistics to the log file: 
C:\Users\Vincent |soz\AppData\Local\Temp\STAT Browse … 


a CET ee 


Et encore sur Next pour arriver à: 


| ODBC Microsoft SQL Server Setup 


Anew ODEC data source will be created with the following 
configuration: 


Microsoft SQL Server ODBC Driver Version 10.00.18362 


Data Source Name: SQL Server Express 
Data Source : Démo 
Server: ALIENWAREISOZ\SQLEXPRESS 


On cliquer sur Test Data source pour s'assurer que tout s'est bien passé: 
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Test Results 


Running connectivity tests … 


TESTS COMPLETED SUCCESSFULLY! 


Et là on a une bonne nouvelle (ce qui n'est de loin pas toujours le cas...) Et on valide deux 
fois par OK pour revenir à: 


nm EE ù ü a a e À 
y) ODEC Data Source Administrator (64-bit) 


User DSN System DSN File DSN Drivers Tracing Connection Pooling About 


User Data Sources: 
Name Platfom Driver à Add... 
Qlik-oracle N/A installed 
Qlik-postgres N/A installed Remove 
Qlik-presto N/A installed 
Qlik-edshift N/A installed Configure… 
Qlik-sybase N/A installed 
SQL Server Express 32/64bit SQL Server 
TEMPODSNO 32-bit Microsoft Access Driver (* mdb) 
Visio Database Samples 32-bit Microsoft Access Driver (* mdb, * accdb) 
v 
< > 


The driver of this User DSN only has a 32bit version available. it can only be removed or configured 
E with the 32-bit ODBC Data Source Administrator 


OK || Cancel App il |  Hebp 


Et on valide par OK pour finaliser le tout. On revient alors à R et on utilise le package 
RODBC, que l'on connaît déjà, et ce de la manière suivante: 
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R ! 64-bit) - [F nsole] 
R File Edit View Misc Packages Windows Help _s x 


ÉGROBCSIOE) 


> library ("RODBC") 
> con<-odbcConnect ("SQL Server Express") 
> mydata<-sqlQuery (con, "SELECT * FROM FactSales") 
> head(mydata) 
SalesKkey DateKey channelKey StoreKey ProductKey PromotionKey CurrencyKey UnitCost 
ni 1 2007-01-02 1 209 956 10 1 91.05 
2 2 2007-02-12 4 308 766 2 1 10.15 
3 3 2008-01-24 1 156 1275 11 1 209.03 
E 4 2008-01-13 2 306 1429 10 1 132.90 
5 5 2008-01-22 2 306 1133 10 1 144.52 
6 6 2007-07-02 3 200 2365 3 1 183.94 
UnitPrice SalesQuantity ReturnQuantity ReturnAmount DiscountQuantity DiscountAmount 
1 198.00 8 0 0 1 39.600 
2 19.90 4 0 0 1 0.995 
3 410.00 9 0 0 3 61.500 
4 289.00 8 0 0 1 57.800 
S 436.20 24 0 (e) 3 261.720 
6 399.99 36 0 0 10 399.990 
TotalCost SalesAmount ETLLoadID LoadDate UpdateDate 
1 728.40 1544.400 1 2010-01-01 2010-01-01 
 - 40.60 78.605 1 2010-01-01 2010-01-01 
3 1881.27 3628.500 1 2010-01-01 2010-01-01 
- 1063.20 2254.200 1 2010-01-01 2010-01-01 
s 3468.48 10207.080 1 2010-01-01 2010-01-01 
6 | 6621.84 13999.650 1 2010-01-01 2010-01-01 
> 


Attention!!! Dans certains cas il faut ajouter un paramètre supplémentaire (rows_at_time) 


pour que cela marche: CS 
MR RGui (64-bit) - [R Console] — O X 
ŒR File Edit View Misc Packages Windows Help FX 
El] 
> library("RODBC") 
> con<-odbcConnect ("SQL Server Express", 
> mydata<-sqlQuery(con,"SELECT EmployeelIlD, LastName, FirstName FROM Employees") 
> mydata 
EmployeeIlD LastName FirstName 
l 1 Davolio Nancy 
2 2 Fuller Andrew 
3 3 Leverling Janet 
4 4 Peacock Margaret 
5 5 Buchanan Steven 
6 6 Suyama Michael 
7 7 King Robert 
8 8 Callahan Laura 
g | 9 Dodsworth Anne 
> 
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Exemple 63.: Extraire le schéma relationnel d'un BDD 
R 3.0.2 


Le package que nous allons utiliser n'est pas au jour où nous écrivons ces lignes disponible 
sur le CRAN. Voici sa documentation: 


https://github.com/bergant/datamodelr 


On l'installera comme à l'habitude avec tout package sur github avec devtools: 


R File Edit View Misc Packages Windows Help =: 


ÉSOBCeCE 


> devtools::install github("bergant/datamodelr")library (datamodelr)| 


Pour la démo changez la base de données par défaut du connecteur SQL Server: 


| Change the default database to: 


| Ca Northwind % 
a [] Attach database filename: 
l 


Use ANSI quoted identifiers. 
Use ANS] nulls, paddings and wamings. 


Use the failover SQL Server ff the primary SQL Server is not 
available 


< Back Next > Cancel Help 


Len | 


Maintenant nous faisons usage du package susmentionné: 
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odbcClose (con) 


VUMVVVNNVNVNVNNNNVN NV 


Ce qui donne: 


Categories 
ChcparyiD 
Cat-pury Nan 
Dxcrpiion 
Pictuws 


library("datamodelr") 
library("RODBC") 

con <— odbcConnect (dsn 
sQuery <- dm re query("sqlserver") 
dm northwind <- sqlOuery(con, sQuery, stringsAsFactors = 


Supphen 
Suppli:tiD 
Counpesrs Naanse 
ConisciNane 
ConisctTithe 
Audabrsex 

Cuy 

Roy 

Put enle 
Couréry 
Phone 

Fr 


Hore-Prque 


Pnoslsa:tD) 
Pronan-tNoseme 
SappireriD 
CatpuryiD 
Quasstity Per rit} 
UesPrax 
UntsinSisek 
DestsOrOeckz 
Roonderlevel 
Dimcontensal 


= "SQL Server Express") 


fconversion en modèle de données 
dm northwind <- as.data model (dm northwind) 


(Cuers Dermmrgrepliacs) 
Catane Type 


Cotes he 


OnkxiD 
CuéveeziD 


Frmploryecil) 
OnkzDate 


Custurmex ID) 
Custusez TepslD Fecighnt 
Hipcenc 
Ship 
SipCity 
ipReyin 
ShipPiréd suc 


ShipC enr, 


Order Die: 
Ones) 
ProdusctiD} 


UnPrax 
Queertity 
Discourt 


graph <- dm create graph(dm northwind, rankdir = "BT") 
dm _ render_graph(graph) 


EnphycciD 
Lot Nas: 
FioiNarse 
Title 

Ti OCineteny 
BethDutc 
Hire: 
Adhireses 

Cey 

Riyice 
PontalCick: 
Coustry 
Horse Phare: 
Extcrmionr 
Phare 

Notex 
Reports Ti 
PhustoPaih 
Salary 


Fsapluryex Territors-s) 
EnphyciD 
Lemitury AD) 


FALSE, 


Sciences.ch 
MR RGui (64-bit) - [R Console] — O X 
ŒR File Edit View Misc Packages Windows Help - x 


EC] 


errors=TRUE) 


Regicer 


RouelD 


Rcyvalkm 


Teritories 
Ieuitxs1D 
Territory Description 
RoyicalD) 
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Exemple 64.: Utiliser le SQL 
R 3.0.2 


Le SQL est un langage extrêmement puissant, bien pensé et très rapide pour traiter et 
manipuler des données dans des bases de données relationnelles. Il existe ainsi un package 
dans R permettant d'utiliser le SQL sur un ou plusieurs data frames en même temps afin de 
pouvoir utiliser les jointures. Ce package est extrêmement utile dans la pratique du big data et 
plus rapide que les commandes classiques de R. 


Voyons quelques exemples qui seront basés sur les tables d'Oracle Express qui ont été 
préalablement exportées au format *.csv. 


D'abord, nous installons le package sqldf (qui utilise SQLite en arrière plan): 


‘@ 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> install.packages ("sqldf") 

Installing package into ‘C:/Video2Brain/Packages’ 

{as ‘lib’ is unspecified) 

--- SVP sélectionner un miroir CRAN pour cette session --- 

also installing the dependencies ‘DBI’, ‘gsubfn’, ‘RSQLite’, ‘RSQLite.extfuns’ 


essai de l'URL 'http://cran.rstudio.com/bin/windows/contrib/3.0/DBI O.2-7.zip' 
Content type 'application/zip' length 270970 bytes (264 Kb) 

URL ouverte 

downloaded 264 Kh 


essai de L'URL 'http://cran.rstudio.com/bin/windows/contrib/3.0/gsubfn O0.6-5.zip' 
Content type 'application/zip' length 662183 bytes (646 Kb) 

URL ouverte 

downloaded 646 Kb 


essai de l'URL 'http://cran.rstudio.com/bin/windows/contrib/3.0/R$SQLite 0.11.4.zip' 
Content type 'application/zip' length 1145037 bytes (1.1 Mb) 

URL ouverte 

downloaded 1.1 M 


essai de l'URL 'http://cran.rstudio.com/bin/windows/contrib/3.0/RSQLite.extfuns O.0.1.zip' 


« 


Ensuite, nous le chargeons: 
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FR Fichier Edition Voir Misc Packages Fenétres Aide 


> library(sqldf) 
Le chargement a nécessité package : DBI 
Le chargement nécessité package : gsubfn 


Le chargement nécessité package : proto 

Le chargement nécessité package : teltk 

Le chargement nécessité package : chron 

Le chargement nécessité package : RSQLite 
chargement nécessité package : RSQLite.extfuns 


Et nous pouvons commencer à appliquer notre connaissance du SQL en utilisant la 
commande sqldf( ) : 


R Fichier Edition “Voir Misc Packages Fenétres Aide 


> setwd{("C:/"] 
> mydata<-read.csv{"oracle demo product info.csv",header=T,sep=";") 
> names (mydata) 
[1] "Id Product Info" "Name" "Description" "Category" "ivailable" "Price" 
[7] "IimageType" "ImagePath" “Date” 
> sqldf {"SELECT * FROM mydata LIMIT 3")[,c(1,2,4,5,6)] 
Id Product Info Name Category Available Price 
9 Mens Shoes Mens LS 110 
10 Wallet iccessories Li 50 
1 Business Shirt Mens Æ 50 


Il n'est malheureusement pas possible de faire tout ce qui est possible dans Oracle avec du 
pour SQL mais nous pouvons faire à ce jour: 


Des requêtes de sélection (SELECT) 

Des requêtes de sélection (EXCEPT) 

Des requêtes de comptage (COUNT) 

Des requêtes de limite (LIMIT) 

Des requêtes avec filtre (WHERE) 

Des requêtes de groupement (GROUP BY) 
Des requêtes de tri (ORDER BY) 

Des requêtes avec jointure (INNER JOIN) 


Pour plus d'informations avec des cas pratiques basés sur le même jeu de données, le lecteur 
pourra se reporter à mon e-book sur le SQL (282 pages): 
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www.sciences.ch/tiny?url=18 


Suite à un problème soumis à par un élève qui consiste à comparer deux jeux de données afin 
de savoir quels sont les éléments de l'un qui sont pas dans l'autre relativement à un champ 
donné sans prendre en compte les doublons, voici un autre excellent exemple d'application de 
R sachant que nous avons testé sur la même machine l'utilisation de Power Query (Microsoft 
Excel) et la requête de non-correspondance dans Microsoft Access qui étaient tous deux non 
satisfaisants et beaucoup trop lents par rapport à R: 


R RGui (64-bit) - [R Console] = O X 
R File Edit View Misc Packages Windows Help F1 x 


ÉSOISOSINIE 


mydata2010<-read.csv("C:/tmp/Nccr aug 20101231.csv",header=T,sep=";") 
mydata2011<-read.csv("C:/tmp/Nccr aug 20111231.csv",header=T,sep=";") 

library(sqladf) 

Data2010NotIn2011<-sqladf ("SELECT vn FROM mydata2010 EXCEPT SELECT vn FROM mydata2011') 
nrow(Data2010NotIn2011 

1] 141292 


VmVVYVY NV 


Q° 
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Exemple 65.: Créer et importe de bases SQLite 
R 3.6.3 


Voyons un exemple: 


| QR File Edit 
library("dplyr") 
library("dbplyr") 
fcas avec plusieurs dataframes 
data(iris) 
data(cars) 
res <— listl"'iris" = iris, "cars" = caïts) 
my_db <- dplyr::src sqlite("c:/tmp/mydatabase.sqlite3",create = TRUE) 
fla base est vide 
my_db 
src: sqglite 3.30.1 [c:\tmp\mydatabase.sqlite3] 
tbls: 
> lapply(seq along(res), function(i, dt = res) dplyr::copy to(my db, dt{[[i]], names(dt)[[i]])) 
l'PCETI 
# Source: table<iris> [27 x 5] 
# Database: sqglite 3.30.1 [c:\tmp\mydatabase.sqlite3] 
Sepal.Length Sepal.Width Petal.Length Petal.Width Species 


View Misc Packages Windows Help ||" )x 


VVVVVVVVV 


| <db1> <db1> <db1> <db1l> <chr> 
1 524 3-5 1.4 0.2 setosa 
| 2 4.9 3 1.4 0.2 setosa 
3 4.7 JS 19 0.2 setosa 
4 4.6 3:51 1.5 0.2 setosa 
5 5 3.6 1.4 0.2 setosa 
6 5.4 3:93 LT 0.4 setosa 
ln 4.6 3.4 1.4 0.3 setosa 
8 5 3:43 1-5 0.2 setosa 
9 4.4 29 1.4 0.2 setosa 
10 4.9 3-1 1.5 0.1 setosa 
# ... with more rows 
C[21] 
| # Source: table<cars> [22 x 2] 


# Database: sqlite 3.30.1 [c:\tmp\mydatabase.sqlite3] 
speed dist 
<db1l> <dbl> 


4 

4 

7 

7 

8 

3 
10 18 
10 
10 


© © Co 1 o U1 & WW D H 


+ 


. with more rows 


> #la base n'est plus vide 

> my _db 

src: sglite 3.30.1 [c:\tmp\mydatabase.sqlite3] 
SE cars, iris, sqlite statl, sqlite stat4 

> 


Rien d'extraordinaire. Poursuivons un peu: 
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R RGuï (64-bit) - [R Console] 
OR File Edit View Misc Packages Windows Help 


EROS GEI) 


> (iris db <- tbl(my db, "“iris")) 
# Source: table<iris> [22 x 5] 
# Database: sqlite 3.30.1 [c:\tmp\mydatabase.sqlite3] 
Sepal.Length Sepal.Width Petal.Length Petal.Width Species 
<db1l> <db1> <db1> <db1l> <chr> 
de setosa 
setosa 
setosa 
setosa 
setosa 
setosa 
setosa 
setosa 
setosa 
setosa 


ou 


U IN CG GO WC Lo GO) GW W 
OO ve c à . 
Hi (0 1 1 10 M I N 
BH Hhh 
On 3 O7 -J 5 On Co 1 
EH ND ND GO  & NN  N D  N D 


O0O000C0Q00C0O0C0O 


1 
2 
3 
be 
S 
6 
7 
8 
9 
0 


=) 
. With more rows 
> (cars db <- tbl(my db, "cars")) 
# Source: table<cars> [22 x 2] 
+ Database: sqlite 3.30.1 [c:\tmp\mydatabase.sqlite3] 
speed dist 
<db1i> <db1l> 
2 
10 
É 
22 
16 
10 
18 
26 
34 
17 
. with more rows 


1 
* 


© 0 © —J a 1 & W NH 


VæhH 


et enfin: 
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R EGui 64-bit) - [R Console] 
ŒR File Edit View Misc Packages Windows Help 


ESOSOSIOE 


> +et on requête 
> (myquery<-iris db $5>% select (Sepal.Width, Species)) 
# Source: lazy query [77 x 2] 
#* Database: sglite 3.30.1 [c:\tmp\mydatabase.sgqlite3] 
Sepal.Width Species 
<db1> <chr> 

.5 setosa 
setosa 
setosa 
setosa 
setosa 
setosa 
setosa 
setosa 

.9 setosa 
3.1 setosa 
# ... with more rows 
> #on affiche explicitement la requête correspondante 
> myquery $>$% show query) 
<SQL> 
SELECT ‘Sepal.Width', “Species” 


D © & & WW & WW &w 
vEsSsLoMmHN 


1 
2 
3 
4 
5 
6 
= 
8 
9 
0 


re 
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Exemple 66.: Importer des données de fichiers OneDrive, de 


bibliothèques SharePoint 
R 3.6.2 


Bon je ne suis vraiment plus un fan de SharePoint et OneDrive (ayant été très déçu de 
l'évolution absurde du produit depuis 2010). 


Donc je vais faire le minimal syndical en faisant des captures d'écran du début de la procédure 


R° 
R File Edit View Misc Packages Windows Help 5 x 


ESOSESN | | 


> #package faire par Microsoft! 

> devtools::install github("Azure/Microsoft365R") 

Skipping install of 'Microsoft365R' from a github remote, the SHAL (7eb1515f) has not changed since last install. 
Use ‘force = TRUE‘ to force installation 

> library("Microsoft365R") 

> $on se connecte à OneDrive (cela ouvrira la page web) 

> ‘ii <- get_business onedrive() 

> 


Ce qui donnera: 


BE Microsoft 
vincent.isoz@thinkt.ch 


Permissions requested 
AzureR/Microsoft365R 
App info 


This application is not published by Microsoft or 
your organization. 

This app would like to: 

NV Have full access to all files you have access to 

N7_ Sign you in and read your profile 


7. Maintain access to data you have given it access to 


C] Consent on behalf of your organization 


Accepting these permissions means that you allow this app to use 
your data as specified in their terms of service and privacy 
statement. The publisher has not provided links to their terms 
for you to review. You can change these permissions at 
https://myapps.microsoft.com. Show details 


Does this app look suspicious? Report it here 


_ 


et ensuite pour en savoir plus le lecteur se référera au Github de Microsoft: 


https://github.com/Azure/Microsoft365R 
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Comme par exemple: 


MR RGui (64-bit) - [R Console] _ O 


GR File Edit View Misc Packages Windows Help le Ix 


[sl 


> od$list_ items()[1:10,] 


name size isdir id 
1 Approvals Document 94673 TRUE O1APZNN3LD73NJ6HQSLFAKYAJEH4GXILXR 
2 Blocs-notes © TRUE O1APZNN312A7SXW2UN2BBJZNXESHANSDS5D 
3 Blocs-notes OneNote pour la classe 525448 TRUE O1APZNN3JK4KTWHYXMPS5ALMJM43ZK3VUIS 
4 Contacts 17397 TRUE O1APZNN3LPN6EVE63JFOFCYXLYJ2WPVEHPI 
5 Docs 2095891 TRUE O1APZNN3PB72LBSV75ABAI2Y7XCXT57POC 
[6 Enregistrements 2338395611 TRUE O1APZNN3KP6ZWSWWDVUNCZUHWSY4OGVIFF 
7 Exercices OneNote 1040492000 TRUE O1APZNN3NX63VRZBAHPNFZGU3ISTFISZK7 | 
8 Fichiers de conversation Microsoft Teams O0 TRUE O1APZNN3LSUKRS5NRMZXVH2MSN4JDS4GJHD | 
9 Images 1590478 TRUE O1APZNN3KPJF4H62RNRNF2GMS5HPT6GOARR 
10 JQuery 924 TRUE O1APZNN3J7EFCXBEYSEBDLZZQ46EX7ZLJZ 
> 


On peut se connecter à du contenu Microsoft SharePoint, Microsoft Teams et Microsoft 
Outlook! 
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Exemple 67.: Importer des données de Microsoft Word 
R 3.4.1 


Il arrive parfois malheureusement qu'on doive même importer des tables de Microsoft Word 
(cas typique dans les TPE qui n'ont pas de système de gestion de bases de données 
professionnelle). 


On prendra comme exemple de base un des fichiers Microsoft Word fournis dans le dossier 
d'installation du package docextractr: 


€ > + This PC Documents win-library > 4.1 docxtractr 
Quick access M Name 
4 Desktop “E comments.docx 


OS (C:) 


wÈ complex.docx 


= data.docx 

LI -| data3.docx 
D ex.pptx 

| none.docx 
E preserve.doc 


DATA (D:) 

æ Fake Network _Drive (Z:) 
Downloads 
Documents 

| preserve.docx 

“à realworld.docx 

“à trackchanges.docx 


Pictures 


4 #4 % % % % % * 


Videos 


4, 


Music 


et particulièrement le fichier suivant (dans le genre pire..….): 


SRE 


[A Anoss@etrumg BB ŸZAcessibité: vérification teminée Br 


cs OH 5 -—+ 


Et voyons maintenant comment utiliser les fonction read_docx( ) et docx_tbl_count( ) et 
docx_describe_tbls( ) et docx_extract_tbl( ) du package docxtractr: 
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M RGui (64-bi) - [R Console] 
R File Edit View Misc Packages Windows Help 


SIPIE) 


> library("docxtractr") 

> 

> complx <- read docx(system.file ("examples/complex.docx", package="docxtractr")) 

> fon compte le nombre de tables 

> docx_tbl_count (complx) 

[1j 5 

> fon affiche un résumé des tables 

> docx describe tbis(complx) 

Word document [C:/Users/Vincent_Isoz/Documents/R/win-library/4.1/docxtractr/examples/complex.docx] 


Table 1 
total cells: 16 
Zrow count 4 
uniform likely! 
has header likely! => possibly [This, Is, À, Column] 


Table 2 
total cells: 12 
IOwW count 4 
uniform likely! 
has header likely! => possibly [Foo, Bar, Baz] 


Table 3 
total cells: 14 
IOwW count : 7 
uniform : likely! 
has header : likely! => possibly [Foo, Bar] 


Table 4 
total cells: 11 
row count 4 
uniform unlikely => found differing cell counts (3, 2) across some rows 
has header likely! => possibly [Foo, Bar, Baz] 


Table 5 
total cells 
row count 
uniform 
has header 


21 

= 

likely! 
unlikely 


fon extrait par exemple la table numéro 4 
docx_extract_tbl(complx, 4, header=TRUE) 
À tibble: 3 x 3 
Foo Bar Baz 
<chr> <chr> <chr> 
Aa BbCc <NA> 
Dd Ee Ef 
Hh ii 
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Exemple 68.: Importer des données de Twitter 
R 3.4.1 


Le package que nous allons voir maintenant est loin d'être complet d'autant plus que l'équipe 
de Twitter change régulièrement les règles et les options de leur API, donc ne rêvez pas 
trop. 


D'abord pour pouvoir utiliser le package twitteR, vous allez devoir vous rendre sur la page 
https://apps.twitter.com afin d'y obtenir des clés d'accès aux API de données: 


O Menu | W Twitter Application Manac X | = F2 X 


< C 5 à twitter.com 


w Application Management 
eq DR D PA | 


By using Twitter's services you agree to our Cookie Use and Data Transfer outside the EU. We and 
our partners operate globally and use cookies, including for analytics, personalisation, and ads. 


Twitter Apps 


Please sign in with your Twitter Account to create and maintain Twitter Apps. 


About Terms Privacy Cookies 
© 2017 Twitter, Inc 


Nous cliquons sur sign in: 


O Menu | W Login on Twitter X MP La X 
< C 323 | @ Twitter, Inc. [US] twitter.com 
L 4 Lanquage: English + 


Log in to Twitter 


(Login F1 Remember me : Forgot password? 


New to Twitter? Sign up now » 


Already using Twitter via text message? Activate your account » 
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Après avoir renseigné l'e-mail et le mot de passe de votre compte Twitter vous cliquez sur 
Log in pour arriver à: 


O Menu | # Twitter Application Manac X | # Ces 2x 


< C 53 à twitter.com @) 


% Application Management 
ER 


Twitter Apps 


You don't currently have any Twitter Apps. 


Create New App 


© 2017 Twitter, Inc. 


Cliquez sur Create New App pour obtenir: 


O Menu | W Create an application] Tw X | Cr € PI < 


< C % à twitter.com 


Create an application 


Application Details 
Name * 


IuitieR Training Dem] 


Description * 


Callback URL 


ntp2127.0.0.1:1410 


Developer Agreement 


[1 Yes, ! have read and agree to the Twtiter Developer Agreemer 


Create your Twitter application 
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Quand vous validez par Create your Twitter applications vous obtiendrez la page suivante où 
il fadura vous rendre dans l'onglet Keys and Access Tokens: 


O Menu | W Twitter Training Demo|T: X + ra X 
< C #8 a twitter.com 
% Application Management Ei ki 
0 2 RS D 
TwitteR Training Demo Test oAuM 


Details Settings : Keys and Access Tokens : Permissions 


Application Settings 


Consumer Key (API Key) 


Consumer Secret (API Secret) 


Access Level Read and write (modify app permissions) 
Owner PhysicistBandit 
Owner ID 


Application Actions 


Regenerate Consumer Key and Secret Change App Permissions 


Your Access Token 


1aven't authorized this application for you 


Token Actions 


Ensuite, dans R, nous chargeons le package twitteR et utilisons la fonction 
setup_twitter_oauth() pour nous connecter à l'API en utilisant respectivement la consumer 
key en premier et la consumer secret en second: 


M RGui (64-bit R Console 


QR File Edit View Packages Windows Help 


> library(twitteR) 


> setup_ twitter _oauth("uzURsQ7qwiS3jfos/TDwS5oFrl1", "Q2xVvAFq0)S8MDw7WHm4kKFoCjv415h)czWqHTUTfD7FO6c8XNu") 
[1] "Using browser based authentication" 


Use a local file ('".httr-oauth'), to cache OÂAuth access credentials between R sessions? 
1: Yes 
2: No 


Selection: 1 

Adding .httr-oauth to .gitignore 
Waiting for authentication in browser... 
Press Esc/Ctrl + C to abort 
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Sciences.ch 


Après avoir validé en ayant tapé la valeur 7 (Yes), votre navigateur par défaut va s'ouvrir 


avec: 


D Twitter / Autoriser une x 


(Ma à Secure | https/ 


n Permutation Test 


Autoriser TwitteR Training Demo à 
utiliser votre compte ? 


Nom d'utilisateur ou email 


Mot de passe 


Se souvenir de moi - Mot de passe oublié ? 


Cette application sera en mesure de : 
.« Lire les Tweets de votre fil. 
- Voir vos abonnements. 


Ne sera pas en mesure de : 

+ Suivre de nouvelles personnes. 

+ Mettre à jour votre profil. 

. Publier des Tweets à votre place. 
Accéder à vos messages privés. 


NO 


Scientific Evo... . 


d "à ® à 


#9 jQuery Tutorial 


S'inscrire sur Twitter » 


TwitteR Training Demo 


witter analysis int 


so : : NS $ . 
Saisissez les données de votre compte et cliqué? sur Connexion, vous arrivez alors sur: 


D Twitter / Autoriser une 2, x 


fe à Secure | https//apitwitter.com/oa.. @ 7? + 


le Traduction Permutation Test 


Autoriser TwitteR Training Demo à 
utiliser votre compte ? 


Autoriser l'application Annuler 


Cette application sera en mesure de : 
-_Lire les Tweets de votre fil. 
-_ Voir vos abonnements. 


Ne sera pas en mesure de : 
- Suivre de nouvelles personnes 
- Mettre à jour votre profil. 


- Publier des Tweets à votre place 


- Accéder à vos messages privés. 
- Voir votre adresse email. 
- Voir votre mot de passe Twitter. 


plication à tout momer 


Scientific Evo. 


» 


® à 


r- resampling / sin 9 jQuery Tutorial 


9) 


TwitteR Training Demo 
sciences.ch 


witter analysis into R 


depuis l'onglet Applications de votre page Paramètres 


ris aux conditions d'utilisation de Twitter. En particul 


et quand nous cliquons sur Autoriser l'application, nous obtenons: 
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Sciences.ch 


D Twitter / Autoriser une 3 x 


< (Man © localhost:1410/7oauth_token-DeFXIQAAA.. 7 EC: 


M Sciencesch M Scientific-Evolutior 


Authentication complete. Please close this page and return to R. 


Ensuite, lorsque nous retournons dans R, nous avons: 


R File Edit View Misc Packages Windows Help 


8 Google Traduction Permutation Test 


Scientific Evo... 


CE 


Æ jQuery Tutorial 


à à À 


r- resampling / sin 


| 


| > library(twitteR) 
> setup_twitter_ oauth("uzURsQ7qwi93jfos/TDwSsoFrl", 


| [1] "Using browser based authentication" 


"Q2xVvAFq0j8MDw7WHm4kKFoCjv415hjczWqHTUT£D7F06cSXNu") 


Use a local file ('".httr-oauth'), to cache OÂAuth access credentials between R sessions? 


1: Yes 
2: No 


Selection: 1 
Adding .httr-oauth to .gitignore 
Waiting for authentication in browser... 


Press Esc/Ctrl + C to abort 
Authentication complete. 


Nous pouvons avec la fonction searchTwitter() obtenir tous les tweets publics autorisés par 


l'API avec un certain terme: 
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MR RGui (64-bit) - [R Console] — 


| File Edit View Misc Packages Windows Help 4x 


ESOBCSINIE | 


La] 
| > searchTwitter ("iphone") 
{11)] . 
| [1] "mm31330: —ÆfR#iPhonef)Bluetooth@#Af55(1( ‘I’ 8( I)" 


| ce211 
[1] "kingdog515: ##cbPh8AZJL ER \n\niPhoneT S (0° V'o)\n\nEY Ah, FD /NILO\RH FFE TS ! L'An\n/RS, /2R50HET 


| 131) 
[1] "OloshoSince1960: Different Reasons Why Nigerians 'Love' iPhone &gt:&gt;: https://t.co/OJSkw3a0OPO https://t.co/ivITS$S 


((4)) 
[1] "evefysnowpiglet: RT @Bizzs17: wiouounaoquf imñdeli näos IPhone 7+ qu 10wn#iPhone7TH https://t.$ 


((5])] 
| [1] "DieFledermauss: 4! iPhoneM5#y21Æ0{8 - / #21 nctps://t.co/RTmcs504X0" 


[16]] 
[1] "O319Exit: @LTST \n@iPhoneT S, \nOE YA HF vor SORA UY Va} v\n\n#é chaos ATL EUR” 


[071] 


< > 


ou encore avec la fonction favorites( }) les 7 derniers tweets favoris d'un certain utilisateur de 
Twitter: 


MR RGui (64-bit) - [R Console] L 


ŒR File Edit View Misc Packages Windows Help 4x 


SI Bee) es] | 


> les S derniers tweets favoris d'un utilisateur 

> favorites("barackobama", n=5) 

[11]] 

[1] "HamiltonMusical: One last time. https://t.co/uSDvWe7RGD" 


[12)] 
[1] "pitchfork: .@BarackObama is the only American @POTUS you could reliably trust to DJ a party http://t.co/enrqMsVes 


[131] 
[1] "NancyPelosi: If too much #girlpower can break the Internet, we might be in trouble. #fprogress4women #womensucceed$ 


[14]] 
[1] "funnyordie: One girl saves the world from junk food. Starring @ChloeGMoretz @TylerGPosey samp;: @MichelleObama: ht$ 


[15]] 
[1] "DeptofDefense: From 1 SecDef to another: Hagel calls @timhowardgk to say thanks for defending USA. We (USA) are p$ 


>| 
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Exemple 69.: Importer des données de YouTube 
R 3.5 


D'abord on charge le package tuber après l'avoir installé: 


|  … 


fe RGu 
GR File Edit View Misc ac Vindows é 
| 


> library("tuber") 
> 


Ensuite, on va sur le site des développeurs Google: 


[0] Menu | © Obtaining authorization c: X + VF X 
< > C #& à google.com El] 
Œ@ Yurube > Data API Q Search ALL PRODUCTS SIGN IN 


GUIDES REFERENCE SAMPLES SUPPORT SEND FEEDBACK 


Service accounts 


installed applications 


Overview Creating API Keys 


Client Libraries 

Your application must have authorization credentials to be able to use the YouTube Data API. This document 
RARE describes the different types of authorization credentials that the Google Developers Console supports. It also 
craves explains how to find or create authorization credentials for your project. 
Get Auth Credentials 
Server-side Web Apps 


SSPE Ne APS Create your project and select API services T 


Installed Apps 


RENE 1. Open the Credentials page. 

Quickstarts 2. The API supports API keys and OAuth 2.0 credentials. Create whichever credentials are appropriate for 
Android your project: 

Apps Script - OAuth 2.0: Your application must send an OAuth 2.0 token with any request that accesses private 
Go user data. Your application sends a client ID and, possibly, a client secret to obtain a token. You 
i0S can generate OAuth 2.0 credentials for web applications, service accounts, or installed 


applications. v 


Et on clique sur Credentiels page: 
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[0] Menu : G Google Cloud Platform X LH LA X 
< C # à google.com (&)] 
Google 
Sign in 
to continue to Google Cloud Platform 
Email or phone 
Forgot email? 
Not your computer? Use a private browsing window to sign in. 
Learn more 
Create account [nr | 
Une fois loggé, on clique sur le bouton Créér: 
O Menu | G API et services X + La X 
< C 5 à google.com @ 


[I] Vous aimez nos API ? Essayez notre infrastructure. Inscrivez-vous pour bénéficier d'un crédit de 300 $ et de 12 mois pour découvrir Google Cloud Platform. En savoir plus 


IGNORER S'INSCRIRE À L'ESSAI GRATUIT 


—= Google APIS Sélectionner un projet + a 


API Identifiants 


Lo 
iu 
au 
Or 
API et services 
Identifiants 
Pour afficher cette page, sélectionnez un projet 
D 


On arrive alors sur: 
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Oo Menu | G Google Cloud Platform X LH VF X 


< C # à google.com Q © 


Vous aimez nos API ? Essayez notre infrastructure. Inscrivez-vous pour bénéficier d'un crédit de 300 $ et de 12 mois pour découvrir Google Cloud Platform. En savoir plus 


u 
IGNORER S'INSCRIRE À L'ESSAI GRATUIT 


= Google APIs a 9 0e « : @ 


Nouveau projet 


© 11 vous reste 12 projets dans votre quota. Cliquez ici pour en savoir plus. 


Nom du projet 
RYouTubeDemo 


L'ID du projet sera ryoutubedemo. € Modifier 


Veuillez m'envoyer par e-mail des informations concernant les nouvelles 
fonctionnalités annoncées, des suggestions pour améliorer les performances, des 
enquêtes de satisfaction et des offres spéciales. 


Oui Non 
Je reconnais que l'utilisation de tous les services et API associées est soumise aux 
Conditions d'utilisation. 

Oui © Non 


Annuler 


Et on valide par Créer encore une fois: 


<| 
X 


O Menu  G Identifiants - RYouTubeDe X | + 


& C #& à google.com Q © 


Vous aimez nos API ? Essayez notre infrastructure. Inscrivez-vous pour bénéficier d'un crédit de 300 $ et de 12 mois pour découvrir Google Cloud Platform. En savoir plus 


IGNORER S'INSCRIRE SSAI GRATUIT 


— Google APIs $e RyouTubeDemo + a ° 6 0 


API API et services Identifiants 


a 
sé Tableau de bord Identifiants Écran d'autorisation OAuth Validation de domaine 


FE 


Bibliothèque 


Or Identifiants 


API 
Identifiants 


Pour accéder à des API, vous devez disposer d'identifiants 
Activez les API que vous prévoyez d'utiliser, puis créez les 
identifiants requis. Selon l'API, vous avez besoin d'une clé d'API, 
d'un compte de service ou d'un ID client OAuth 2.0. Pour en savoir 
plus, reportez-vous à la documentation sur les API 


r des identifiants + 


<I 


On cliquer sur Créer des identifiants. : 
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iTubeDemo + a 9 © [1] 


… 


Identifiants 


Identifiants Écran d'autorisation OAuth Validation de domaine 


Clé API 
identifie votre projet à l'aide d'une clé d'API simple afin de vérifier le quota et l'accès 


ID client OAuth 
Demande à l'utilisateur d'autoriser l'application à accéder à ses informations 


Clé de compte de service 
Active l'authentification de serveur à serveur au niveau de l'application à l'aide de comptes robots 


Aidez-moi à choisir 
Cet assistant pose quelques questions pour vous aider à choisir le type d'identifiants à utiliser. 


Créer des fe % 


On arrive alors sur: 


O Menu | G Créer un ID client -RYouT. X + 


< C # à google.com 


Vous aimez nos API ? Essayez notre infrastructure. Inscrivez-vous pour bénéficier d'un crédit de 300 $ et de 12 mois pour découvrir Google 


Cloud Platform. En savoir plus 
IGNORER S'INSCRIRE À L'ESSAI GRATUIT 


Google APIs %e RYouTubeDemo + A 9 © O : (#] 


€ Créer un ID client 


& Pour créer un ID client OAuth, vous devez d'abord définir un nom de produit sur l'écran d'autorisation. Configurer l'écran d'autorisation 


Type d'application 
Application Wet 
oid En savoir plus 
lication Chrome En savoir plus 
iOS En savoir plus 
PlayStation 4 


On clique donc sur Configurer l'écran d'autorisation: 
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Sciences.ch 


X 


G Écran d'autorisation - RYo 


O venu 
< C 5 4 


google.com 


= Google APls HI RYouTubeDemo % 


API et services Identifiants 


Identifiants Écran d'autorisation OAuth 


“+ Tableau de bord 


Adresse e-mail 
Ti Bibliothèque 
scientific.evolution.videos@gmail.com 


Or Identifiants 
Nom de produit affiché pour les utilisateurs 


RYouTubeDemo 


URL de la page d'accueil (Facuitatif 
"https://" ou "http://" 


URL du logo du produit (Facutatif 


http://www.example.com/logo.png 


Voici comment votre logo s'affichera pour les 
utilisateurs finaux 


Taille maximale : 120 x 120 px 


URL des règles de confidentialité 
Facultative tant que votre application n'est pas 
déployée 


"https://" ou "http://" 


URL des conditions d'utilisation (Facultatif 


"https://" ou "http://" 


<I 


«Il 


a 9 © © 


Validation de domaine 


<<< 


L'écran d'autorisation 
s'affiche pour les 
utilisateurs lorsque vous 
demandez un accès à leurs 
données privées via votre 
ID client. L'écran s'affiche 
pour toutes les 
applications enregistrées 
dans ce projet. 


Pour que OAuth fonctionne, 
vous devez indiquer une 
adresse e-mail et un nom 
de produit. 


On remplit comme il faut et on valider par Enregister, on arrive alors sur: 


R Statistical Software 


485/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


«Il 


O Menu | G Créer un ID client - RYouT. X | + er EI 


< C 8 4 


rs.google.com/apis/credentials 


@ © 


Vous aimez nos API ? Essayez notre infrastructure. Inscrivez-vous pour bénéficier d'un crédit de 300 $ et de 12 mois pour découvrir Google 


Cloud Platform. En savoir plus 
IGNORER S'INSCRIRE À L'ESSAI GRATUIT 


= Google APIs %e RYouTubeDemo + Aa 9 © O : @ 


€ Créer un ID client 


Type d'application 
Application Web 


Android En savoir plus 
Application Chrome En savoir plus 
iOS En savoir plus 
PlayStation 4 

© Autre 


Nom 
R 


Et on valide par Créer pour obtenir: S 
Ÿ 
O Menu  G identifiants - RYouTubeDe X | + RL EX 
< C 88 | à | console developers.google.com/apis/credentials Q © 


5 Vous aimez nos API ? Essayez notre infrastructure. Inscrivez-vous pour bénéficier d'un crédit de 300 $ et de 12 mois pour découvrir Google 


Cloud Platform. En savoir plus 
IGNORER S'INSCRIRE À L'ESSAI GRATUIT 


Client OAuth 


Voici votre ID client 
867479253793-cj9cc703u3i96vakkao219huksv42i7j.apps.googleusercontent. coi O 


Voici votre code secret client 


G 
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On copie le code secret client et on valide par OK: 


O Menu | G Identifiants - RYouTubeDe X | + F7 X 


< C 83 à google.com Œ 


icture. Inscrivez 


Vous aimez nos API ? Essayez notre infr 


atform. En savoir plus 


IGNORER S'INSCRIRE À L'ESSAI GRATUIT 


= Google APIs %e RYouTubeDemo + a 9 9 1) i [#] 


API APl et services Identifiants 


« 
NA Tableau de bord Identifiants Écran d'autorisation OAuth Validation de domaine 


Bibliothèque 
a ie Créer des identifiants + 


Or Identifiants 


EE 


Créez des identifiants pour accéder à vos API activées. Consultez la documentation sur les API pour en savoir plus 


ID clients OAuth 2.0 
Nom Date de création * Type ID client 
R 27 avr. 2018 Autre 86747 93- 


cj9cc703u3i96vakkao219huksv42i7j.apps.googleusercontent.com 


Scientific Evo... 
[G] Tableau de bord - RYouT: x 


ERIC à Secure | https//consoledeve. @ + ER 


ogle Traduction ÆB jQuery Tutorial 


d Platform. En savoir 


IGNORER S'INSCRIRE À L'ESSAI GRATUIT 


Google APIs %e RYouTubeDemo + a D © « ; @ 


API et services Tableau de bord ACTIVER LES API ET LES SERVICES 


Mabieauge bord Il n'y a pas d'API ni de services activés. 
Parcourez la Bibliothèque pour trouver et utiliser des centaines d'API et de services 


Bibliothèque 


Identifiants 


API et services populaires TOUT AFFICHER (189) 


[2 M 


Google Drive API Gmail API 
Google Google 


The Google Drive API allows Flexible, RESTful access to the 
clients to access resources from user's inbox 


Google Drive 


On cliquer sur TOUT AFFICHER: 
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Sciences.ch 


© Bibliothèque d'API-RYo * 


< (MAR à Secure 


Favoris 


https://console.deve... 


Google APIS %e RYouTubeDemo + 


< Bibliothèque d'API 


lR'e Æ ” & ® à 


ogle Traduction Æ jQuery Tutorial ##f CFA Level 2 Marke 


Bienvenue dans la nouvelle bibliothèque d'API 


La nouvelle bibliothèque d'API propose une meilleure documentation, davantage de liens et des fonctionnalités de recherche optimisées. 


(e] 


Rechercher des API et des services 


Filtrer par Cartes 


VISIBILITÉ 


di 
= 


Google Maps Android API 


Google 


Publique (188) 
Privée (1) 


CATÉGORIE 


Solutions publicitaires (14) 
Analyses (1) 
Big Data (8) 


Machine learning 
Blog et CMS (1) 


Maps for your native Android app 


TOUT AFFICHER (17) 


er 


Google Maps SDK for i0S 
Google 


Maps for your native i0S app 


TOUT AFFICHER (7) 


Et on fait une rechercher des APT YouTube pour arriver sur: 


My  Planetary gear rat 
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© Bibliothèque d'API-RYo * 


- (ea à Secure | https//console.deve. @ 7 RARE 4 ® à 


Evolutio #3 Google Traduction l5$ 


Cloud Platform. En savoir 


IGNORER S'INSCRIRE À L'ESSAI GRATUIT 


Google APIs %e RYouTubeDemo + 9 © «a ; (#] 


€ Rechercher Q youtube 


4 résultats 


YouTube Data API v3 YouTube Analytics API 
Google Google 


The YouTube Data API v3 is an API Retrieves your YouTube Analytics 
that provides access to YouTube data. 


data, such as videos, playlists, 


YouTube Ads Reach API YouTube Reporting API 


Google Google 


Retrieve YouTube ads reach per Schedules reporting jobs 
market, demographics, campaign containing your YouTube Analytics 
budget and other criteria data and downloads the resulting 


On sélectionne YouTube DATA API v3: 
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[G] API et services - RYouTUt x 


- (EMA à Secure | https//console.deve.. @ + ERA de e 


Favoris | 1 itio le Traduction Æ jQuery Tutorial pe CFA Level 2 Mark Me Planetary gear rat 


Google APIS %e RYouTubeDemo + 


Bibliothèque d'API 


YouTube Data API v3 
Google 


>. The YouTube Data API v3 is an API that provides access to YouTube 
data, such as videos, playlists... 


ACTIVER ESSAYER CETTE API [7 


Type Vue d'ensemble 


PRNERSEAVATER The YouTube Data API v3 is an API that provides access to YouTube data, such as videos, playlists, and 


Dernière mise à jour channels. 


30/06/2017 00:17 
About Google 


Catégorie 


YouTube Google's mission is to organize the world's information and make it universally accessible and useful. Through 


products and platforms like Search, Maps, Gmail, Android, Google Play, Chrome and YouTube, Google plays a 
Nom de service meaningful role in the daily lives of billions of people. 
youtube.googleapis.com 


Et on clique sur ACTIVER. Une fois ceci fait on peut revenir dans R et utiliser la fonction 
yt_oauth( ) pour se connecter à l'APT: 


R File Edit View Misc ackages Windows Help 1 nl Le 


> library(tuber) 

> yt_oauth("867479253793-cj9cc703u3i96vakkao219huksv42i7j.apps.googleusercontent.com", 
+ "Io9DaQtnHfNoGh)jSLKeUwJK3") 

Use a local file (".httr-oauth'), to cache OAuth access credentials between R sessions 


Selection: 1 

Adding .httr-oauth to .gitignore 
Waiting for authentication in browser... 
Press Esc/Ctrl + C to abort 

= it complete. 

> 


Une page va alors s'ouvrir: 
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G Se connecter avec Google 


RYouTubeDemo souhaite accéder 
à votre compte Google 


@ scientific.evolution.videos@gmail.com 


Cela permettra à RYouTubeDemo d'effectuer les actions 
suivantes : 


9 Gérer votre compte YouTube O 


Autoriser RYouTubeDemo à accéder à votre compte ? 


Mon compte 
ANNULER AUTORISER 
Français (France) + Aide Confidentialité Conditions d'utilisation 


SC 
On cliquer alors sur AUTORISER, nous avons älors la page suivant qui apparaît: 


@ Using tuber X b localhost:1410/?state-Ll/ X 
< (GMA © localhost:1410/?state=LAmlviF4AJ&code-4/AAB4zx 
| 


Favoris M Sciences.ch M Scientific-Evolutior Google Traduction 


Authentication complete. Please close this page and return to R. 


Ensuite, nous choisissons une vidéo et copions son code: 
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O Menu | Æ Zoom In/Out Universe -Y. X | + RS en EE LOC 
< C 8 à www.youtube.com/watch?v+(iMmElSEl 28 © 
a A privacy reminder from YouTube, a Google company REMIND ME LATEF REVIEW 

= @'ouube * Search (où # SIGN IN 


AUTOPLAY ©1@ 


How the Universe 
Works | Black Hole 
How the Universe Worl 
74K views 


PAR} NASA Live - Earth 
From Space (HDVR) 
SPACE 8 RS @ 


Cu 


Before the Big Bang 
6: Can the Universe 


phil 


BBC Documentary 
Zoom In/Out Universe 2018 From Earth to 
GEO Documentary v 


Et en utilisant la fonction get_stats( ) et ce code, nous avons alors quelques statistiques: 


R: 4-bit) - [R Console _ 
| File Edit View Misc Packages Windows Help 21 lo) 


| > library(tuber) 

> yt_oauth("867479253793-cj9cc703u3i96vakkao219huksv42i7j.apps.googleusercontent.com", 
+ "“Io9DaQtnH£fNoGh]SLKeUwJK3") 

> get_stats(video id="rhuJIHa6ByO") 
S°‘1d° 

[1] “rhuJSHa6BYQ" 


SviewCount 
[1] "32277" 


SlikeCount 
[IL]. “207” 


SdislikeCount 
[1] "9" 


SfavoriteCount 
[1] "o" 


ScommentCount 
[1] "19" 


>| 


Nous pouvons aussi obtenir les commentaires de la vidéo avec la fonction 
get_comment_threads( ): 
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M PEU 6 1-bit - [KR Curwule] F El 

MR File Edit View Mic Packages Windows Help x 

> get comment threads (c(videc id="rhuJSHa6GB;Q"))1,6] 
[1] the universe is infinite. you can go infinitely in any direction: down, up, wherever. S 
[2] Ite#39;s a virtual reality people. We are but bits of data processing information. TheS 
[3] hold up! <b>puts ear to speaker</E> Morgan Freeman? \U0001£615 5 
[4] the world is a psycadelic experience S 
[5] Why nasa not zoom in zocm out from thier fake space station live view S 
[6] Thats why i am saying size has no limits in big or in small. And univrse has no boundrS 
[7] It just keeps shrinking! s 
[8] why didné#39;t it show the entire Observable Universe? $ 
[39] the source is through the wormhole with Morgan Freeman fopera magistris S 
[10] This really proves how little we matter S 
[11] IMAX: Cosmic Voyage, 199€ S 
[12] nice video! if you dons#39;t mind i6#39;d like to take just a short part of this videoS 
[13] wow! !1!!BEAUTIFUL 5 
13 Levels: hold up! <b>puts ear to speaker</b> Morgan Freeman? \U0001f615 ... 

>| 

< >» 
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Exemple 70.: Importer des données de iTunes 
R 3.5 


D'abord nous choisissons un app et identifions via son URL son numéro d'identifiant: 


O Menu | Eiannotate 4— PDFs& mc X + 


< C 83  &@ Applelnc. [US] apple.com f0939242:q <] 


Support 


App Store Preview 


This app is only available on the App Store for iOS devices. 


iAnnotate 4 — PDFs & more 1: 
À better way to markup 


Branchfire, Inc. 


*kk% AT 262 Ratings 


$9.99 


Screenshots iphone _iPad 
Annotate and Access and Convert Search in Files Several Ways 
Comment on PDFs Files to PDF and Library to Share 
a … c a 0 4 En msn _ Ÿ 


Et nous allons dans R utiliser le package itunesr et sa fonction getReviews() pour lequel le 
deuxième paramètre et le code pays d'origine des commentaires ("in" est pour India) et le "1" 


est pour la première page de commentaires: 


| R 
M File Edit View Misc Package 


EBSOÉCENIE 


> library("itunesr") 
> getReviews (1093924230,'in',1) 
Author_URL Author Name App Version Rating 


Windows Help 


Title 
2 Version 3 was way more fun to work with. https://itunes.apple.com/in/reviews/id4346742555 happygoluckys CE JP 4 
3 Very slow compared to version 3 https://itunes.apple.com/in/reviews/id292969280 aptasankul 4.5 1 
Har_Sub 4. 4 


4 Great annotations https://itunes.apple.com/in/reviews/id581790616 


UN U uw 


PDFs take too long to upload, annotations are tremendously slow to load. Download files from Dropbox for offline access fa 


VACTE 


On peut évidemment rapatrier que ce qui nous intéresse vu que l'objet de retour est 
heureusement un simple data frame: 
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Riu (6<-bit) - [It Lansolel Li 


File Eut Ven Misc Packeoges Windows Help D Ci Re 


OAOSOBIOIE) 


> getReviews (1093924230, 'qgn',1)STitle 
[1] indispensable for me 
[2] Good app 
[3] Love the App but have a problem 
[4] Awesome 
[5] User since IPad 1 
[6] Does exactly what I need it to do 
[7] Lost some of the features that v. 3 the best PDF annotation software 
[8] Does what it says 
[9] Great features and stable 
[10] Iannotate 
[11] À way to go.... 
[12] Step backward 
[13] Solid, reliable App 
[14] Step backwards 
[15] Poor compatability 
[16] Now better than ever 
[17] Still not as good as previous version 
[18] Not as 1 would expect 
[19] Brilliant update to an already brilliant app 
[20] No local files 
[21] waste of money!!1111111111 piqgest regrez everl!l!! 
[22] À Backward Step 
[23] Completely disagree with the negative reviews! 
[24] Total waste of money 
[25] DO NOT buy this 
[26] FPotential, but not a great start... 
[27] Very disappointed without Local Saving 
[28] Missing Functionality 
[291] Some positives, some negatives. 
[30] Disappointing 


31 Levels: À Backward Step À way to go.... Awescome ... Waste of moneyl!11!1111111!1 BiggesS 

>| 

< > 
Ÿ 

Ou EnCOTE: 

M AGui (64 bit) [R Console] _- x* 

ŒR File Edit View Misc Packages Windows Help ex 


SOS OSIEE 


> getReviews (1093924230, 'gb!',1) SRating 

Et 5580 856 164421 2L 52 LL AS LLÉEE LS 2 
Levels: 12435 
>| 
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Exemple 71.: Importer des données de Google Trends 
R 3.6 


Voyons comment importer simplement des données google trends avec le package gtrends et 
sa fonction gtrends( ): 


L se leTs] 
> library ("gtrendsR") 
> 
> google trends <— fanction(keyword) { 
+ pres data <- gtrends (keyword = keyword, time = "all", onlyInterest = TRUE) 
+ ploul(pres dala) 
à hils <— pres dala$inleresLl ovez LimeS$hils 
+ last <- lengthihits) 
+ round ((mean(ktits[(last-10):lasz]) / mean(hits[1:1C]; - 1) * 100) + percentaga rise 
= } 
> 
> google trends("chemtrails") 
EL! -38 
> | 
6 een Crnergmnt 
RER Graphics Device 2 (ACTWE Es (ue Vx7 
Interest over time 
100 - 
| 
75- | 
£ | | 
: | ni 
2 À | — cemtrails (world) 
G ph + | 
& 50 - | | | | 4 
u | | | | | | *Ÿ | ‘| | | | 
\À La | h 
| à 7 Vi |] var {1 ll | 
LE CN M | 
| | | \| | | LS LL | je 
{| | 1} f | s || | 
|| | | ! (| 
| | x | | \ l'A 
| AN Et I À | 
|| | k Î [| [| {| \ | | 
ge— MMA AI PA an 
| LA} [ll a Lf\ | 
A; 
| 


2005 2010 2015 2020 
Date 
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Exemple 72.: Importer des données objets 3D (*.ob)j) 
R 3.5 


Le but ici va être d'apprendre à importer des objets 3D. Particulièrement dans le cas présent, 
les données de topographie relevées par la sonde Rosetta de la comète 67P/Churyumov- 
Gerasimenko. 


Pour cela nous utilisons le package rgb et sa fonction readOBJ( ), ainsi qu'au passage 
shade3d( ) et movie3d( ): 


Le n | 


R = C3 5 


S ] 


Writing "moviei20.png'" 
Loading required namespace: magick 
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Exemple 73.: Importer des données d'un scanner NRM 


Bruker Advanced III 500Mz 
R 3.6.3 


Nous allons importer des données d'un NMR du type suivant: 


Pour ceux intéressés aux principe de fonctionnement physique de ce type de NMR, nous 
conseillons la lecture suivante: 


Roger S: 
Macomber 
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Ce qui va suivre est essentiellement tiré de: 


http://www.socr.umich.edu/people/dinov/courses/DSPA_notes/18_BigLongitudinalDataAnal 
ysis_RNN.html 


D'abord installons les packages: 


R File Edit View Misc Packages Windows Help 


> fles packages de Bioconductor c'est un peu particulier... 

> if (!requireNamespace ("BiocManager", quietly = TRUE)) 

+ install.packages ("BiocManager") | 
> BiocManager::install("MassSpecWavelet") | 
Bioconductor version 3.9 (BiocManager 1.30.10), R 3.6.3 (2020-02-29) | 
Installing package(s) "'MassSpecWavelet' 

trying URL 'https://bioconductor.org/packages/3.9/bioc/bin/windows/contrib/3.6/Masssps 

| Content type 'application/zip' length 1242419 bytes (1.2 MB) 

| downloaded 1.2 MB 


< > 


Pour illustrer les possibilités de Rnmr1D 1.0, nous utiliserons l'ensemble de données fourni 
dans le package. Il s'agit d'un très petit ensemble de spectres RMN 1H° (6 échantillons) acquis 
sur un instrument Bruker Advanced III 500MZ (séquence ZG, solvant D20, pH 6), dérivé de 
feuilles de plantes. La conception expérimentale de l'étude s'est concentrée sur un traitement 
(stress vs contrôle) avec 3 répétitions pour chaque échantillon (non publié). 

S 
Nous allons donc lire les fichiers fournis dans le package Rnmr1D avec les fonctions natives 
de R pour ensuite les processer avec la fonction doProcessing( ): 


? Hydrogène 
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Sciences.ch 


MR RGui (64-bit) - [R Console] 


ŒR File Edit View Misc Packages Windows Help 


[EE 


Fe library("RnmriD") 

> data dir <- system.file("extra", package = "RnmriD") 
> cmdfile <- file.path(data dir, "NP macro cmd.txt") 

> str(cmdfile) 


chr "C:/Users/Vincent Isoz/Documents/R/win-library/3.6/Rnmr1iD/extra/NP macro _ cmd.txt" 


> samplefile <- file.path(data dir, "Samples.txt") 
> str(samplefile) 
chr "C:/Users/Vincent Isoz/Documents/R/win-library/3.6/Rnmr1D/extra/Samples.txt" 


> out <- RnmriD::doProcessing(data dir, cmdfile-=-cmdfile, samplefile-=samplefile, ncpu=detectCores()) 


RnmriD: --- READING and CONVERTING ---— 


RnmriD: Vendor-bruker, Type=fid, LB=0.3, GB=0, ZF=2, BLPHC=FALSE, PHCI=TRUE, FP=0, 


RnmriD: Generate the '"samples' & 'factors' files from the list of raw spectra 
RnmriD: -- Nb Spectra = 6 -- Nb Cores = 4 


RnmriD: Generate the final matrix of spectra... 


RARE TDE = 

|RnmriD: Process the Macro-commands file 

RARAPTLDE 

Rnmr1D: 

RnmriD: Baseline Correction: PPM Range = ( 4.966 , 9.348 ) 
Rnmr1D: Type=airPLS, lambda= 3 

RnmriD: Baseline Correction: PPM Range = ( 0.396 , 4.712 ) 
Rnmr1D: Type=airPLS, lambda= 4 

RnmriD: Baseline Correction: PPM Range = ( 0.621 , 1.522 ) 
Rnmr1D: Type=airPLS, lambda= 5 

RnmriD: Baseline Correction: PPEM Range = ( 1.227 , 1.353 ) 
RnmriD: Type=airPLS, lambda= 6 


RnmriD: Normalisation of the Intensities based on the selected PPM ranges... 
Rnmr1D: Method =CSN 
RnmriD: Zeroing the selected PPM ranges ... 


RnmriD: Zone 1 = ( 4.683 , 5.015 ) 

RnmriD: Alignment: PPM Range = ( 5.024 , 9.611 }) 

Rnmr1D: CluPA - Resolution =0.01 - SNR threshold=5 - Reference=0 
Rnmr1D: —--- Peak detection : nDivRange = 64 

Rnmr1D: —-- Peak detection time: 9.39000000000033 sec 
Rnmr1D: --- The reference spectrum is: 3 

Rnmr1D: —--- Spectra alignment to the reference: maxShift = 16 
Rnmr1D: --- Spectra alignment time: 1.59999999999991 sec 
RnmriD: Alignment: PPM Range = ( 2.652 , 2.742 ) 

Rnmr1D: Rel. Shift Max.=0.05 - Reference=0 

RnmriD: Alignment: PPEM Range = ( 2.651 , 2.677 }) 

Rnmr1D: Rel. Shift Max.=0.05 - Reference=0 

RnmriD: Alignment: PPM Range = ( 0.642 , 4.699 ) 

Rnmr1D: CluPA - Resolution =0.01 - SNR threshold=5 - Reference=0 
Rnmr1D: —-- Peak detection : nDivRange = 64 

Rnmr1D: —--- Peak detection time: 868.05999999999995 sec 
Rnmr1D: --- The reference spectrum is: 2 

Rnmr1D: —--- Spectra alignment to the reference: maxShift = 16 
Rnmr1D: --- Spectra alignment time: 1.71000000000004 sec 
RnmriD: Bucketing the selected PPM ranges ... 

Rnmr1D: UNIF - Resolution =0.01 - SNR threshold=3 - Append=0 


| 
| < 


TSP=TRUE 


- O X 


Voyons un peu le contenu des deux fichiers procéssés: 
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R As 64- bit) - 


R Fe Ecit View Mic Packagzs Windows “zlo pe. ER 
ÉSOBOSICE 


> cemditext <- read=ines icmdfile | 
> cuilexLl [uyreu(""#S", cmilexLl ; invezlL-TRUE)] 
[1] "493% Venudur-brukezr; Type-[id; LB-0.3; GB-0; ZF-2; BLPHC-FALSE; ?ACI-TRU£; FP-0; TSP-TRUE" 
Ie + Res 
[31 "# Baselire Correction: PPM Range = ( 4,966 , 9.348 1)" 
[4] "airpls 4.966 9.348 3 "” 
[ST 
[6] "# hasalire Correction: PPM Range = ( 0.336 , 4.712 )" 
LUJ “añrpls (1.396 4.712 4 
[817 
[9] "# Baselire Correction: PPM Range = ( 0.621 , 1.522 j" 
[20] "airpls 0.621 1.523 5 " 
FH TN 
[12] "# Basolire Correction: PPM Range = ( 1.227 , 1.353 j" 
[13] "airpls 1.227 1.353 6" 
[LA] ve 
[25] "# Normalisazisn | CIN ) o£ the In-ensities kased on the selected FPM ranges..." 
[16] "normalisation CSN" 
(E71.70:99 L-0€5* 
[10] “5.024 9.202" 
[29] "1.451 4.696" 
[20] "“EOL" 
[211 ©" 
1221 "# zeroinç the selected zones ..," 
[1231 "zero" 
[1241 "4.683 5.015" 
251 TER 
FHF61 7" 
[27] "# Alignrent of the selected zcnes ( S5_024 , 
[28] "“clupa 10.2 19.5 5.024 G.611 0.01 5 O0" 
[297 
[130] "# Alignrent ©0f the selected zcnes ( 2.652 , 2.742 )" 
[31] "align 2.652 2.742 0.05 0" 
[32] "" 
[133] "# Alignrent ©0£f the selected zcnes ( 2.651, 
[34] "“align 2.651 2.€77 0.05 0" 
[35] 
[136] "# Alignment of the selected zcnes ( 0.642 , 4.693 )" 
[37] "clupa 10.2 19.5 0.642 4.699 0.01 5 0" 
301 77 
1391 "# Bucketing - UNIFORM" 
1401 “kucket uni 10.2 10.5 C.01 3 O0" 
[141] "4.696 0.56" 
[1421 "3.389 5.008” 
1431: "Van? 
>| 


R Console] 


10 


s6vE  }° 


:677 Ÿ9 


La] 


{R Console] 


R File Edit View Misc Packages Windows Help 
EE] ee] @lE] 


read.table (samplefile , sep="\t", header=T, stringsAsFactors=FALSE) 
Spectrum Samplecode EXPNO PROCNO Treatment 

CD BBI _16P02-R1 R1 10 1 control 

CD_BBI_16P02-R2 R2 10 control 


CD_BBI_16P02-R3 R3 10 control 
CD BBI _16P02-R7 R7 10 stress 
CD_BBI_16P02-R8 R8 10 stress 
CD BBI 16P02-R9 R9 10 stress 


Nous pouvons maintenant fair quelques graphes: 
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E Y 
GR R Console EEE 
> par(mfrow=c(2,1)) 
> 
> plotSpecMat (out$specMat, ppm lim=c(0.5,5), K=0.33) 
> plotSpecMat (out$specMat, ppm lim=c(0.5,5), K=0, pyY=0.1) 
> 
M R Graphics: Device 2 (ACTIVE se (x 

be 
+ 
® 
N 
co D né 
3 o 
Z + 
ë © 
œ 
= 
— 0 
O 
+ 
® 
ao 
Oo 
5 4 3 2 1 
ppm 
co 
+ 
D 
N 
co +. 
3 
> + 
8 à 
2 «o 
€ 
— ee 
O 
+ 
® 
(es 
Oo 
5 4 3 2 1 
ppm 


Bref pour plus d'informations et autres exemples très intéressants, allez voir le lien déjà 
mentionné plus haut: 


https://cran.r-project.org/web/packages/Rnmr1D/vignettes/Rnmr1D.html 
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Exemple 74.: Web scraping de pages HTML avec formulaires 


(RSelenium) 
R 4.1.1 


Inutile de préciser Ô combien le Webscrapping est important. Par contre il est peut-être bon de 
rappeler qu'au niveau légal... vaut mieux faire les choses de manière juridiquement correctes 
si on ne veut pas de problèmes dans certaines pays. 


Pour les exemples qui vont suivre, nous allons jouer avec le site internet suivant: 


http://www.casablanca-bourse.com/bourseweb/Negociation- 
Historique.aspx?Cat=24\&lIdLink=302 


Qui ressemble à: 


# Accueil j% Plandusite DA Contact FAQ (f] Jours fériés (£j Mon compte Æg?Personnalser votre ticker 4 |Français| English 


a 
ATLANTA 47-60 STOKVIS NORD AFRIQUE 20-50 MEDPAPER 1802 LAFARGEHOLCIM MAR 227700 , | @ 


0 


Bourse Recherche , Accès direct à la cote 
de Casablanca 


t > Sélectionnez 
_ une valeur Distant TV 
Les cours sont en différés de 15 minutes 


Vous êtes ici : Accueil > MARCHE > Données du marché > Historique 
MARCHES 
MARCHES 
Négociation D Historique 


Indices 


Dénouement 
Données du marché RC 


> Cours des valeurs 


Choisissez une valeur : | ALLIANCES v 
+ Transactions 
+ Conventions d'animation OP penvde Date de début É Date de fin A © par mensuaiité 3ans v Valider 
> Programmes de rachat x x 
> Historique | I Télécharger les données 
Historique d'une durée de 36 mois 
Visualiser le graphe 
ACTEURS DU MARCHE 


Nombre de titres 
échangés 


Séance | Désignation | Premier Cours | Dernier Cours | + haut du jours + bas du jour 


Capitais ation 


REGLEMENTATION 


15/11/2016 ALLIANCES 90,00 89,10 90,00 88,00 10 578 1 127 019 484,80 
INTRODUCTION EN BOURSE 14/11/2016 ALLIANCES 90,20 90,00 92,00 90,00 20 058 1 138 403 520,00 
= — 11/1/2016 ALLIANCES 90,24 90,00 90,50 89,00 7 044 1 138 403 520,00 
BOURSE 10/11/2016 ALLIANCES 90,00 90,27 91,99 89,11 29 915 1 141 818 730,60 
09/11/2016 ALLIANCES 90,10 90,50 91,88 90,10 30 088 1 144 727 984,00 

VALEURS COTEES 
08/11/2016 ALLIANCES 90,00 90,01 92,00 90,00 38 195 1 138 530 009,30 


D'abord nous vérifions que le site est "up" avec le package httr et sa fonction GET ): 
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Ge RGui (64-bit) - [R Console] — 


R File Edit View Misc Packages Windows Help … EX 


> library("httr") 

> reponse <- GET("http://www.casablanca-bourse.com"}) 

> #la réponse '200' dans le monde du web veut dire "OK" 
> reponse$status code 

[1] 200 

> | 


Commençons par le chose la plus élémentaire qui est de faire une capture d'écran d'un site 
Internet avec le package webshot et sa fonction correspondante webshot( ): 


HR RGui (64-bit) - [R Console] O 


GR File Edit View Misc Packages Windows Help E x 


> library("webshot") 

> URL <- "http://www.casablanca-bourse.com/bourseweb/Negociation-Historique.aspx?Cat=246IdLink=302" 
> #on est obligés d'expliciter un useragent car sinon certains sites détectent les bots 

> #la capture n'est pas forcément bonne et ce surtout si la page web est mal scriptée 

> webshot (URL, file="c:/tmp/capture.png", delay = 1, 

+ useragent = "Mozilla/5.0 (Macintosh: Intel Mac OS X)") 


Donc on voit que contrairement à Selenium sur Python, la capture est catastrophique pour ce 
site. Alors que pour un autre site: 
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HR RGui (64-bit) - [R Console] o * | 


R File Edit View Misc Packages Windows Help 


library("webshot") 


webshot ("https://ec.europa.eu/eurostat/web/main/home", file="c:/tmp/capture.png", delay = 1, | 
useragent = "Mozilla/5.0 (Macintosh: Intel Mac OS X)") 


Le résultat est beaucoup plus satisfaisant: 


L_] EE 
eurostat rss "es + ES 
ananics E 


ee roc 


DE ir. PEN 


Maintenant voyons comment ouvrir le navigateur avec RSelenium afin de par la suite y faire 
des manipulations sur la page Internet choisie: 
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—_—_— L _— 5 1 —_ _ 


R RGuï (64-bit) - [R Console] 0 


| 
R File Edit View Misc Packages Windows Help 5 1 


library("RSelenium'") 
library("netstat") 


client _ server <- RSelenium::rsDriver (browser=c("firefox"), 
port=netstat: ‘free port (Ye 
verbose=F) 


VHHVV VV 


driver <- client server{["client"]] 
url <- "http://www.casablanca-bourse.com/bourseweb/Negociation-Historique.aspx?Cat=246ldLink=302" 


v 


> driverSnavigate(url) 

> 

> #fligne utile si le code crache et qu'il faut redémarrer Selenium 

> #system("taskkill /im java.exe /£f", intern=FALSE, ignore.stdout=FALSE) 


v 


Ce qui donne: 


Bourse de Casablanca ::. MARCHE - X + 


| -Ron casablanca-bourse.com 


# Accueil ñ Plan du site A Contact (= FAQ q Jours fériés ra À Mon compte  €@Personnaliser votre ticker > |Français| English 


ALLIANCES ATTHJARIWAFA BANK DISWAY SONA SID 


Bourse FEES à Sélectionnez 
de Chiance Recherche, À Accès direct à la cote © = unies 


Les cours sont en différés de 15 minutes 


Vous êtes ici: Accueil> MARCHE > Données du marché > Historique 


BOURSE DE CASABLANCA S.A 
CREER | marcHes 


MARCHES 


2 Historique 


Négociation 

Indices 
Dénouement 
Données du marché 


> Cours des instruments Choisissez un instrument : | Choisissez un instrument Y 


> Transactions F Fe fe 
: s © Par période Date de début : él Date de fin : 54 © Par mensualité Gmois v Valider 
> Contrats de liquidité 

> Programmes de rachat 

> Contrats d'apport de liquidité 


> Conventions d'assistance 


Télécharger les données 


> Historique 


ACTEURS DU MARCHE 


AUTORITES / 
REGLEMENTATION 


INTRODUCTION EN BOURSE 


< 


Nous voulons un code qui choisira dans la première liste déroulante comme instrument 
ALLIANCES et pour mensualité dans la deuxième liste déroulante, l'option 3 ans. Le code 
correspondant donne: 
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4 File Edit View Misc Packages Windows Help CU EX 


VVNNVNNVNNVNVNNVNNVNNVN ENV EN NNNNN ENV V OV V 


[a] 


library("RSelenium'") 
library("netstat") 


client_server <- RSelenium::rsDriver (browser=c{("firefox"), 
port=netstat::free port{(), 
verbose=F) 


driver <- client _ server[["client"]] 
url <- "http://www.casablanca-bourse.com/bourseweb/Negociation-Historique.aspx?Cat=2461dLink=302" 
driver$navigate (url) 


#on met l'instrument sur ALLIANCES 

option <- driver$findElement (using = 'xpath', 

"//select[@id='HistoriqueNegociationl HistValeurl DDValeur']/option[text ()="ALLIANCES']") 
option$clickElement () 


#on met le par mensualité sur 3 ANS 

option <- driver$findElement (using = 'xpath', 
"//select{[@id='HistoriqueNegociationl HistValeurl DDuree']/option[text()='3 ans']") 
option$clickElement () 


#on clique sur VALIDER 
driver$findElement (using = 'id', value = "HistoriqueNegociationl HistValeurl ImageButtonl')$clickElement () 


#on clos tout correctement au besoin 
#driver$closeWindow() 
#system("taskkill /im java.exe /f", intern=FALSE, ignore.stdout=FALSE) 


Le résultat sera: 


Bourse de Casablanca ::. MARCHE 


(e) 


1 Accueil 3% Planduste OA Contact Mon compte  @@Personnaliser votre ticker Zup | Français | Engish EX 
- | 
ALLIANCES ATTHJARINWAFA BANK ee DISWAY bi SONASID 
Bourse ès di à Sélectionnez 
= Recherche! À Accès direct à la cote M  mebimant 
Les cours sont en différés de 15 minutes 
Vous êtesici: Accueil> MARCHE > Données du marché > Historique 
BOURSE DE CASABLANCA S.A 
MARCHES 
D Historique 
Négociation 
Indices 
Dénouement | mnmn | 
Données du marché 
> Cours des instruments Choisissez un instrument : | ALLIANCES * 
> Transactions ; z 
Lau © Par période Date de début ÉA Date de fin F4  ©pParmensualité 3ans v Valider 
> Programmes de rachat & Télécharger les données 
> Contrats d'apport de liquidité Historique d'une durée de 36 mois 
> Conventions d'assistance n Visualiser le raone 
> Historique l | 
: ignation | Premier Cours | DernierCours | +hautdujours | +basdujour | Nombredeïires | Con 
échangés 
ACTEURS DU MARCHE (el (el 
05/09/2022 ALLIANCES 66,75 67,55 67,88 66,75 26 823 1 491 408 619,40 
"AUTORITES / 02/09/2022 ALLIANCES 65,00) 66,00 66,48| 64,51 45 764) 1 457 186 808,00 
REGLEMENTATION 01/09/2022 ALLIANCES 63,80 64,83 66,75 62,52 55 200 1431 354 860,00 
31/08/2022 ALLIANCES 62,50) 63,80] 64,00 62,50) 7319 1408 613 914,40 
oo 30/08/2022 ALLIANCES 65,00 63,30 65,00 63,30 1 397 574 620,40 
29/08/2022 ALLIANCES 6422 65,00) 65,50 64,22] 1 435 108 220,00 
26/08/2022 ALLIANCES 6420 65,00 65,00 1 435 108 220,00 
25/08/2022 ALLIANCES 62,20 64,00] 64,44 1413 029 632,00 
24/08/2022 ALLIANCES 63,20 644 3969 1 408 613 914,40 
23/08/2022 ALLIANCES 6223 63,40 17 049] 1 390 951 044,00 
eines RE de 22/08/2022 ALLIANCES 6459 64,99 34935 1 387 418 469,90 
19/08/2022 ALLIANCES 64,01 64,80 65,30 51 803 1 430 692 502,40 
SERVICES _ _ 
18/08/2022 ALLIANCES 62,49 63,79 65,00 44 976 1 408 393 128,50 
17/08/2022 ALLIANCES 61,80) 61,89] 62,00 10 127 1266 443 811,30 | 
16/08/2022 ALLIANCES 62,00 62,09 62,30 7519 1 370 859 528,90 
7 15/08/2022 ALLIANCES 61,75 62,38 6264 7 605] 1 377 262 319,40 
BUREAU VERITAS 12/08/2022 ALLIANCES 60,00 61,21 62,15 20 874 1351 430 371,50 
Certification 
11/08/2022 ALLIANCES 58,02) 59,49] 60,00 56 183 1 313 455 200,10 
10/08/2022 ALLIANCES 56,50 57,99 57,99 13227 1 280 337 318,10 
09/08/2022 ALLIANCES) 55,55) 56,00) 56,00 1 733) 1 236 400 928,00 
NENENNI2 ALLIANCES se nn se c1 een see 7 0cQ Y 
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Pour la suite 1l faut connaître le XPath de l'élément qu'on veut lire. Le mieux pour cela 
consiste à utiliser les Developper Tools natifs de Chrome, de chercher le nœud HTML de 
l'élément d'intérêt et de faire un clic droit et sélectionner Copy full XPath: 


Par pennaz Dusv ue in " vrai we nur + = AT MENSNANTE sans - PPErEET | 


Cortrats de 1iquicité 
Piogrammes de rachat 
Cortrais d'apport ce 

fqu dité 

Canventinns d'assistance 


Œ Télécharger les donrées 
tablefarlali1bleu 777 


Visuæliser 12 qrapne 


NE Césrynator Frertmor Cours Dernier Couts bout du jours + bes chi jeu re — Canäsisetne 
Edit as HTML As aL ALLIANCES À + au 203 ot 
V2X 0092 REMNCES 35,00 EX] É648 S181 LA) 1 457185 908,00 
LtS2022 AELIANGES 536€ 5163 ée7s 6252 55 200 4212353260 00 
JV050072 ALLIANCES 5250 Cr43) €400 st 735 "ANS 61391440 
Cut LH: SLLIANCES CELA 4 py €300 o3,30 15 545 287 573 520,0 


Duplicate element 


Delete element 


= sx eu Es 30 121 546 * 4751082200 
Copy h » Copy clement 
ir 6301 05:00 (520) 27 141510922000 
CopyouterTML D» LE F4 CE] DAAN  CAMUOIRIINN 
; À sie 5301 cx44 0202 > 308 408 019 314 20 
Hide elerrmel Copy sec lu 
SRE F2 #yu) Esa Cr tbe russe 
LORE PRE SEEN sas eu €490 szpt JADE “397412346000 
Break on Copy styles ET v4&) CE] situ RUE L'a30 52 02 0 
Copy XFath 52.48 e379 €5,00 €200 14078 408 203 128,59 


Expand recursively 
Copy full XPath 1366 #43 011 50 
Collapse children 
Coplure rode sueenshul 
Suull inlu view 


Focus 


Dodge settings. 


Store as global variable 


Na 


+ table[3]/tbody/tr/td[3]/div/tabl 
+ tbody/tr/td/table/tbody/tr[2]/tdf2] 


|+ td/div") 


fon stocke son contenu dans un variable 
table html <- datatableSgetElementAttribute ("innerHTML") 


| Welcome to 
| Warning message: 
package ‘clipr’ was built under R version 4.1.2 
write clip(table html) 
| Warning message: 
| In flat _str(content, breaks) 


Nous avons alors en collant le contenu du presse-papier dans le bloc-notes le résultat suivant 
où nous voyons bien le début des données qui nous intéressent en bas (rectangle rouge): 
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Sciences.ch 


M “untitled 


File Edit 


otepad 


Format View Help 


<div align="right"> 


<a id="HistoriqueNegociation1i_HistValeur1_LinkButton2" class="ariali18oldbleu" href="javascript:_doPostBack 


('HistoriqueNegociation1$HistvValeur1$Linkgutton2',"")">visualiser le graphe</a> 
</div> 


<table id="arialiibleu" width="188%" cellspacing="e" cellpadding="e" border="e"> 


<tbody><tr> 


<td><img src="img/fiche_technique_menu/tab_c_h_g.gif" width=" 


<td 
<td 
<td 
<td 
<td 
<td 
<td 
<td 
<td 
<td 
<td 
<td 
<td 
<td 
<td 


background="img/fiche_ technique _menu/tab_h.gif”"><img sr 
background="img/fiche_technique_menu/tab_h.gif"><img si 
background="img/fiche_technique_menu/tab_h.gif"><img 5 
background="img/fiche_technique_menu/tab_h.gif"><img 
background="img/fiche_technique_menu/tab_h.gif"><img 
background="img/fiche_technique_menu/tab_h.gif"><img 
background="img/fiche_technique_menu/tab_h.gif"><img 
background="img/fiche_technique_menu/tab_h.gif”"><img 
background="img/fiche_technique_menu/tab_h.gif"><img 
background="img/fiche_ technique _menu/tab_h.gif"><img 
background="img/fiche_technique_menu/tab_h.gif"><img 
background="img/fiche_technique_menu/tab_h.gif"><img 
background="img/fiche_technique_menu/tab_h.gif"><img 
background="img/fiche_technique_menu/tab_h.gif"><img 


background="img/fiche_technique_menu/tab_h.gif"><img src: 


1" height="11"></td> 

img/espaceur.gif" width="1" 
img/espaceur.gif" width="1" 
img/espaceur.gif" width="1" 
img/espaceur.gif" width="1" 
img/espaceur.gif" width="1" 
img/espaceur.gif" width="1" 
img/espaceur.gif" width="1" 
width="1" 
width="1" 


height="1"></td> 
height="1"></td> 
height="1"></td> 
height="1"></td> 
height="1"></td> 
height="1"></td> 
height="1"></td> 
height="1"></td> 
height="1"></td> 
height="1"></td> 
height="1"></td> 
height="1"></td> 
height="1"></td> 
height="1"></td> 
height="1"></td> 


img/espaceur.gif" 
img/espaceur.gif" 
img/espaceur .gif" 
img/espaceur.gif” 


<td><img src="img/fiche_technique_menu/tab_c_h_d.gif" width="11" height="11"></td> 


</tr> 
<tr> 


<td width="11" valign="top" background="img/fiche_technique_menu/tab_g.gif"><img src="img/espaceur.gif" width="1" height="1"></td> 


<td class="arial11blanc" 
<td class="ariali1blanc" 
<td class="arial11blanc" 


<td 
<td 


class="arial11blanc" 
class="arial11blanc" 


<td 
<td 


class="arial11blanc" 
class="arial11blanc" 


<td 
<td 
<td 
<td 
<td 
<td 


class="arial11blanc" 
class="arial11blanc" 
class="arial11blanc" 
class="arial11blanc" 
class="arial11blanc" 
class="arial11blanc" 
<td class="ariali1blanc" 


height="25" bgcolor-"#587992" align="center">Séance</td> 
width= valign="bottom" height="25" bgcolor="#587992" align="center"><img src="img/ssss.gif" width="3" 
bgcolor="#587992" align="center">Désignation</td> 


width="5" valign="bottom" height="25" bgcolor="#587992" 
bgcolor="#587992" align="center">Premier Cours</td> 


align="center"><img src="img/ssss.gif" width="3" 


width="s" valign="bottom" height="25" bgcolor="#587992" 
bgcolor="#587992" align="center">Dernier Cours</td> 


align="center"><img src="img/ssss.gif" width="3" 


width="5s" valign="bottom" height="25" bgcolor="#587992" 
bgcolor="#587992" align="center">+ haut du jours</td> 
width="5" valign="bottom" height="25" bgcolor="#587992" 
bgcolor="#587992" align="center">+ bas du jour</td> 
width="5" valign="bottom" height="25" bgcolor="#587992" align="center "><img src="img/ssss.gif”" width="3" 
bgcolor="#587992" align="center">Nombre de titres <br> échangés</td> 

width="5s" valign="bottom" height="25" bgcolor-"#587992" align-"center"><img src="img/ssss.gif" width="3" 


align="center"><img src="img/ssss.gif" width="3" 


align="center"><img src="img/ssss.gif" width="3" 


<td class="ariali1blanc" bgcolor="#587992" align="center">Capitalisation</td> 
<td width="11" valign="top" background="img/fiche_technique_menu/tab_d.gif"><img src="img/espaceur.gif" width="1" height="1"></td> 
</tr> 
<tr> 
<td><img src="img/fiche_ technique _menu/tab_c_b_g.gif” width="11" height="11"></td> 
<td background="img/fiche_technique_menu/tab_b.gif"><img si img/espaceur.gif" width="1" 
<td background="img/fiche_technique_menu/tab_b.gif"><img src="img/espaceur.gif" width="1" 
<td background="img/fiche_technique_menu/tab_b.gif"><img src="img/espaceur.gif" width="1" 
<td background="img/fiche_technique_menu/tab_b.gif"><img src="img/espaceur.gif" width="1" 
<td background="img/fiche_ technique _menu/tab_b.gif"><img src="img/espaceur.gif" width= 1"></td> 
<td background="img/fiche_ technique menu/tab_b.gif”"><img src="img/espaceur.gif" width="1" height="1"></td> 
<td background="img/fiche_technique_menu/tab_b.gif"><img src="img/espaceur.gif" width="1" height="1"></td> 
<td background="img/fiche_technique_menu/tab_b.gif"><img src="img/espaceur.gif" width="1" height="1"></td> 
<td background="img/fiche_ technique _menu/tab_b.gif"><img src="i if" width="1" height="1"></td> 
<td background="img/fiche_technique_menu/tab_b.gif"><img sr width="1" height="1"></td> 


height="1"></td> 
height="1"></td> 
height="1"></td> 


<td background="img/fiche_technique_menu/tab_b.gif"><img src="img/espaceur.gif" width="1" height="1"></td> 
<td background="img/fiche_ technique _menu/tab_b.gif"><img src="img/espaceur.gif" width="1" height="1"></td> 
<td background="img/fiche_technique_menu/tab_b.gif”"><img src="img/espaceur.gif" width="1" height="1"></td> 
<td background="img/fiche_technique_menu/tab_b.gif"><img si img/espaceur.gif" width="1" height="1"></td> 


<td background="img/fiche_technique_ menu/tab_b.gif"><img sr width="1" 
<td><img src="img/fiche_technique_menu/tab_c_b_d.gif" width="11" height="11"></td> 
<tr> 


height="1"></td> 


<tr class="arialiigris"> 
<td height="26"><img src="img/espaceur.gif" width="11" height="18" border="e"></td> 
<td><span id="HistoriqueNegociation1_Histvaleur1_RptListHist_ctle1 Leseance">05/09/2022</span></td> 
<td width="5s" align="center"><img src="img/espaceur.gif" width="1" height="18" border="e"></td> 
<td align="right"><span id="HistoriqueNegociation1 _HistvValeur1_RptListhist_ctle1i Label1">ALLIANCES</span></td> 
<td width="5" align="center"><img src="img/espaceur.gif" width="1" height="18" border="e"></td> 


<td align="right"><span id="HistoriqueNegociation1_HistvValeur1_RptLlistHist_ctlei Label2">66,75</span></td> 


Ln 3, Col 34 


100% Windows(CRLF)  UTF-8 


height="28"></td> 


height="28"></td> 


height="28"></td> 


height="28"></td> 
height="28"></td> 
height="28"></td> 


height="28"></td> 


Pour extraire les données de ce tableau, nous utilisons (nous remettons tout le code depuis le 
début et avons mis dans un rectangle rouge la nouvelle partie): 
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 RGui (64-bit) - [R Con 


R File Edit View Misc Packages Windows Help _ 


library("RSelenium") 
library("netstat") 


client_server <- RSelenium: :rsDriver (browser=c("firefox"), 
port=netstat::free port(}), 
verbose=F) 
driver <- client _server{[["client"]] 
url <- "http://www.casablanca-bourse.com/bourseweb/Negociation-Historique.aspx?Cat=246IdLink=302" 
driver$navigate (url) 


fligne utile si le code crache et qu'il faut redémarrer Selenium 
#system("taskkill /im java.exe /f", intern=FALSE, ignore.stdout=FALSE) 


#on met l'instrument sur ALLIANCES 

option <- driver$findElement (using = 'xpath"', 
"//select[@id='HistoriqueNegociationl HistValeurl DDValeur']/option[text ()="ALLIANCES']") 
option$clickElement () 


$on met le par mensualité sur 3 ANS 

option <- driver$findElement (using = 'xpath', 

"//select[@id='HistoriqueNegociationl HistValeurl DDuree']/option[text()='3 ans']") 
option$clickElement () 


#on clique sur VALIDER 
driver$findElement (using = 'id', value = ‘HistoriqueNegociationl HistValeurl ImageButtonl')$clickElement () 


VMVVYVVVYV ENV ENV NN NN NN NY 


étant juste à l'élément du dessus!) 


datatable <- driver$findElement (using = 'xpath',"/html/body/form/table/tbody/tr[2]/ta[2]/ 
table[3]/tbody/tr/td[3]/div/table/tbody/tr[6]/td/table/tbody/tr/td/table/ 
tbody/tr/td/table/tbody/tr[2]/td[2]/table/tbody/tr{l1]/td/table/tbody/tr[5]/ 

td/div") 


#on stocke son contenu dans un variable 
table html <- datatable$getElementAttribute ("innerHTML") 


library("XML") 
elem html<-htmlTreeParse (table html, uselnternalNodes = T, asText = TRUE) 


data_ table <- readHTMLTable(elem html, header = T, stringsAsFactors = FALSE) [[1]] 
head(data table,5) #fles cinq premières lignes 


VUNVVNVNVVV ++ + V 


SAfÂ@ance DÂfÂ@signation Premier Cours Dernier Cours + haut du jours + bas du jour 


06/09/2022 ALLIANCES 67,10 66,79 67,99 65,30 
05/09/2022 ALLIANCES 66,75 67,55 67,88 66,75 
02/09/2022 ALLIANCES 65,00 66,00 66,48 64,51 


Nombre de titres ÂAfÂ@changAfÂes Capitalisation 


14Â 965 lÂ 474Â 628ÂÀ 892,50 
26 823 lÂ 491ÂÀ 408Â 619,40 
45Â 764 lÂ 457À 186ÂÀ 808,00 


5 x 


Donc nous avons atteint notre objectif! Le reste c'est du nettoyage classique et ennuyant…. 
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10. Manipuler, filtrer/trier des données de data frame 
(Data Munging) 


Contenu 

Exemple 75.: Créer un data frame à partir de saisie simple 514 
Exemple 76.: Créer un data frame à partir de fonctions... 515 
Exemple 77.: Résumé structurel d'un date frame et Data Quality... 516 
Exemple 78.: Renommer des intitulés de colonnes... 21 
Exemple 79.: Renommer des intitulés de lignes... 522 
Exemple 80.: Ajouter une colonne avec des identifiants uniques 525 
Exemple 81 Créer uné colonne dé rangs. esta an et nee 524 
Exemple 82.: Prendre un sous-ensemble (subset) 526 
Exémolé:83.; Appliquer un Hire: mnt te nn et ee 927 
Exemple 84.: Prendre un sous ensemble filtré 531 
Exemple 85.: Utiliser les techniques de filtrage pour trouver la valeur proche 532 
Exemple 86.: ÉcbantilonnApes. rt an De dx msn 533 
Échantillonnage aléatoire simple... 534 
Échantillonnage stratifié (probabilités proportionnelles) 536 
Suret SOUuS-échantillonnage:;s rss lilas esters enr ttee lis f te Pl tteti nn Pt 539 
Exemple 87.: Éliminer des COLONNES sens. 540 
Exemple 88:: Tri simple ét multiple (trier):::55uuttalnste indienne 545 
Exemple 89.: Chercher et supprimer des doublons 549 
Exemple 90" Remplacer dés valeurs: test En a ne nets ee 551 
Exemple. 91:: Accélérer l'accès aux colonnes ;ssscsssiisiisst since 552 
Exemple 92.: Empiler/Désempiler des données“de data frame 293 
Exemple 93.: Empiler (fusionner) des donnéès non-homogènes .….................................. 564 
Exemple 94.: Synthétiser/Aggréger des données (tables de contingences)...................… 565 

Exemple 95.: Transformer des données longitudinales en transervales (et l'inverse) 
(dépivoter VS DIVOLÉr) natif ia en a idte sand nate TE 
Exemple 96.: Tableau disjonctif complet et tableau de Burt... 583 
Exemple 97.: Dépivoter des données de Microsoft Excel... 584 
Exemple 98.: Traiter un vecteur dé texte sssteinsiranseishnsneneerlnesiieennenen 586 
Exemple 99.: Travailler avec des valeurs absentes (NA)... 587 
Identifier les valeurs manquantes NA 588 
Supprimer les valeurs manquantes NA... iii 589 
Remplacer les valeurs manquantes NA dans un dataframe....................................... 591 
Analyser les données manquantes... ss 595 
Imputer les valeurs manquantes statistiquement 602 
Exemple 100.: Fusionner des données par clé de mappage (RECHERCHEV) 604 
Full (Outer) 10:56 nn et nine ann nat es 605 
Éeft (Outer) JOIN: sen ne Te a nl rt nt ten em then nn tea 605 
Ripht (OUT) JON EEE NE Re ne en TE ere Et à TES et Unes 606 
Innér omis tiers ue etre nt li tn ché ne Gel ot les een co 606 
CTOSS JOIN en site dan ln Me It ed dre OM ent han nn ptdr 607 
Exemple 101.: Afficher un data frame en tant que table... 608 
Exemple 102.: Différences entre apply, lapply, sapply et autres... 610 
apply sie in imminent dindnenes anne nil tr dut MI NN CIRE 611 
ET 612 
CAPPIV ES MUR LS A NE SA AR ME SR AE AE UE A SN 613 
pps nine nina re ee nr ere re nee née ee ut 614 
SAPPLV sien mn nina rm etes ner) grise 615 
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VapplV serie rit Mme en nt dr 2 en de te nee dessins sde 616 
MAPPLY set ane Nr an mia ahmed tendon eee Une cel 617 
ÉAPDIV EE SR A a nt A DEA des idee dt 618 
TAPPIV -mannenn e M n  Mr  n  n  enn ee Ne a ns ne 619 
DA: WTA AR ne a RÉ ee te dE eo end DE ue 620 
PACKAGES SOI ÉLEVÉE nn ne RU RS Nr Ne 621 
Packasé dplyr:s at arte nh nn nine tn tel Man Rte net is 621 
Package data table sie font tienne nant then ne di ftetnen in di est 662 
Package bre er nn nn él ar rot A fait Ant tien et ati tn te tte 683 
ExempleComparaisondé daté irames.: saintes nsiinaneiesRires 684 
S 
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Pour traiter des bases des manipulations des data frames, nous allons travailler avec les 
données suivantes: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> setwd("C:/") — 


> mydata=read.csv("VentesClean.csv",header=T,sep=";") | 
> mydata 
NClient ictivite NDeCommande DateDeCommande Article Quantite PrixParPiece Rabais PrixTotaläivecRabais FacturePayee 
L 100 Assurances L 03.01.2000 Compaq Presario 100 12 1650 1.50% 19503.00 Qui 
2 123 Machines/Outils 2 03.01.2000 IBM 500 2 2299 0.00% 4598.00 Qui 
3 109 Éducation 3 03.01.2000 AST Intel 150 s 2690 0.00% 13450.00 Oui |= 
= 104 Éducation 4 03.01.2000 AST Intel 200 3 3190 0.00% 9570.00 Oui 1 
5 117 Banques $ 04.01.2000 Compaq Presario 100 19 1650 1.50% 21126.25 Oui 
6 103 Assurances 6 04.01.2000 AST Intel 150 2 2690 0.00% 5380.00 Oui 
HA 104 Éducation 7 04.01.2000 AST Intel 200 2 3190 0.00% 6380.00 Oui 
6 JTE Alimentaire 6 04.01.2000 IBM 500 4 2299 0.00% 9196.00 Oui 
9 113 Construction 9 04.01.2000 Compaq Presario 100 4 1650 0.00% 6600.00 Oui 
10 116 Pharmaceutique 10 04.01.2000 IBM 500 2 2299 0.00% 4598.00 Oui on 
11 110 Distribution cire 05.01.2000 AST Intel 200 6 3190 1.50% 18852.90 Oui 
12 112 Machines/Outils 12 05.01.2000 Compaq Presario 100 6 1650 1.50% 9751.50 Oui IN 
13 123 Machines/Outils 13 05.01.2000 IBM 500 6 2299 1.50% 13587.09 Oui 
14 113 Construction 14 05.01.2000 AST Intel 150 3 2690 0.00% 8070.00 Oui 
15 115 Distribution 15 05.01.2000 Compaq Presario 100 8 1650 1.50% 13002.00 Oui 
16 124 Éducation 16 05.01.2000 AST Intel 200 8 3190 1.50% 25137.20 Oui 
17 124 Éducation si 05.01.2000 Compaq Presario 100 LA 1650 1.50% 17877,75 Oui 
18 106 Construction 18 05.01.2000 AST Intel 200 11 3190 1.50% 34563.65 Oui 
19 101 Construction 19 05.01.2000 Compaq Presario 100 14 1650 1.50% 22753.50 Non 
20 116 Pharmaceutique 20 06.01.2000 IBM 500 7 2299 1.50% 15851.60 Non 
21 112 Machines/Outils 21 06.01.2000 AST Intel 150 6 2690 1.50% 15897.90 Oui 
22 125 Construction 22 06.01.2000 Compaq Presario 100 23 1650 3.00% 36811.50 Oui 
23 100 Assurances 23 06.01.2000 IBM 500 3 2299 0.00% 6897.00 Oui 
24 125 Construction 24 06.01.2000 AST Intel 200 2 3190 0.00% 6380.00 Oui 
25 104 Éducation 25 07.01.2000 AST Intel 150 12 2690 1.50% 31795.80 Oui 
26 126 Machines/Outils 26 07.01.2000 AST Intel 150 24 2690 3.00% 62623.20 Oui 
27 121 Pharmaceutique 27 07.01.2000 IBM 500 8 2299 1.50% 18116.12 Non 
28 114 Distribution 28 07.01.2000 AST Intel 200 9 3190 1.50% 28279.35 Oui 
29 103 Assurances 29 07.01.2000 Compaq Presario 100 6 1650 1.50% 9751.50 Oui 
30 125 Construction 30 07.01.2000 AST Intel 200 4 3190 0.00% 12760.00 Oui 
31 120 Banques 31 10.01.2000 AST Intel 150 2 2690 0.00% 5380.00 Oui 
32 Lis Alimentaire 32 10.01.2000 Compaq Presario 100 16 1650 3.00% 25608.00 Qui 
33 118 Éducation 33 10.01.2000 IBM 500 3 2299 0.00% 6897.00 Oui 


Par rapport à ce que nous allons voir il faut savoir qu'il existe toujours plusieurs manières 
d'arriver au résultat. Le but de cet exercice est sütout d'étudier des commandes que vous 
retrouverez dans d'autres contextes plus importants, sur de nombreux forums ou livres. Bref 
c'est une culture générale qu'il faut acquérir pour être à l'aise. 
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Exemple 75.: Créer un data frame à partir de saisie simple 
R 3.6.1 


Bon voilà une situation bien "bourrin" quand on veut faire des tests à la va-vite ou que l'on est 
pressé par le temps. 


On peut saisir les données directement "à l'arrache" dans la console et ensuite grâce aux 
fonction read.table( ) et textConnection( ) transformer le résultat en data frame: 


M RGui (64-bit R Console] _ 
R File Edit View Misc Packages Windows Help | EUX 
EROISEBIOIE 

> Input<-(" 

+ Food Raw.p 

+ Blue fish .34 

+ Bread .594 

+ Butter “ele 

+ Carbohydrates -364 

+ Cereals and pasta .074 

+ Dairy products . 94 

|+ Eggs .275 

+ Fats -696 

+ Fruit -.269 

+  Legumes -341 

+  Nuts -06 

+ Olive oil -008 

+  Potatoes -269 

|+ Processed meat -986 | 
+ Proteins -042 | 
+ Red meat 2 

+ Semi-skimmed milk .942 

+ Skimmed milk .222 

+ Sweets -.762 

+ Total _ calories -001 

+ Total meat 975 

+ Vegetables “216 

+ White fish : 205 

+ White meat -041 

+ Whole milk -039 

+ *) 

> 

> mydata<-read.table (textConnection(Input),header=TRUE) 

> 
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Exemple 76.: Créer un data frame à partir de fonctions 
R 3.0.2 


Voici un cas très utile pour tous les domaines de la science: Comment créer un data frame à 
partir d'une séquence ou de fonctions mathématique connues? 


Pour ce faire on va considérer ce petit exemple prix de la micro-économie qui utilise "bien 
évidemment" la fonction data.frame() pour arriver à nos fins (!): 


R 
R File Edit View Misc Packages Windows Help 


ESOBCEIEIE 


> linear <- function(p, alpha, beta) {alpha*p + beta} 
| > constant _elast <- function(p, alpha, beta) {exp(alpha*log(p)+beta)} 
> logistic <- function(p, c, alpha, p0){c/(1+exp(-alpha*(p-p0)))} 
> 
> p <- seq(1, 100) 
> yi <- linear(p, -1, 100) 
> y2 <- constant _elast(p, -.5, 4.5) 
> y3 <- logistic(p, 100, -.2, 50) 
> 
> df <- data.frame('Prices' = p, 'Linear' = yl, "Constant elast' = y2, 'Logistic' = y3) 
> head(df) 
Prices Linear Constant elast Logistic 
1 e À 99 90.01713 99.99446 
2 2 98 63.65172 99.99323 
3 3 97 51.97141 99.99173 
El E 96 45.00857 99.98990 
S 5 95 40.256688 99.98766 
6 | 6 94 36.74934 99.98493 
> 
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Exemple 77.: Résumé structurel d'un date frame et Data 


Quality 
R 3.0.2 


Les commandes str() , dim() ou encore nrow() et ncolumn() appliqués à des data frame 
sont bien utiles pour avoir un résumé de ce que l'on a: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> setwd("C:/") 
> mydata<-read.csv("VentesClean.csv'",header=T,sep=";:") 
> strimydata) 
‘'data.frame!: 109 obs. of 10 variables: 
$ NClient > dot 100 123 109 104 117 103 104 111 113 116 
$ ictivite : Factor w/ 8 levels "ilimentaire",..: 2766326148 
$ NCommande s Ant 1 2 3 4 5 6 7 6 9 10 
$ DateDeCommande : Factor w/ 21 levels "03.01.2000","04.01.2000",..: 1111222222 
$ ärticle : Factor w/ 4 levels "AST Intel 150",..: 3 412312 43 4 
$ Quantite s int 12 2 5 3 13 2 2 442 
$ 
$ 
$ 
$ 


PrixParPiece : int 1650 2299 2690 3190 1650 2690 3190 2299 1650 2299 
Rabais : Factor w/ 4 levels "O.00%","1.50$%",..: 2111211111 
PrixTotalivecRabais: num 19503 4598 13450 9570 21128 
FacturePayee : Factor w/ 2 levels "Non","QOui": 2222222222 

> dimimydata) 

[1] 109 10 

> dimimydata) [1] 

[1] 109 

> dimimydata) [2] 

[1] 10 

> nrow(mydata) 

[1] 109 

> ncol(imydata) 

[1] 10 

> | 


< 


Nous avons dans le cours théorique, mentionné la norme ISO 8000 de qualité des données. 
Voyons un exemple de package dlookr permettant de faire une petite analyse rapide avec la 
fonction diagnose( ): 
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MR RGui (64-bit) - [RC ] 
ŒR File Edit View Misc Packages Windows Help ex 


FFE eE | 


> library("dlookr") 

> #on charge un package avec un jeu données 
> library("nycflights13") 

> dim(flights) 

[1] 336776 19 

> #analyse simple 

> diagnose(flights) 

# À tibble: 19 x 6 


variables types missing count missing percent unique count unique rate 
<chr> <chr> <int> <db1> <int> <db1> 

1 year integer () () 1 0.00000297 

2 month integer 0 0 12 0.0000356 

3 day integer ( ( 31 0.0000920 

4 dep time integer 8255 2.45 1319 0.00392 

5 sched dep time integer 0 0 1021 0.00303 

6 dep delay numeric 8255 2.45 528 0.00157 

7 arr_time integer 8713 2:59 1412 0.00419 

8 sched arr time integer 0 0 1163 0.00345 

9 arr_ delay numeric 93430 2.80 578 0.00172 
|10 carrier character 0 0 16 0.0000475 
11 flight integer ) (e) 3844 0.0114 
[12 tailnum character 2512 0.746 4044 0.0120 

13 origin character 0 ( 3 0.00000891 
14 dest character 0 0 105 0.000312 
15 air time numeric 9430 2.80 510 0.00151 

16 distance numeric 0 0 214 0.000635 
17 hour numeric 0 0 20 0.0000594 
18 minute numeric 0 0 60 0.000178 
19 time hour POSIXct 0 0 6936 0.0206 
[> > 


Il y a aussi un rapport pour les variables catégorièlles avec la fonction diagnose_category( ): 


R RGui (64-bit) - [R Console] — 


| R File Edit View Misc Packages Windows Help - & x 


AC] 


> diagnose category(flights) 
# À tibble: 33 x 6 


variables levels N freq ratio rank 
<chr> <chr> <int> <int> <dbl> <int> 
1 carrier UA 336776 58665 17.4 g À 
2 carrier B6 336776 54635 16.2 2 
3 carrier EV 336776 54173 16.1 3 
4 carrier DL 336776 48110 14.3 4 
S carrier AA 336776 32729 9.72 5 
| 6 carrier MQ 336776 26397 7.84 6 
7 carrier US 336776 20536 6.10 7 
8 carrier SE 336776 18460 5.48 8 
| 9 carrier WN 336776 12275 3.64 9 
10 carrier VX 336776 5162 1.53 10 
= FF with 23 more rows 
> 


Et aussi un rapport pour les outliers avec la fonction diagnose_outlier( ): 
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R RGui (64-bit) - [R Console] _ (ee | 
R File Edit View Misc Packages Windows Help x 


> diagnose outlier(flights) 


# À tibble: 14 x 6 
| variables outliers cnt outliers ratio outliers mean with mean without mean 
<chr> <int> <db1> <db1> <db1> <db1> 
1 year 0 0 NaN 2013 2013 
2 month 0 0 NaN 6.55 6.55 
3 day 0 0 NaN 15.7 15.7 
4 dep time 0 ( NaN 1349. 1349. 
5 sched dep time 0 0 NaN 1344. 1344. 
| 6 dep_ delay 43216 12.8 93.1 12.6 0.444 
7 arr time 0 0 NaN 1502. 1502. 
8 sched arr time 0 (e] NaN 1536. 1536. 
9 arr_delay 27880 8.28 121- 6.90 —3.69 
10 flight L 0.000297 8500 1972. 1972. 
11 air time 5448 1.62 400. 251: 146. 
[12 distance 429 0.212 4955. 1040. 1032. | 
13 hour 0 0 NaN 13.2 13.2 | 
14 minute 0 0 NaN 26:2 26.2 
|> 
| 


Il y a aussi une fonction plot_outliers( ): 


E 


MR Console LB (ee) 
> library("dplyr") 
> flights %5>% 
+ plot_outlier(arr delay) 
> | 
MR Graphics: Device 2 (ACTIVE) EEE 
Outlier Diagnosis Plot (arr_delay) 
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Il y a également une fonction de reporting nommée diagnose_report( ) qui si MikTeX est 
installé (avec déjà de nombreux package installés sinon quoi vous risquez d'avoir des 
problèmes sous Microsoft Windows), va générer un PDF de plusieurs dizaines de page de très 
bonne facture: 


GR RGui (64-bit) - [R Console 0 


ŒR File Edit View Misc Packages Windows Help - © X 


> flights %>% 
+ diagnose report () 


processing file: C:\Users\Vincent Isoz\AppData\Local\Temp\RtmpwFpDnS/DataDiagnosis Report.RS 
liszsesadéésssssemessss 1 33% 


és séssssiases sn eue les Arirsese | 67% 
label: child-section-application (with options) 
List of 1 
$ child: chr "01 Diagnose.Rnw" | 


processing file: C:/Users/Vincent Isoz/AppData/Local/Temp/RtmpwFpDnsS/01 Diagnose.Rnw 
las | 4% 
ordinary text without R code 


label: environment (with options) 
List of 3 


< > 


Ce qui donne: 
Ce 


Fichier Edition Affichage Fenêtre Aide 


Contents 


Data Quality Diagnosis Report 
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Sinon pour ceux qui ont R Studio, il y a le package skimr et sa fonction skim( ) qui fait aussi 
un résumé d'un jeu de données sous forme particulièrement élégante (sous d'autres IDE les 
petits histogrammes visibles sur la capture d'écran peuvent ne pas apparaître!): 


0 -.Weæ-E5 0 ## Gato fie/fanctior “ Addins » 


9 ] Unttled1* 
tk Source on Save | 4 7° 7 


0 


#eun | *#].# Source » 


1 library("skimr") 
2 mydata< read.csv(file-"c:/tmp/vVentesclaan. csv" ,hcader-T,sep-",") 
3 skim(mydata) 
4 
5 
2:65 Top Level) + R Script +: 
Console lahs 0 
tmp 
>= library("skimr") 
- mydata<-read.csv(file="c:/tmp/Ventesclean, csv" ,heacer=T,sep=",") 
> skim(mycata) 
Skim summary statistics 
n obs: 109 
n variables: 10 
-- Variable type: factor ---- 
variable missing complete n nunique top_counts ordered 
activite 0 109 109 8 Con: 21, Édu: 19, Mac: 18, Dis: 13 FALSE 
article n 109 109 A“AST* A9; Con: 20: TRM: ?7,cAST: "21 FAI SE 
DateDeCommande 0 109 109 21 19.: 10, 05 FALSE 
FacturePayee 0 109 109 2 oui: 61, Non: 48, NA: © FALSE 
kabais (e) 109 109 E 1:32 0 FALSE 
-- Variable type: inceger == 
variable missing complete n nean sd pO p25 p50 p75 p100 hist 
client 0 109 109 112.7 8.29 1C0 105 1123 120 127 Sms. 
NCumméride [e] 109 109 55 31.61 L 28 55 82 109 NN 
PrixParPiece 0 109 109 2463.24 592.31 1650 1650 2299 3190 3190 Æ__H = M 
Ouantite (e] 109 109 8.11 6.31 1 4 6 11 33 sn. 
-- Variable Type: NUMErÎIC ---- 
variable missing complete ri méar) su po p25 p:50 p75 p100 hist 
PrixTotalavecRabais 0 109 109 13784.54 15122.27 2690 9196 13587.09 22753.5 85219.2 Im. 


> 
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Exemple 78.: Renommer des intitulés de colonnes 
R 3.0.2 


Quelques commandes et options pour changer individuellement les intitulés de certaines 
colonnes et de plusieurs d'un coup: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 
se) ee 


> setwd("C:/") 
> mydata<-read.csv("VentesClean.csv",header=T,sep=";:") 
> names (mydata) 
[1] "NClient" "ictivite" "NDeConmmande" 
[4] "DateDeCommande’" rârticle” "Quantite" 
[7] "PrixParPiece” "Rabais" "PrixTotalAvecRabais" 
[10] "FacturePayee" 
> names (mydata) [1] <-paste ("strClient") 
> names (mydata) 
[1] "strClient” rictivite" "NDeCommande" 
[4] "DateDeCommande” "Article" "Quantite”" 
[7] "“PrixParPiece" "Rabais" "PrixTotalAvecRabais" 
[10] "FacturePayee" 
> names (mydata) <-c ("strClient”,'"strictivite","intConmmande”, "dat Commande” 
+ ,"strärticle","intQuantite","sngPrixParPiece","sngRabais","sngPTAR","bolFacture") 
> names (mydata) 
[1] "“strClient” "strAÂctivite" MintCommande" radatConmande" 
[5] "“strArticle” “intQOuantite" "sngPrixParPiece" "sngRabais'" 
[9] "sngPTiR" “"bolFacture” 
> 
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Exemple 79.: Renommer des intitulés de lignes 
R 3.0.2 


Voici un exemple très qui nous sera utile (entre autres) beaucoup plus loin quand nous 
traiterons du problème du voyageur de commerce utilisant la commande native row.names( ) 


lat<-c(27.685,29.343,23.495) 
lon<-c(46.344,46.233,46.23) 
coord<-data.frame(lat,lon) 

row.names (coord)<-c{"Genève",'"Berne",'"Lausanne") 
coord 


VMVNNMVV 


lat lon 

Genève 27.685 46.344 
Berne 29.343 46.233 
Lausanne 23.495 46.230 
> #on calcule les distances euclidiennes entre chaque objet 
> dist (coord) 

Genève Berne 
Berne 1.661711 
Lausanne 4.191551 5.546001 


> | N 


Pour supprimer les noms lignes, on utilisera rownames(coord)<-NULL. 
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Exemple 80.: A jouter une colonne avec des identifiants 


uniques 
R 3.4.2 


Pour l'export ou l'import vers d'autres applications (en particulier FileMaker, Microsoft 
Access et Microsoft Power BI), il peut être utile de savoir rajouter une colonne d'identifiants 


unique à un data frame. 


Voyons cela: 


Rrcui Gb 


ŒR File Edit View M 


SG Windows Help 


> mydata<-read.csv("c:/tmp/VentesClean.csv",header=T, sep=",") 


Article Quantite 
12 
2 
LS 
3 
13 
2 


> head (mydata) 
NClient Activite NCommande DateDeCommande 
1 100 Assurances L 03.01.2000 Compaq Presario 100 
2 123 Machines/Outils 2 03.01.2000 IBM 500 
3 109 Éducation | 03.01.2000 AST Intel 150 
4 104 Éducation 4 03.01.2000 AST Intel 200 
5 117 Banques LA 04.01.2000 Compaq Presario 100 
6 103 Assurances 6 04.01.2000 AST Intel 150 
PrixParPiece Rabais PrixTotalAvecRabais FacturePayee 
1 1650 1.50% 19503.00 Oui 
2 2299 0.00% 4598.00 Oui 
3 2690 0.00% 13450.00 Oui 
4 3190 0.00% 9570.00 Oui 
S 1650 1.50% 21128.25 Oui 
6 2690 0.00% 5380.00 Oui 
> mydata$pk_id<-1:nrow(mydata) 
> head (mydata) 
NClient Activite NCommande DateDeCommande Article 
L 100 Assurances L 03.01.2000 Compaq Presario 100 
2 123 Machines/Outils 2 03.01.2000 IBM 500 
3 109 Éducation 3 03.01.2000 AST Intel 150 
É 104 Éducation El 03.01.2000 AST Intel 200 
5 127 Banques 5 04.01.2000 Compaq Presario 100 
6 103 Assurances 6 04.01.2000 AST Intel 150 
PrixParPiece Rabais PrixTotalAvecRabais FacturePayee pk_id 
1 1650 1.50% 19503.00 Oui 1 
2 2299 0.00% 4598.00 Oui 2 
3 2690 0.00% 13450.00 Oui 3 
4 3190 0.00% 9570.00 Oui 4 
S 1650 1.50% 21128.25 Oui S 
6 | 2690 0.00% 5380.00 Oui 6 
> 


Quantite 
12 

2 

S 

3 

13 

2 
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Exemple 81.: Créer une colonne de rangs 
R 3.6.3 


Considérons le petit jeu de données mtcars: 


R RGui (64-bit) - [R Console] — 0 


ŒR File Edit View Misc Packages Windows Help = #1x 


[ET 


> (mydata<-mtcars) 


mpg cy disp hp drat wt qsec vs am gear carb 

|Mazda RX4 21. 160.0 110 3.90 2.620 16.46 1 4 
Mazda RX4 Wag 21: 160.0 110 3-90 2.875 17-02 

Datsun 710 22. 108.0 93 3.85 2.320 18.61 

Hornet 4 Drive 24: 258.0 110 3.08 3.215 19.44 | 
Hornet Sportabout 18. 360.0 175 3.15 3.440 17.02 

Valiant 18 225.0 105 2.76 3.460 20.22 

Duster 360 14 360.0 245 3.21 3.570 15.84 

Merc 240D 24 146.7 62 3.69 3.190 20.00 

Merc 230 22 140.8 95 3.92 3.150 22.90 

Merc 280 19 167.6 123 3.92 3.440 18.30 

|Merc 280C 17 167.6 123 3.92 3.440 18.90 

Merc 4S0SE 16 275.8 180 3.07 4.070 17.40 

|Merc 450SL 17 275.8 180 3.07 3.730 17.60 


= 
um 


& © -J © & © X NN CG ND 01 O1 Lo & BB JE BE N W & CO ND CO & GW H J 8 © © © 


275.8 180 3.07 3.780 18.00 
472.0 205 2.93 5.250 17.98 


1 
6 
6 
4 
6 
8 
6 
8 
4 
4 
6 
6 
8 
8 
Merc 450SLC 8 
8 
8 460.0 215 3.00 5.424 17.82 
8 
: 
= 
. 
4 
8 
8 
8 
8 
4 
4 
4 
8 
6 
8 
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|Cadillac Fleetwood 10. 
Lincoln Continental 10. 


Chrysler Imperial 14. 440.0 230 3.23 5.345 17.42 


Fiat 128 32: 78.7 66 4.08 2.200 19.47 
Honda Civic 30 15:17 52 4.93 1.615. 18-52 
Toyota Corolla 33; 71.1 65 4.22 1.835 19.90 
[Toyota Corona 21; 120-1 97 3-70 2-465 20-01 
Dodge Challenger 15 318.0 150 2.76 3.520 16.87 
AMC Javelin 15 304.0 150 3.15 3.435 17.30 
|Camaro Z28 13 350.0 245 3.73 3.840 15.41 
Pontiac Firebird 19 400.0 175 3.08 3.845 17.05 
Fiat X1-9 23 79.0 66 4.08 1.935 18.90 


Porsche 914-2 
Lotus Europa 
Ford Pantera L 
Ferrari Dino 
Maserati Bora 
Volvo 142E 

EX 


120.3 91 4.43 2.140 16.70 

95:41 TIL3 3:77 L:928 16.90 
351.0 264 4.22 3.170 14.50 
145,0 175 3:62 2779 15:50 
301.0 335 3.54 3.570 14.60 
121.0 109 4.11 2.780 18.60 


HOOOMHOMOO0OOOMHHHOOOO0OOOMHHBBHOHOMHBHOO 
HE BOOOOOMHHMHOOCOOO0O000000000O0HEH 
4 UT U1 U1 Un UT 4 Gi Uo Lo U Gi ds ds ds Oo Lo WU UO Lo ds 4 4 1 Gi U Lo Un 
DOmBNNEDBNDNEE NE BE WU WBBNNDBENEE RE 


DE HG N 
H O1 Lo Un © 


Considérons la requête évidente (mais dont la solution est non-triviale) consistant à ajouter 
une colonne des rangs des horse power (hp). Pour cela, nous utilisons la fonction 
transform( ) avec la fonction ave( ) qui fait un groupement par sous-ensemble: 
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MR RGui (61-bit) - [R Console] 


R Fils Edit View Misc Packages Windows Help 
ESOBOBIEE 


> transform(mydata,rank=ave (hp, FUN=function(x) rank(-x,ties.method="first"))) 

mpg cyl disp hp drat wt qgsec vs am gear carb rank 
Mazda RX4 21.0 160.0 110 3.90 2.620 16.46 19 
Mazda RX4 Wag 2E.0 160.0 110 3.90 2.875 17.02 20 
Datsun 710 22.8 108.0 93 3.85 2.320 18.61 26 
Hornet 4 Drive 244 258.0 110 3.08 3.215 19.44 21 
Hornet Sportabout 18.7 360.0 175 3.15 3.440 17.02 11 
Valiant 18.1 225.0 105 2.76 3.460 20.22 23 
Duster 360 14.3 360.0 245 3.21 3.570 15.84 3 
Merc 240D 24.4 146.7 3.69 3.190 20.00 31 
Merc 230 22.8 140.8 3.92 3.150 22.90 25 
Merc 280 19.2 167.6 3.92 3.440 18.30 16 
Merc 280C 17.8 167.6 3.92 3.440 18.90 17 
Merc 450SE 16.4 275.8 3.07 4.070 17.40 8 
Merc 450SL 17:3 275.8 3.07 3.730 17.60 g 
Merc 450SLC 15.2 275.8 3.07 3.780 18.00 10 
Cadillac Fleetwood 10.4 472.0 2.93 5.250 17.98 
Lincoln Continental 10.4 460.0 3.00 5.424 17.82 
Chrysler Imperial 14.7 440.0 3.23 5.345 17.42 
Fiat 128 32.4 78.7 4.08 2.200 19.47 
Honda Civic 30.4 PS 4.93 1.615 18.52 
Toyota Corolla 33.9 dXSA 4.22 1.835 19.90 
Toyota Corona 21.5 120.1 3.70 2.465 20.01 
Dodge Challenger 15:5 318.0 2.76 3.520 16.87 
AMC Javelin 15.2 304.0 38:25:3.:435 17.20 
Camaro 228 13.3 350.0 3.73 3.840 15.41 
Pontiac Firebird 19.2 400.0 3.08 3.845 17.05 
Fiat X1-9 2153 79.0 4.08 1.935 18.90 
Porsche 914-2 26.0 120.3 4.43 2.140 16.70 
Lotus Europa 30.4 95.1 3.77 1.513 16.90 
Ford Pantera L 15.8 351.0 4.22 3.170 14.50 
Ferrari Dino 19.7 145.0 3-62:2.710 £5.50 
Maserati Bora 15.0 301.0 3.54 3.570 14.60 
in 142E 21.4 121.0 4.11 2.780 18.60 
> 
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Exemple 82.: Prendre un sous-ensemble (subset) 
R 3.0.2 


Un sujet dont la simplicité se passe de tout commentaire: 


R RGui (64-bit) - [R Console] _: = 
GR File Edit View Misc Packages Windows Help _ FX 


> setwd("c:/tmp/") 
> mydata<-read.csv("VentesClean.csv",header=T,sep=",") 
> mydata{[1:5,2:3] 
Activite NCommande 
1 Assurances À 
2 Machines/Outils 2 
3 Éducation 3 
4 Éducation 4 
5 Banques 5 
> colonnes<-c("Activite", "NCommande") 
> mydata[1:5,colonnes] 
Activite NCommande 
1 Assurances 1 
2 Machines/Outils 2 
3 Éducation 3 
4 Éducation 4 
D Banques 5 
> | 
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Exemple 83.: Appliquer un filtre 
R 3.0.2 


Donc là évidemment on peut jouer avec énormément de combinaisons mais dans l'idée voici 
un exemple de base avec filtres multiples avec des conditions ET ainsi que OÙ en utilisant la 
commande which( ) : 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


EC] 


> setwd("C:/") 

> mydata=read.csv("VentesClean.csv",header=T,sep=";") 

> mydata[ which((mydata$NClient>100 € mydata$NClient<110) 

+ & (mydata$aärticle=="AST Intel 200" | mydata$ärticle=="IBM 500")), ] 


NClient Aictivite NDeCommande DateDeCommande Article Quantite PrixParPiece Rabais PrixTotalivecRabais FacturePayee 
4 104 Éducation 4 03.01.2000 AST Intel 200 3 3190 0.00% 9570.00 Oui 
7 104 Éducation 7 04.01.2000 AST Intel 200 2 3190 0.00% 6360.00 Qui 
18 106 Construction 18 05.01.2000 AST Intel 200 11 3190 1.50% 34563.65 Oui 
35 101 Construction 35 11.01.2000 AST Intel 200 6 3190 1.50% 18852.90 Oui 
38 106 Construction 38 11.01.2000 IBM 500 4 2299 0.00% 9196.00 Qui 
41 101 Construction 41 12.01.2000 AST Intel 200 1 3190 0.00% 3190.00 Qui 
55 103 Assurances 55 18.01.2000 IBM 500 7 2299 1.50% 15851.60 Oui 
59 105 Banques 59 18.01.2000 IBM 500 9 2299 1.50% 20380.63 Oui 
64 104 Éducation 64 19.01.2000 AST Intel 200 3 3190 0.00% 9570.00 Qui 
F1 101 Construction 71 19.01.2000 IBM 500 5 2299 0.00% 11495.00 Non 
73 108 Pharmaceutique 73 20.01.2000 AST Intel 200 13 3190 1.50% 40847.95 Non 
76 101 Construction 76 21.01.2000 AST Intel 200 10 3190 1.50% 31421.50 Non 
84 108 Pharmaceutique 84 24.01.2000 AST Intel 200 22 3190 3.00% 68074.60 Non 
87 105 Banques 87 25.01.2000 IBM 500 6 2299 1.50% 13587.09 Non 
20 102 Machines/Outils 920 26.01.2000 IBM 500 di 2299 1.50% 15851.60 Non 
94 106 Construction 54 27.01.2000 AST Intel 200 5 3190 0.00% 15950.00 Non 
926 103 Assurances 96 27.01.2000 IBM 500 5 2299 0.00% 11495.00 Non 
101 104 Éducation 101 28.01.2000 IBM 500 2 2299 0.00% 4596.00 NS Non 
a 102 Machines/Outils 107 31.01.2000 AST Intel 200 4 3190 0.00% 12760.00 Non 
> 


réinitialiser la numérotation, vous devrez utiliser le type de commande suivante: 


rownames (mydata) <- NULL 


La commande which( ) permet aussi plus simplement de savoir les numéros des lignes où 
pour une colonne donnée, certaines valeurs sont satisfaites: 


> setwd{"C:/") 
> mydata=read.csv("VentesClean.csv",header=T,sep=":") 


> which(imydata$fQuantite==3) 


[1] 4 14 23 33 53 
> | 


64 104 105 108 
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Nous pouvons utiliser aussi which( ) conjointement avec des fonctions: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


BEC) 


»> setwd{"c:fe] 
> mydata<-read.csv("VentesClean.csv",header=T,sep=";:") 
> mydata<-mydata[whichimydata$Quantite>mean(mydataf$Quantite)),] 
> dimimydata) 
[1] 35 10 
> mydata 
NClient ictivite NCommande DateDeCommande Article 
100 issurances 03.01.2000 Compaq Presario 100 


117 Banques 04.01.2000 Compaq Presario 100 
124 Éducation 05.01.2000 Compaq Presario 100 
106 Construction 05.01.2000 AST Intel 200 


101 Construction 05.01.2000 Compaq Presario 100 
125 Construction 06.01.2000 Compaq Presario 100 
104 Éducation 07.01.2000 AST Intel 150 
126 Machines/Outils 07.01.2000 AST Intel 150 
114 Distribution 07.01.2000 AST Intel 200 
L11 Alimentaire 10.01.2000 Compaq Presario 100 
119 Distribution 11.01.2000 AST Intel 200 
104 Éducation 12.01.2000 Compaq Presario 100 


Indiquons aussi la commande subset() qui permet de filtrer aussi et que l'on retrouve dans de 
nombreux scripts R de data mining: S 
& 
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R Fichier Edition Voir Misc Packages Fenêtres Aide 


> subset (mydata, Article=="IBM 500" ,Aictivite:ärticle) 
ictivite NCommande DateDeCommande irticle 
Machines/Outils 03.01.2000 IBM S0O0 
ilimentaire 04.01.2000 IBM S00 
Pharmaceutique 04.01.2000 IBM 500 
Machines/Outils 05.01.2000 IBM 500 
Pharmaceutique 06.01.2000 IBM 500 
issurances 06.01.2000 IBM 500 
Pharmaceutique 07.01.2000 IBM 500 
Éducation 10.01.2000 IBM 500 
Alimentaire 10.01.2000 IBM 500 
Construction 11.01.2000 IBM 500 
Construction 12.01.2000 IBM 500 
Construction 13.01.2000 IBM 500 
Distribution 14.01.2000 IBM 500 
Banques 17.01.2000 IBM 500 
issurances 15.01.2000 IBM 500 
Banques 15.01.2000 IBM 500 
Éducation 18.01.2000 IBM 500 
Banques 19.01.2000 IBM 500 
Construction 19.01.2000 IBM S00 
Construction 21.01.2000 IBM S0O0 


Ou encore la commande %in% que l'on retrouve dans certains scripts de Finance: 
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R Fichier Edition Voir Misc Packages Fenêtres Aide 


> mydata[mydatafärticle $in$s c("IBM 500")j,1:5] 
NClient ictivite NCommande DateDeCommande drticle 
123 Machines/Outils 03.01.2000 IBM 500 
111 Alimentaire 04.01.2000 IBM 500 
116 Pharmaceutique 04.01.2000 IEM 500 
123 Machines/Outils 05.01.2000 IBM 500 
116 Pharmaceutique 06.01.2000 IEM 500 
100 Assurances 06.01.2000 IBM 500 
121 Pharmaceutique 07.01.2000 IEM 500 
118 Éducation 10.01.2000 IBM 500 
127 ilimentaire 10.01.2000 IBM 500 
106 Construction 11.01.2000 IBM 500 
113 Construction 12.01.2000 IBM 500 
113 Construction 13.01.2000 IBM S0O0 
119 Distribution 14.01.2000 IBM 500 
117 Banques 17.01.2000 IBM 500 
103 Assurances 15.01.2000 IBM SO0 
105 Banques 15.01.2000 IBM S0O0 
118 Éducation 18.01.2000 IBM 500 
120 Banques 13.01.2000 IBM S0O0 


> grep{"IBM",mydataf$dirticle) 
[1] 2 8 10 13 20 23 27 33 34 38 43 47 
[16] 59 61 67 71 78 87 90 95 96 101 104 108 
> mydata[grepi"IBM",mydataf$äirticle),1:5] 
NClient ictivite NCommande DateDeCommande drticle 

123 Machines/Outils 03.01.2000 IBM 500 
111 Alimentaire 04.01.2000 IBM S00 
116 Pharmaceutique 04.01.2000 IBM 500 
123 Machines/Outils 05.01.2000 IBM S0O0 
116 Pharmaceutique 06.01.2000 IBM S00 
100 Assurances 06.01.2000 IBM 500 
121 Pharmaceutique 07.01.2000 IBM 500 
116 Éducation 10.01.2000 IEM S0O0 
127 Alimentaire 10.01.2000 IBM S00 
106 Construction 11.01.2000 IBM 500 
113 Construction 12.01.2000 IBM 500 
113 Construction 13.01.2000 IBM S00 
119 Distribution 14.01.2000 IBM S00 
117 Banques 17.01.2000 IBM 500 
103 Assurances 15.01.2000 IBM 500 
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Exemple 84.: Prendre un sous ensemble filtré 
R 3.0.2 


La manip est plutôt simple et ce passe probablement de commentaires: 


FR RGui (64-bit) - [R Console] 


| R Fichier Edition Voir Misc Packages Fenêtres Aide 


> subset (mydata, (NClient>100 € NClient<110) € (ärticle=="IBM 500" | Article=="AST Intel 150") 
+ ,select=c({NClient,dirticle,Quantite)) 
NClient Article Quantite 

109 AST Intel 150 5 
103 AST Intel 150 
104 AST Intel 150 12 
106 IBM 500 
106 AST Intel 150 
109 AST Intel 150 
103 IBM 500 
109 AST Intel 150 
105 IBM 500 
103 AST Intel 150 
101 IBM 500 
105 IBM 500 
102 IBM 500 
103 IBM 500 
107 Intel 150 
104 IBM 500 


"& 


© OO (1 -J oO in N° 0H -J H (D 


NO 
Toujours au niveau des commandes élémentaires de filtrage, voyons les commandes all() et 
any() : 


-__any() renvoie une valeur booléenne pour signaler si au moins une valeur correspond 
au critère dans le vecteur choisi. 


- _All() renvoie une valeur booléenne pour signaler si toutes les valeurs sans aucune 
exception satisfont un certain critère ou non. 


RGui (64-bit} 


R Fichier Edition Voir Misc Packages Fenétres Aide-| FF 


> anyimydata$ärticle=="IBM 500") 
[1] TRUE 

> allimydata$Quantite>5s) 

[1] FALSE 

> | 
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Exemple 85.: Utiliser les techniques de filtrage pour trouver la 


valeur proche 
R 3.0.2 


Toujours avec notre data frame habituel, nous souhaitons savoir quelle est le prix total avec 
rabais le plus proche de 75'000. 


La technique est maligne. il fallait y penser: 


KR Fichier Edition Voir Misc Packages Fenêtres Aide 


> setwud("C:/") 

> mydata=read.csv("VentesClean.csv",header=T,sep=";:") 
| > which(abs (mydata$PrixTotalivecRabais-75000)==min(abs (mydata$PrixTotalävecRabais-75000))) 
[ef Etc 

> #donc la valeur la plus proche est l'enregistrement n° 37 

> #pour retourner la ligne en question: 


> mydata[37,] 
NClient ictivite NCommande DateDeCommande Article Quantite PrixParPiece Rabais PrixTotalivecRabais 
37 119 Distribution 37 11.01.2000 ST Intel 200 23 3190 3.00% 71168.9 
FacturePayee 
37 Non 
| 


c'est pas beau ça? Simple et efficace! 
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Exemple 86.: Échantillonnages 
R 3.0.2 


Avant que l'on s'attaque sérieusement au sujet, considérons la sympathique et ludique 
animation suivante pour un échantillonnage de 15 points parmi 100: 


MR Console (se (x) 


> library(animation) 
> sample.simple (nrow = 10, ncol = 10, size = 15, p.col = c("blue", "red"), 
+ p.cex = c{(1, 3)) 


Figure 27 Graphe d'échantillonnage aléatoire 


Ce fait, passons à des choses plus sérieuses. 
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Échantillonnage aléatoire simple 


C'est un cas très important dans la pratique et surtout dans le cas industriel où 1l y a rarement 
des strates dans une ligne de production! Il s'agit simplement pour rappel de choisir des 
individus de telle sorte que chaque membre de la population a une chance égale de figurer 
dans l'échantillon. 


Voyons cela en utilisant les commandes sample( ) et les paramètres nrow et replace (dans le 
cas ci-dessous nous interdisons à un même individu d'apparaître deux fois dans le tirage): 


Re. éer-Réoed TR CR RE 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> setwd{"C:/") 
> mydata<-mydata[sample (1:nrow(mydata),20,replace=FAL$SE),] 


> mydata 

NClient äctivite NDeCommande DateDeCommande Article Quantite PrixParPiece Rabais PrixTotalivecRabais FacturePayee 
81 115 Distribution 81 24.01.2000 Compaq Presario 100 15 1650 1.50% 24378.75 Non 
102 123 Machines/Outils 102 28.01.2000 AST Intel 200 6 3190 1.50% 15852.90 Non 
94 106 Construction 94 27.01.2000 AST Intel 200 5 3190 0.00% 15950.00 Non 
87 105 Banques 87 25.01.2000 IBM 500 6 2299 1.50% 13587.09 Non 
59 105 Banques 59 18.01.2000 IBM 500 9 2299 1.50% 20380.63 Oui 
5 117 Banques 5 04.01.2000 Compaq Presario 100 13 1650 1.50% 21128.25 Oui 
71 101 Construction 71 19.01.2000 IBM 500 5 2299 0.00% 11495.00 Non 
31 120 Banques 31 10.01.2000 AST Intel 150 2 2690 0.00% 5380.00 Oui 
70 103 issurances 70 19.01.2000 AST Intel 150 12 2690 1.50% 31795.80 Non 
56 109 Éducation 56 16.01.2000 AST Intel 150 21 2690 3.00% 54795.30 Oui 
100 101 Construction 100 28.01.2000 Compaq Presario 100 5 1650 0.00% 8250.00 Non 
14 113 Construction 14 05.01.2000 AST Intel 150 3 2690 0.00% 5070.00 Oui 
82 112 Machines/Outils 682 24.01.2000 AST Intel 150 2 2690 0.00% 5360.00 Non 
90 102 Machines/Outils 90 26.01.2000 IBM 500 7 2299 1.50* 158 60 Non 
65 121 Pharmaceutique 65 19.01.2000 AST Intel 200 4 3190 0.00% 12760.00 Oui 
99 109 Éducation 99 28.01.2000 Compaq Presario 100 31 1650 4.00% 49104.00 Non 
12 112 Machines/Outils 12 05.01.2000 Compaq Presario 100 6 1650 1.50% 9751.50 Oui 
8 111 Alimentaire 8 04.01.2000 IBM 500 4 2299 0.00% 9196.00 Oui 
60 110 Distribution 60 16.01.2000 AST Intel 200 8 3190 1.50% 25137.20 Oui 
2 123 Machines/Outils 2 03.01.2000 IBM 500 2 2299 0.00% 4596.00 Oui 


La commande sample( ) peut être aussi utilisée pour générer des vecteurs de textes (utile pour 
les arbres binomiaux par exemple): 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> experience<-sample(c("P","F"),100,replace=T) 
> experience 

[1] Fr" Fr" LS LU LS pr Fr" pr" Fr" pr" LS US 
[19] trp"" "Fr" tp" Fr" "rp" wp" "Fr" Fr" Fr" "pr" 


[37] "EF LA "rP LA "EF re "EF LA "EF LA "Fr LA tp LA "Fr re trP LL "Fr LA 
CSS] pr pe pr rrpe "Fr" rpe LS LU pe LS Lu Fr" 
[73] tr" pr Fr" mp" tp" ""p" "pr" LS US pp" Fr" 
[91] Fr" "Fr" "Fr" "Fr" trp" "Fr" "Fr" Fr" "Fr" "rp" 


Nous avons également du package sampling la fonction srswor( ) qui correspond à ce que 
nous avons vu dans le cours théorique: 
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MR RG 6° -Li- [R Cursule] = n + 
R File Edit Vie Max Package Windows Help 2x 


EGOBCED | 


> library{sampliing) 

> mydata<-rea4.csv("C:/tm2/VentesClean.csv",header®T,sep=";:®) 
> #szswoz signifie Simple Random Sampling W::hOut Replacement 
> semple<-srswor (20, nzow(mydate)) 

> mydatalas.logicel(sampie),] 


NCiient Activite NCcmmancde DatreDeCommande Article Quantite PrixParFiese Rabais FrixlTotalAvecRabsis Fa=turePayee 
4 104 Éducation 4 03.01.2000 AST Intel 200 3 3130 0.008 9576.00 Oui 
Lu 111 Alimentaire La 04.01.7000 I5M 500 D Zz9s 0.008 8196.00 Oui 
br 11 Machines/Outils 12 05.01.2000 Compaq Presario 100 6 1650 L.Sçon 5751.50 Oui 
15 115 Distribution 15 05.01.2000 Compaq Presario 100 8 1650 L.508 13002.00 Oui 
16 124 Éducation le 05.01.7009 AST Intel 200 8 3190 1.508 25137.20 Oui 
33 118 Éducation 33 10.01.7000 I5M 500 3 2295 0.008 6257.00 Qui 
35 101 Construction 35 11.01.2000 AST Intel 200 (2 3150 L.504 18257.59 Oui 
45 100 Assvrences 45 12.01.2000 AST Intel =00 [2 3150 0.008 12760.00 Oui 
£0 110 Distribution 6ç 19.01.7000 AST Intel =0Q 8 3190 1.508 25137.20 Oui 
73 109 Fharmaceutique 73 20.01.2990 AST Intel 290 13 3190 1.504 40047,55 Non 
76 101 Construction 7€ 21.01.2090 AST Intel 290 10 3190 1.50% 31421.50 Non 
82 112 Machines/Outils 82 24.01.2000 AST Intel 150 è 2690 0.00% 5380.00 Non 
£s 122 Distribution 8s 26.01.2000 AST Intel 290 8 3190 1.50% 25137.2 Non 
£4 10€ Construction g4 27.01.2000 AST Intel 290 5 31950 0.00% 15650.C0 Kon 
sé 193 Bssurances ge 27.01.2000 IBM 500 5 21298 0.00% 11495.00 Non 
100 101 Construction 100 28.01.2000 Compaq Presario 190 5 Llé50 0.00 8250.00 Kon 
102 123 Machines/Outils 102 28.01,2000 AST Intel 200 € 3190 1,504 18852.60 Non 
103 10€ Construction 103 26.01,2000 Compaq Presario 100 11 1650 1,504 17877.75 Non 
106 116 Éducation 108 $1.01,2000 IBM 500 3 229$ 0.00% 6897.00 Non 
105 11s Éducation 10 31.01.2000 AST Intel 150 2 2690 0.00% 5386.00 Kon 

CS 
S 
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Échantillonnage stratifié (probabilités proportionnelles) 


Pour cet exemple nous allons utiliser un autre fichier mais contenant exactement le même 
type de données. 


Commençons d'abord par un échantillonnage stratifié qui n'est pas à probabilité 
proportionnelles afin de vérifier le système de fonctionnement de la fonction strata() du 
package sampling. 


D'abord nous faisons un résumé simple des secteurs d'activité du jeu de données avec lequel 
nous allons travailler et ce en n'utilisant aucune commande du package sampling: 


library(sampling) 
mydata<-read.csv("c:/tmp/StratifiedSampling.csv",header=T,sep=";:") 
mydata<-mydata[order (mydataf$Secteurs),] 
names (mydata) 
[1] "NClient" "Secteurs" rSecteursCode" "NCommande" 
[5] "DateDeCommande" rArtiClie” "Quantite" "PrixParPiece'" 
[9] "Rabais” "PrixTotalivecRabais" "FacturePayee" 

> table (mydata$Secteurs) 


Alimentaire Assurances Banques Construction Distribution Éducation 
15 27 20 54 28 44 
Machines/Outils Pharmaceutique 
37 28 
> mytable<-prop.table (table (mydata$Secteurs));:mytable D 


Alimentaire Assurances Banques Construction Distribution Éducation 

0.05928854 0.10671937 0.07905138 0.21343874 0.11067194 0.17391304 
Machines/Outils Pharmaceutique 

0.14624506 0.11067194 


| > mytable<-as.data.frame (prop.table (mytable))[,2] :mytable 
[1] 0.05928854 0.10671937 0.07905138 0.21343874 0.11067194 0.17391304 0.14624506 0.11067194 


> | 


Nous avons donc les proportions représentatives de chaque strate des Secteurs sur l'ensemble 
de la population. 


Prenons maintenant un même nombre d'individus de chacune des strates (il ne s'agit donc pas 
à d'un échantillonnage stratifié à probabilités proportionnelles mais d'un échantillonnage 
balancé): 
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=: RGui (64-bit} - 
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> #d'abord 2 individus aléatoires de chacune des 6 strates 
> N=2 

> s=strata(mydata,c("Secteurs"),c(rep(N,8)),method="srswor") 
> table(s$Secteurs) 


Alimentaire Assurances Banques Construction Distribution Éducation Machines/Outils 
3 2 2 à 2 NS 2 2 
Pharmaceutique 
2 
> getdata(mydata,s) 
NClient SecteursCode NCommande DateDeCommande Article Quantite PrixParPiece Rabais PrixTotalivecRabais 
42 111 5 32 31.07.2004 Compaq Presario 100 16 1650 . 00% 25608.00 
als Lili 215 05.06.2004 IEM 500 4 2299 . 00% 9196.00 
23 100 23 13.04.2003 IBM 500 2299 00% 6897.00 
114 103 114 09.02.2001 AST Intel 150 2690 .00$ 5380.00 
86 105 86 12.08.2003 Compaq Presario 100 1650 00% 30409.50 
176 117 176 17.02.2003 AST Intel 150 2690 . 00% 13450.00 
113 14 17.07.2003 AST Intel 150 2690 . 00% 8070.00 
125 30 09.08.2001 AST Intel 200 3190 . 00% 12760.00 
114 28 23.09.2004 AST Intel 200 3190 . 50% 28279.35 
119 201 31.08.2000 AST Intel 200 3190 00% 71168.90 
104 64 16.11.2001 AST Intel 200 3190 . 00% 9570.00 
118 221 02.11.2004 AST Intel 200 3190 . 00% 15950.00 
112 12 09.02.2002 Compaq Presario 100 1650 .50$ 9751.50 
123 62 04.05.2004 AST Intel 150 2690 . 00% 10760.00 
108 73 05.07.2002 AST Intel 200 3190 . 50% 40847.95 
121 250 07.05.2002 IBM 500 2299 . 50% 18116.12 
FacturePayee Secteurs ID unit Prob Stratum 
Oui Alimentaire 2 0.13333333 À 
Qui Alimentaire 14 0.13333333 1 
Oui Assurances 18 0.07407407 2 
Oui Assurances 26 0.07407407 2 
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Nous entrevoyons ainsi bien le concept de syntaxe de la fonction strata( ). 


Maintenant faisons vraiment un échantillonnage stratifié à probabilités égales: 


> #strates proportionnelles aux ratios d'origine 

> Echantillon=50 

> Strates=Echantillon*mytable;:Strates 

[1] 2.964427 5.335966 3.952569 10.671937 5.533597 8.695652 7.312253 5.533597 
> #pour arrondir à l'entier le plus proche 

> Strates=round(Strates,digits=0);:Strates 

CE 3 S 411 6 9 7 6 

> s=strata(mydata,c("Secteurs"),Strates,method="srswor") 


> table(s$Secteurs) 


Alimentaire Assurances Banques Construction Distribution 
à 5 4 Li 6 

Éducation Machines/Outils Pharmaceutique 

9 7 6 


R 


Et nous avons donc notre échantillon stratifié à probabilité égales: 
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> getdata(mydata,s) 
NClient SecteursCode NCommande DateDeConmande Article Quantite PrixParPiece 
iii 05.06.2004 IBH 500 2299 
111 06.04.2000 AST Intel 200 3190 
127 27.08.2002 AST Intel 200 3190 
100 13.04.2003 IBM 500 2299 
103 19.02.2002 IBM 500 2299 
103 10.12.2004 Compaq Presario 100 1650 
103 06.10.2001 AST Intel 150 2690 
103 10.12.2004 Compaq Presario 100 1650 
120 06.12.2003 IBM 500 2299 
117 17.02.2003 AST Intel 150 2690 
18.06.2001 IBH 500 2299 
06.12.2003 IBM 500 2299 
26.12.2001 Compaq Presario 100 1650 
17.07.2003 AST Intel 150 2690 
06.06.2001 AST Intel 200 3190 
23.03.2000 IBM 500 2299 
17.07.2003 ÀST Intel 150 2690 
24.08.2004 Compaq Presario 1650 
16.11.2000 AST Intel 3190 
29.01.2001 AST Intel 2690 
05.08.2002 AST Intel 3190 
23.03.2000 IBM 2299 
26.12.2001 Compaq Presario 1650 
29.07.2004 IBM 2299 
11.10.2000 AST Intel 3190 


5 
5 
5 
1 
1 
1 
1 
1 
4 
4 
4 
4 
6 
6 
6 
6 
6 
6 
6 
6 
6 
6 
6 
8 
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Sur et sous-échantillonnage 
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Exemple 87.: Éliminer des colonnes 
R 3.0.2 


Afin d'accélérer le traitement et l'analyse de data frame dans R il peut être judicieux de savoir 
supprimer des colonnes. 


Voici une première méthode: 
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setwd("C:/") 

mydata<-read.csv("VentesClean.csv",header=T,sep=";") 

mydata$PrixTotalivecRabais<-NULL 

mydata 

NClient ictivite NDeCommande DateDeCommande Article Quantite PrixParPiece Rabais FacturePayee 

100 Assurances L 03.01.2000 Compaq Presario 100 12 1650 1.50% Oui 
123 Machines/Outils 03.01.2000 IBM 500 a 2299 Qui 
109 Éducation 03.01.2000 AST Intel 150 5 2690 Oui 
104 Éducation 03.01.2000 AST Intel 200 3190 Oui 
LT Banques 04.01.2000 Compaq Presario 100 1650 Oui 
103 issurances 04.01.2000 AST Intel 150 2690 Qui 
104 Éducation 04.01.2000 AST Intel 200 3190 Oui 
Lii Alimentaire 04.01.2000 IBM SO0 2299 Oui 
CLS Construction 04.01.2000 Compaq Presario 100 1650 Qui 
116 Pharmaceutique 04.01.2000 IBM 500 2299 Oui 
110 Distribution 05.01.2000 AST Intel 200 3190 Oui 
112 Machines/Outils 05.01.2000 Compaq Presario 100 1650 Oui 
123 Machines/Outils 05.01.2000 IBM 500 2299 Oui 
113 Construction 05.01.2000 AST Intel 150 2690 Oui 
Lis Distribution 05.01.2000 Compaq Presario 100 1650 Oui 
124 Éducation 05.01.2000 AST Intel 200 3190 F Qui 
124 Éducation 05.01.2000 Compaq Presario 100 1650 Oui 
106 Construction 05.01.2000 AST Intel 200 3190 Oui 
101 Construction 05.01.2000 Compaq Presario 100 1650 Non 
116 Pharmaceutique 06.01.2000 IBM 500 2299 Non 
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Une deuxième méthode: 
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setwd({"C:/") 

mydata<-read.csv{"VentesClean.csv",header=T,sep=";") 

mydata[9]<-NULL 

mydata 

NClient Aictivite NDeConmande DateDeCommande Article Quantite PrixParPiece Rabais FacturePayee 

100 Assurances 1 03.01.2000 Compaq Presario 100 12 1650 1.50% Oui 
123 Machines/Outils 03.01.2000 IBM 500 2 2299 0.00% Oui 
109 Éducation 03.01.2000 AST Intel 150 5 2690 0.00% Oui 
104 Éducation 03.01.2000 AST Intel 200 3 3190 0.00% Oui 
117 Banques 04.01.2000 Compaq Presario 100 1650 1.50 ouŸ 
103 issurances 04.01.2000 AST Intel 150 2690 0.00 Oui 
104 Éducation 04.01.2000 AST Intel 200 3190 0.0 Oui 
111 Alimentaire 04.01.2000 IBM 500 2299 0.0 Oui 
113 Construction 04.01.2000 Compaq Presario 100 1650 0.0 Oui 
116 Pharmaceutique 04.01.2000 IBM 500 2299 0.0 Oui 
110 Distribution 05.01.2000 AST Intel 200 3190 1.5 Oui 
112 Machines/Outils 05.01.2000 Compaq Presario 100 1650 1.5 Oui 
123 Machines/Outils 05.01.2000 IBM 500 2299 1.5 Oui 
113 Construction 05.01.2000 AST Intel 150 2690 0.0 Oui 
115 Distribution 05.01.2000 Compaq Presario 100 1650 41.5 Oui 
124 Éducation 05.01.2000 AST Intel 200 3190 1.5 Oui 
124 Éducation 05.01.2000 Compaq Presario 100 1650 1.5 Oui 
106 Construction 05.01.2000 AST Intel 200 3190 1.5 Oui 
101 Construction 05.01.2000 Compaq Presario 100 1650 1.5 Non 
116 Pharmaceutique 06.01.2000 IBM 500 2299 1.50% Non 
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setwd("C:/") 

mydata<-read.csv("VentesClean.csv",header=T,sep=":") 

mydata([9:10]<-1ist (NULL) 

mydata 

NClient ictivite NDeCommande DateDeCommande irticle Quantite PrixParPiece Rabais 

100 Assurances L 03.01.2000 Compaq Presario 100 12 1650 1.50% 
123 Machines/Outils 03.01.2000 IBM 500 2 2299 O.00% 
109 Éducation 03.01.2000 AST Intel 150 5 2690 0.00% 
104 Éducation 03.01.2000 A1ST Intel 200 3190 0.00% 
117 Banques 04.01.2000 Compaq Presario 100 1650 1.50% 
103 issurances 04.01.2000 AST Intel 150 2690 0.00 
104 Éducation 04.01.2000 AST Intel 200 3190 0.0 
Li Alimentaire 04.01.2000 IBM 500 2299 O.0 
113 Construction 04.01.2000 Compaq Presario 100 1650 0.0 
116 Pharmaceutique 04.01.2000 IBM 500 2299 0.0 
110 Distribution 05.01.2000 AST Intel 200 3190 1.5 
112 Machines/Outils 05.01.2000 Compaq Presario 100 1650 1.5 
123 Machines/Outils 05.01.2000 IBM 500 2299 1.5 
113 Construction 05.01.2000 AST Intel 150 2690 0.0 
l15 Distribution 05.01.2000 Compaq Presario 100 1650 1.5 
124 Éducation 05.01.2000 AST Intel 200 3190 1.5 
124 Éducation 05.01.2000 Compaq Presario 100 1650 1.5 
106 Construction 05.01.2000 AST Intel 200 3190 1.5 
101 Construction 05.01.2000 Compaq Presario 100 1650 1.50 
116 Pharmaceutique 06.01.2000 IBM 500 2299 1.50% 
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Et encore une dernière pour la route.….: 
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> setwd{"C:/") 

> mydata<-read.csv{("VentesClean.csv",header=T,sep=";") 

> mydata[,-(9:10)] 

NClient ictivite NCommande DateDeCommande Article Quantite PrixParPiece Rabais 
100 Assurances 1 03.01.2000 Compaq Presario 100 12 1650 . 50% 
123 Machines/Outils 03.01.2000 IBM 500 2 2299 . 00% 
109 Éducation 03.01.2000 AST Intel 150 5 2690 . 00% 
104 Éducation 03.01.2000 AST Intel 200 3 3190 . 00% 
He Banques 04.01.2000 Compaq Presario 100 1650 . 50% 
103 Assurances 04.01.2000 AST Intel 150 2690 . 00% 
104 Éducation 04.01.2000 AST Intel 200 3190 .00% 
111 Alimentaire 04.01.2000 IBM 500 2299 . 00% 
113 Construction 04.01.2000 Compaq Presario 100 1650 . 00% 
116 Pharmaceutique 04.01.2000 IBM 500 2299 . 00% 
110 Distribution 05.01.2000 AST Intel 200 3190 . 50% 
112 Machines/Outils 05.01.2000 Compaq Presario 100 1650 . 50% 
123 Machines/Outils 05.01.2000 IBM 500 2299 . 50% 
113 Construction 05.01.2000 AST Intel 150 2690 . 00% 
115 Distribution 05.01.2000 Compaq Presario 100 1650 .50$ 
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Et un cas classique consistant à éliminer toutes les colonnes qui ne sont pas numériques à 
l'aide de la fonction Filter( ) du package natif Base: 


R RGui (64-bit) - [R Console] O 
| R File Edit View Misc Packages Windows Help - #8 x 
ÉRIC 
La] 
> Filter(is.numeric, mydata) 
NClient NCommande Quantite PrixParPiece PrixTotalAvecRabais 
L 100 + 12 1650 19503.00 
2 123 2 2 2299 4598.00 
3 109 3 5 2690 13450.00 
4 104 4 3 3190 9570.00 
5 117 5 13 1650 21128.25 
6 103 6 2 2690 5380.00 
7 104 7 2 3190 6380.00 
8 111 8 4 2299 9196.00 
” 113 3 4 1650 6600.00 
10 116 10 2 2299 4598.00 
11 110 11 6 3190 18852.90 
12 4 12 6 1650 9751.50 
23 123 42 6 2299 13587.09 
14 113 14 3 2690 8070.00 
15 115 15 8 1650 13002.00 
16 124 16 8 3190 25137.20 
17 124 17 AL 1650 178977.75 
18 106 18 a 3190 34563.65 
19 101 19 14 1650 22753.50 
20 116 20 7 2299 15851.60 
21 112 21 6 2690 15897.90 
22 125 22 23 1650 36811.50 
23 100 23 3 2299 6897.00 
24 125 24 4 3190 6380.00 
25 104 25 12 2690 31795.80 
26 126 26 24 2690 62623.20 
27 127 27 8 2299 18116.12 
28 114 28 9 3190 20279:39 
29 103 29 6 1650 9751.50 
| 30 125 30 4 3190 12760.00 
31 120 31 2 2690 5380.00 
32 111 32 16 1650 25608.00 
33 118 33 3 2299 6897.00 
34 127 34 7 2299 15851.60 
LA 


Sinon pour garder que les colonnes qui commencent par une certaine chaîne de caractère, on 
utilisera la fonction grepl( ): 
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MR RGui (64-bit) - [R Console] 


R File Edit View Misc Packages Windows Help 


(mydata <- data.frame( ABC _i = runif(s), 
ABC_2 = runif(5), 
XYZ_1 runif(5), 


ABC _1 
0.43904205 
0.22859970 
0.08215807 
0.85026492 
0.23466126 


XYZ_2 = runif(S5))) 


ABC_2 
0.9881674 
0.6018975 
0.9987408 
0.3755994 
0.5551266 


XYZ_1 XYZ _2 


0.42944396 0.63729826 
0.57587778 0.43101637 
0. 
0 
0 


43250740 0.07271609 


.22484576 0.80240202 
-.08498474 0.32527830 


fgarder que ce qui commence par ABC 
mydata!{,grepl("ABC",names (mydata) )] 


ABC _1 ABC _2 
0.43904205 0.9881674 
0.22859970 0.6018975 
0.08215807 0.9987408 
0.85026492 0.3755994 
0.23466126 0.5551266 


Inversement: 
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R RGui (64-bit) - [R Console] 


CR File Edit View 


Bel 


Misc Packages Windows Help 


SIEIE 


> (mydata <- data.frame( ABC 1 


1 
2 
3 
4 
5 
> 
> 
> 


V UE & ND + 


ABC_1 
0.7572890 
0.5842715 
0.7088394 
0.4269758 
0.3435727 


ABC _2 

XYZ_1 

XYZ_2 
ABC _2 
0.7591200 
0.4240302 
0.5608873 
0.1161358 
0.3030218 


runif(S), 
runif(5S), 
runif(Ss))) 
XYZ _1 
0.47680269 
0.34483055 
0.60071414 
0.07608332 
0.95599261 


runif(S), 


XYZ_2 
0.02220682 
0.84171063 
0.63244245 
0.31009417 
0.74256937 


fgarder que ce qui commence par ABC 
mydata!{, !grepl ("ABC", names (mydata) )] 


XYZ 1 


0.34483055 
0.60071414 
0.07608332 
0.95599261 


XYZ 


2 


0.47880269 0.02220682 


0.684171063 
0.63244245 
0.31009417 
0.74256937 
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Exemple 88.: Tri simple et multiple (trier) 
R 3.02 


Et pour le tri des lignes voici comment faire en utilisant la commande order ) : 


RE A 
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> setwd{"C:/") 
> mydata<-read.csv("VentesClean.csv",header=T,sep=";:") 
> mydata[order (mydata$NClient,mydataf$aärticle),] 


NClient ictivite NDeCommande DateDeCommande Article Quantite PrixParPiece Rabais PrixTotalivecRabais FacturePayee 
50 100 Assurances 50 13.01.2000 AST Intel 150 13 2690 1.50% 34445.45 Oui 
45 100 issurances 45 12.01.2000 AST Intel 200 4 3190 0.00% 12760.00 Oui 
1 100 Assurances 1 03.01.2000 Compaq Presario 100 12 1650 1.50% 19503 .00 Qui 
23 100 issurances 23 06.01.2000 IBM 500 3 2299 0.00% 6897.00 Oui 
35 101 Construction 35 11.01.2000 AST Intel 200 6 3190 1.50% 18852.90 Oui 
41 101 Construction 41 12.01.2000 AST Intel 200 L 3190 0.00% 3190.00 Qui 
76 101 Construction 76 21.01.2000 AST Intel 200 10 3190 1.50% 31421.50 Non 
19 101 Construction 19 05.01.2000 Compaq Presario 100 14 1650 1.50% 22753,50 Non 
69 101 Construction 69 19.01.2000 Compaq Presario 100 13 1650 1.50% 21128.25 Non 
100 101 Construction 100 28.01.2000 Compaq Presario 100 5 1650 0.00% 8250.00 Non 
71 101 Construction 71 19.01.2000 IBM 500 5 2299 0.00% 11495.00 Non 
107 102 Machines/Outils 107 31.01.2000 AST Intel 200 4 3190 0.00% 12760.00 Non 
52 102 Machines/Outils 52 14.01.2000 Compaq Presario 100 5 1650 0.00% 8250.00 Oui 
920 102 Machines/Outils 920 26.01.2000 IBM 500 7 2299 1.50% 15851.60 Non 
6 103 Assurances 6 04.01.2000 AST Intel 150 2 2690 0.00% 5380.00 Oui 
70 103 Assurances 70 19.01.2000 AST Intel 150 12 2690 1.50% 31795.60 Non 
29 103 Assurances 29 07.01.2000 Compaq Presario 100 6 1650 1.50% 9751.50 Oui 
74 103 Assurances 74 20.01.2000 Compaq Presario 100 8 1650 1.50% 13002.00 Non 
55 103 issurances 55 16.01.2000 IBM 500 7 2299 1.50% 15851.60 Oui 
ak 113 issauranres gk 27-n1-2nnn TRM sn s 2299 n-nnx& 11495 nn Nan 


Il suffit d'ajouter le paramètre: ee 
Ÿ 


decreasing = TRUE 
à la commande order() pour avoir le tri dans l'ordre décroissant. 


Pour faire deux tris (ou plus) dans un ordre différent, voici la syntaxe: 
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> setwd("C:/") 

> mydata<-read.csv("VentesClean.csv",header=T,sep=":") 

> mydata[order (mydata$NClient,-mydata$Quantite),] 

NClient ictivite NCommande DateDeCommande Article Quantite PrixParPiece Rabais PrixTotalivecRabais FacturePayee 

100 dissurances 13.01.2000 AST Intel 150 2690 . 50% 34445.45 Oui 
100 Assurances 03.01.2000 Compaq Presario 100 1650 . 50% 19503 .00 Oui 
100 Assurances 12.01.2000 AST Intel 200 3190 .-00$ 12760.00 Oui 
100 Assurances 06.01.2000 IBM 500 2299 . 00% 6597.00 Oui 
101 Construction 05.01.2000 Compaq Presario 100 1650 . 50% 22753.50 Non 
101 Construction 19.01.2000 Compaq Presario 100 1650 . 50% 21128.25 Non 
101 Construction 21.01.2000 AST Intel 200 3190 . 50% 31421.50 Non 
101 Construction 11.01.2000 AST Intel 200 3190 . 50$ 18852. Oui 
101 Construction 19.01.2000 IBM 500 2299 . 00% 11495. Non 
101 Construction 28.01.2000 Compaq Presario 100 1650 .-00% 8250. Non 
101 Construction 12.01.2000 AST Intel 200 3190 . 00% 3190. Oui 
102 Machines/Outils 26.01.2000 IBM 500 2299 . 50% 15851. Non 
102 Machines/Outils 14.01.2000 Compaq Presario 100 1650 .-00$ 8250. Oui 
102 Machines/Outils 31.01.2000 AST Intel 200 3190 .00$ 12760. Non 
103 Assurances 19.01.2000 AST Intel 150 2690 . 50% 31795. Non 
103 Assurances 20.01.2000 Compaq Presario 100 1650 . 50% 13002. Non 
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Et on peut s'amuser à faire un ranking avec la commande rank() et ajouter cette colonne au 
data frame: 
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setwdi"C:/") 

mydata<-read.csv{("VentesClean.csv",header=T,sep=";:") 

ranks<-rank(imydata$PrixTotalivecRabais) 

mydata<-chind(imydata,ranks) 

mydatal,c(1,2,3,4,11)] 

NClient ictivite NCommande DateDeCommande ranks 

100 issurances 1 03.01.2000 
123 Machines/Outils 03.01.2000 
109 Éducation 03.01.2000 
104 Éducation 03.01.2000 
117 Banques 04.01.2000 
103 Assurances 04.01.2000 
104 Éducation 04.01.2000 
Bu Alimentaire 04.01.2000 
113 Construction 04.01.2000 
116 Pharmaceutique 04.01.2000 
110 Distribution 05.01.2000 
112 Machines/Outils 05.01.2000 
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Et pour faire un tri sur mesure: 
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> 
> 


mydata<-read.csv("C:/VentesClean.csv",header=T,sep=";")] 


mydata<-mydata[order (factor (mydatafirticle, 


mydata(,1:5] 
NClient 


111 


ictivite NCommande DateDeCommande 
123 Machines/Outils 


Alimentaire 


116 Pharmaceutique 
123 Machines/Outils 
116 Pharmaceutique 


100 


Assurances 


121 Pharmaceutique 


1185 
127 
106 
113 
113 
119 
117 
103 
105 
118 
120 
101 
125 
105 


Éducation 
Alimentaire 
Construction 
Construction 
Construction 
Distribution 
Banques 
Assurances 
Banques 
Éducation 
Banques 
Construction 
Construction 
Banques 


102 Machines/Outils 


113 
103 
104 
115 
118 
104 
104 
110 


Construction 
issurances 
Éducation 
Distribution 
Éducation 
Éducation 
Éducation 
Distribution 


03.01.2000 
04.01.2000 
04.01.2000 
05.01.2000 
06.01.2000 
06.01.2000 
07.01.2000 
10.01.2000 
10.01.2000 
11.01.2000 
12.01.2000 
13.01.2000 
14.01.2000 
17.01.2000 
15.01.2000 
18.01.2000 
15.01.2000 
19.01.2000 
19.01.2000 
21.01.2000 
25.01.2000 
26.01.2000 
27.01.2000 
27.01.2000 
25.01.2000 
28.01.2000 
31.01.2000 
03.01.2000 
04.01.2000 
05.01.2000 


+ levels=c("IBM 500","AST Intel 200","Compaq Presario 100","AST Intel 150" 
+ 179 ;1 


ärticle 


IBM 
IBM 
IBM 
IBM 
IBM 
IBM 
IBM 
IBM 
IBM 
IBM 
IBM 
IBM 
IBM 
IBM 
IBM 
IBM 
IBM 
IBM 
IBM 
IBM 
IBM 
IBM 
IBM 
IBM 
IBM 
IBM 
IBM 
AST Intel 
AST Intel 
AST Intel 


500 
sO00 
SO 
s00 
s00 
500 
500 
Ss00 
SsO0 
Ss00 
500 
500 
sO0 
SO 
500 
500 
500 
s00 
Ss00 
SsO00 
500 
500 
500 
sO0 
SO 
s00 
500 
200 
200 
200 


Et encore un tri des colonnes parfois demandé (trier les colonnes par type): 
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G RG (64-br) - [R Console] _ O 
R ïie Edit View Mec Packages \WVrecows Help PE - A | 
> mydata<-roai.cev("c:/tmp/VentosClean.ccv",hcader-T,cep-","| 
> str(mydata) 

"data.frame!: 109 obs. of 10 variakles: 

$ NClierLl ; int 109 123 109 104 117 103 104 111 113 116 ... 

S Activite : Factor w/ 8 levels "Alimentairc",..: 2 7 6 6 3 2 6 1 4 és 

$ NCcmmanrde s ul, LÉ SU SE T 6 9 Lee 

£ DatceDcCommande : Factor w/ 21 Ilovcls "03.01.2000", "04.0C1.2000",..: 1 1 L222222 …. 
$ Arlicle : Fatlur w/ 4 levels "AST Inlel 150",..: 3 4 1 2 3 1 2 4 É svs 
S Quanzits + Ant, 11 2 SA TIA 3 8 AT... 

$ PLrixParPiere : iul 1650 229S 2690 3199 1€50 2690 31S0 2299 1650 2299 ... 

$ Ratktais : dMactor 7 Ællavals "O-0ORTE TISSUS", 220, L I 2 1,2 LL L L .…: 
$ PrixTulalAvecRabais; nuu 19503 4598 13450 9570 21123 ... 

S FacturePayse i Factor w/ Z'lovals "NON" "Oui 2 2 202 EU 2 2 À 253; 

> mydata_ by _=ype<-mydatal,names (sort (sapplyimydata,cless);)1 

> str(mycata £cy type 

"data.freme': 109 oës. of 10 variables: 

$ Activite : Factor w/ BH lavols “Alimentaire",.,.: 2 / 6 6 3 2 6 1 4 3 .. 

$ DateDeCommande : Factor w/ 21 levels "03.01.2000", "04.01.2000",..: 1111222222. 
5 Article : Factor w/ 4 Lavels "AST Intel 150",;..: 3 4 1 2 3 12 4 3 4 : 
$ Rakais : Factoz w/ T'levals “0-0084",:71-5987,::2 0200 À À 2 Li. L L E es 
$ Facturelbayse * VACTOE wJ 2:levels "Non"; VOUL"E 2 2 2:2.2,2 2 2 2 Du 

$ NCliert ; ant 109 123 109 104 117 109 104 111 113 116 ... 

$ NC=mmende s Ant L£2 34.576 V à 9 EU... 

£ Quanzits SANS 192 2 SITES Ê 4 4:22... 

$ Lrix-srliece : int 1650 2299 2690 3199 1E€S0 26930 3190 2299 1650 2299 - 

À PrixTotalAvecRabais: rum 19503 4598 13450 9570 21123 ... 

> 
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Exemple 89.: Chercher et supprimer des doublons 
R 3.0.2 


En utilisant la commande duplicated() vous pouvez chercher les doublons se trouvant dans 
un data frame dans ou une ou plusieurs colonnes. 


Voyons cela d'abord avec notre data frame habituel en entier: 


> setwd("C:/") 
> mydata=read.csv("VentesDoublons.csv",header=T,sep=";") 
> duplicated(mydata) 

[1] FALSE FALSE FALSE FALSE FALSE FALSE SSL ALSE FALSE FALSE FALSE 
[15] FALSE FALSE FALSE FALSE FALSE FALSE (sur passe FALSE FALSE FALSE 
[29] FALSE FALSE FALSE FALSE FALSE FALSE F2 FALSE FALSE FALSE FALSE 

FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 


et avec une seule colonne: Le 
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> duplicated(mydatafärticle) 
[1] FALSE FALSE FALSE FALSE 
É15] TRUE TRUE TRUE TRUE 


[29] TRUE TRUE TRUE TRUE 
[43] TRUE TRUE TRUE TRUE 
TRUE TRUE TRUE TRUE 
TRUE TRUE TRUE TRUE 
TRUE TRUE TRUE TRUE 
TRUE TRUE TRUE TRUE 


et pour supprimer les doublons: 
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@IlS] 


> mydata=read.csv("VentesDoublons.csv",header=T,sep=";") 
> mydata<-mydata[ 'duplicated(mydata),] 
> duplicated(mydata) 
[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
[15] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 


[29] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
[43] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
[57] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
[71] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
[85] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
[99] FALSE FALSE FALSE FALSE FALSE FALSE FALSE 


W 
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Sciences.ch 


Exemple 90.: Remplacer des valeurs 
R 3.6.0 


Remplacer une valeur par une autre est assez trivial mais comme d'habitude, ce n'est pas 
forcément intuitif si l'on n'a pas déjà vu un exemple au moins une fois. 


Voyons donc cela en remplaçant un des nomes d'articles: 


R RGui (64-bit) - [R Console] 
QR File Edit View Misc Packages Windows Help 


SI 


> mydata<-read.csv("c:/tmp/VentesClean.csv",header=T, sep=",",stringsAsFactors=FALSE) 
> head(mydata) 
| NClient Activite NCommande DateDeCommande Article Quantite 
E à 100 Assurances 1 03.01.2000 Compaq Presario 100 12 
2 123 Machines/Outils 2 03.01.2000 IBM 500 2 
3 109 Éducation 3 03.01.2000 AST Intel 150 5 
4 104 Éducation 4 03.01.2000 AST Intel 200 3 
5 117 Banques 5 04.01.2000 Compaq Presario 100 13 
6 103 Assurances 6 04.01.2000 AST Intel 150 2 
| PrixParPiece Rabais PrixTotalAvecRabais FacturePayee 
a 1650 1.50% 19503.00 Oui 
2 2299 0.00% 4598.00 Oui 
3 2690 0.00% 13450.00 Oui 
4 3190 0.00% 9570.00 Oui 
5 1650 1.50% 21128.25 Oui 
6 2690 0.00% 5380.00 Oui 
> mydata{[mydataS$Article=-="Compaq Presario 100",]<-"Compaq 100" 
> head(mydata) 
NClient Activite NCommande DateDeCommande Article Quantite 
1 Compaq 100 Compaq 100 Compaq 100 Compaq 100 Compaq 100 Compaq 100 
2 123 Machines/Outils 2 03.01.2000 IBM 500 2 
3 109 Éducation 3 03.01.2000 AST Intel 150 5 
4 104 Éducation 4 03.01.2000 AST Intel 200 3 
5 Compaq 100 Compaq 100 Compaq 100 Compaq 100 Compaq 100 Compaq 100 
6 103 Assurances 6 04.01.2000 AST Intel 150 2 
PrixParPiece Rabais PrixTotalAvecRabais FacturePayee 
L Compaq 100 Compaq 100 Compaq 100 Compaq 100 
2 2299 0.00% 4598 Oui 
3 2690 0.00% 13450 Oui 
4 3190 0.00% 9570 Oui 
5 Compaq 100 Compaq 100 Compaq 100 Compaq 100 
6 2690 0.00% 5380 Oui 
- 
> ftet pour finir proprement 
> iii "Article"] <- as.factor(mydatal, "“Article"]) 
> 
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Exemple 91.: Accélérer l'accès aux colonnes 
R 3.0.2 


Si la syntaxe NomDuDataframe.$ Colonne vous ennuie à la longue, vous pouvez utiliser la 
commande attach() comme indiqué ci-dessous: 


SRG: 64-bt RC 
R Fichier Edition Voir Misc Packages Fénétres Aide 


setwd("C:/") 
mydata<-read.csv{("VentesClean.csv",header=T,sep=":") 
attach(mydata) 

summary (NClient) 

Min. ist Qu. Median Mean 3rd Qu. Max. 


100.0 105.0 113.0 112.8 120.0 127.0 
detach(mydata) #si besoin pour arrêter l'attachement... 
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Exemple 92.: Empiler/Désempiler des données de data frame 
R 3.0.2 


Il arrivera souvent dans la pratique que l'utilisateur copie/colle des données provenant de 
Microsoft Excel sous la forme suivante: 


ei DonneesDesempilees.csy - Bloc-notes HRO  _X 


Fichier Edition Format Affichage 


Ecarts;Ecarts 
45%; 15% 
40%;15 

35%; 15% 

35%; 10% 

30%; 10% 

30%; 10% 

25%; 5% 


25%; 5% 
25%; 0% 
20%; -5% 
20%; -5% 
20%; -10% 
20% 


ou avec encore plus de colonnes. Suivant les outils que nous verrons par la suite, il est 
nécessaire de mettre les données les unes sous Tes autres. Certes, un simple copier/coller suffit 
mais R a aussi une commande prévue à cet effet. 


D'abord commençons par le classique: 
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RGui (64-bit} - [R Consc 


R Fichier Edition Voir Misc Packages Fenêtres Aide | 


> setwd{i"C:/") 
> mydata = read.csv("DonneesDesempilees.csv",header=T, sep=";") 
> mydata 
Ecarts Ecarts.i 
45% 
40% 
35% 
35% 
30% 
30% 
25% 
25% 
25% 
20% 
20% 
20% 
20% 


1 
2 
3 
4 
5 
6 
7 
8 
9 


S 
Nous pouvons ensuite continuer notre travail. Ï nous faut pour cela installer le package gtools 


comme indiqué ci-dessous: 
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EC] Charger le package. 


> setwd("C:/") Choisir le site miroir de CRAN... 


> mydata = read.csv("Do Choisir les entrepôts. 
> mydata Installer le(s) packages). 
Ecarts Ecarts.i ] is sn 
45% 154 M 

40% 15 
35% 15% 
35% 10% 
30% 10% 
30% 10% 
25% 5$ 
25% 5% 
25% 0% 
20% —5$ 
20% -5$ 
20% -10* 
20% 


re à jour les packages. 


Installer le(s) packages) depuis des fichiers zip... 


© -J o in & © NH 


gstudio 
gsubfn 
gtable 
gtcorr 


É mr ads” 


gtx 
GuardianR 
Guerry 
GUIDE 
gumbel 


Nous validons par OK autant de fois que nécessaire. Ensuite, nous retournons à nos 
commandes: 
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25% 
10 20% 
11 20% 
12 20% 
13 20% 
> utils:::menulInstallPkgs |) 
--- SUP sélectionner un miroir CRAN pour cette session --- 
essai de l'URL 'http://stat.ethz.ch/CRAN/bin/windows/contrib/3.0/gtool$ 
Content type 'application/zip' length 111097 bytes (108 Kb) 
URL ouverte 
downloaded 108 Kb 


le package ‘gtools’ a été décompressé et les sommes MD5 ont été vérifié 
Avis : impossible de supprimer l'installation précédente du package ‘gf$ 


Les packages binaires téléchargés sont dans 
C:\Users\lsoz Vincent\aäppDataïLocal\ Temp RtmpS8eNHO\ doiwnloadedé 
> First$et<-data.frame(StackedColumn=mydatal,1]) 
> Second$et<-data.frame (StackedColumn=mydatal,2]) 
> 


4 


et nous pouvons enfin utiliser la colonne smarthind( ) du package gtools: 
\ 
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EE 


FirstSet<-data.frame (StackedColumn=mydatal,1]j) 
SecondSet<-data.frame (StackedColumn=mydatal,2]) 
libraryigtools) 
NewMat<-smarthind(FirstSet,SecondSet) 
NewMat 
StackedCo lun 

45% 

40% 

35% 

35% 

30% 

30% 

25% 

25% 

25% 

20% 

20% 

20% 

20% 

15% 


VMVNNNVV 


© © -J o O & © ND H 


H H 
k © 


SO Joe DH 


H H 
kH © 


Le 
de 
L: 
L: 
1 
1: 
1: 
1: 
1: 
1: 
1: 
15 
1e 
| 2: 
| 2: 
“s 
ss 
a 
CA 
2: 
FA 
2: 
A 
2: 
ET 
de 
> 


Ensuite, pour faire un peu le ménage: 
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m 
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> NewMat<-data.frame (StackedColumn=NewMat[1:25,]) 


> NewMat 


StackedColurin 


SO Joanne D H 


10 
11 


HHHHHH 
-J Oo On © D 


ou sans packages en utilisant judicieusement rbind( ) , as.vector( ) , factor() et 


as.data.frame( ) : 


45% 
40% 
35% 
35% 
30% 
30% 
25% 
25% 
25% 
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| GR RGui (64-bit) - [R Console] — (= 
| OR File Edit View Misc Packages Windows Help ex 


> mydata<-read.csv("c:/tmp/DonneesDesempilees.csv",header=T,sep=";" 


> x<-as.character (mydata$Ecarts) 
> y<-as.character (mydataS$Ecarts.1) 
> resultat<-as.vector (rbind(x,y)) 
> resultat<-resultat{which(resultat'="")] 
> resultat<-factor (resultat,levels=c("-10$%","-54","0%","5%","10%","15%","20%","25%","30%","35%","40%","45%")) 
| > as.data.frame(resultat{order(resultat))j) 
| resultat {order (resultat)] 
| 1 -10% 
2 55 
| 3 -5% 
| 4 0% 
5 5% 
|6 5% 
17 10% 
8 10% 
le 10% 
| 10 15% 
11 15% 
12 15% 
13 20% 
14 20% 
15 20% 
16 20% 
17 25% 
18 25% 
19 25% 
20 30% 
21 30% 
22 35% 
23 35% 
24 40% 
25 45% 


RO 
—_ | à de. _—. | 
Nous souhaiterions faire la même chose qu'avänt mais avec une petite subtilité nécessaire 
(disons plutôt "préférée" par certains utilisateurs). Il s'agit d'empiler les données mais avec 
une variable qualitative de l'appartenance de groupe. Pour cela, nous reprenons le fichier 


suivant: 


Fichier Edition Format Affichage ? 


eo 
. 


23 
21 
23 
20 
24 
25 
23 
23 


NJ DO LA LA Lu On 


Une méthode possible et similaire à celle d'avant mais avec un petit ajout consiste à utiliser la 
fonction smartbind( ) du package gtools: 
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2 RGui (64-bit} - [R Console 
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mydata = read.csv("CalculsSimples.csv") 
First$et<-data.frame (StackedColumn=-mydatal,1],Group="1") 
SecondSet<-data.frame (StackedColumn=mydatal,2],Group="2"] 
NewMat<-smarthind(FirstSet,Second$et) 


VMNNV 


NewMat 


StackedColuwmn Group 


© © -J on O1 B © N° FH H (0 © -J on O1 & © ND OH 


H 
Le 


1: 
Le 
1: 
Le 
Le 
L: 
1 
1 
À 
1 
2: 
2: 
2 
2 
2 
2 
2 
2 
2 
2 
> 


21. 
22. 
15. 
20. 
19. 
17. 
15. 
20. 
19. 
23. 
24. 
25. 
23. 
21. 
23. 
20. 
24. 
25. 
23. 
23. 


6 


DoOoOunsesmOunHnOCOOsEN © 


DONNE H 


Nous pouvons faire la même chose sans package (je m'en suis rendu compte un peu tard...) 


avec la commande native stacK( ) : 
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mydata<-read.csv{("CalculsSimples.csv") 
mydataValues<-stack(mydata) $values 
mydataCategories<-stack(mydata) $ind 
mydata<-chind(imydataValues,mydataCategories) 
mydata 
mydataValues mydataCategories 
[1,] 21.6 
[21 22. 
[3,] LS 
[4,1] 20. 
[S,1 19: 
[6,] LT 
LC] 18. 
[8,1] 20: 
[9,1 19. 
[10,] 23. 
[11,] 24. 
C12,1 2: 
C13,1 23. 
C14,] 21. 
Lis; Bas 
[16,] AE 
24. 
25. 
2 ds 
23. 


Soon Emo OO © OO & E © © 
DONNE H 


Ensuite, avec la commande tapply(}) que nous retrouvons à de nombreuses reprises nous 
pouvons nous amuser un peu: 
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> tapply(imydataValues,mydataCategories,summary) 
$Productionitelieri 
Min. ist Qu. Median Mean 3rd Qu. Max. 
15.20 18.35 19.75 19.62 21.30 23.10 


$Productionitelierz 
Min. ist Qu. Median Mean 3rd Qu. Max. 
20.50 FE Er 23.60 23.46 24.50 25.00 


> | 
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et avec un petit graphique rapide: 


> plot imydataValues-mydataCategories) 
> | 


4 


ea) 
d 
= 
ui 
Z 
Œ 
— 
i] 
D 
= 
= 


Productionâtelier1 Productionâtelier2 


mydataCategories 


Figure 28 Graph Box-Whisker (boîtes à moustaches) 


Maintenant, en imaginant que nous avons importé le tableau précédent, supposons que nous 
souhaiterions faire le contraire: désempiler. 


Pour cela, nous allons utiliser la commande native unstack() (du package utils) sur le jeu de 
données NewMat que nous avions créé plus haut: 
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UnstackedMat<-unstack (NewMat,StackedColumn-Group}) 
UnstackedMat 
X2 
24.5 
25.0 
23.6 
21.4 
23.3 
20.5 
24.5 
25.0 
23.6 
23,2 


0 © -J o O5 © ON 
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> colnames (UnstackedMat)<-c{"Atelier1","Atelier2") 

> UnstackedMat 

itelieri itelier2 
21.6 24.5 
220 25.0 
15.2 23.6 
20.4 21.4 
19.4 EX PE 
17.0 20.5 
18.0 24.5 
20.0 25.0 
19.5 23.6 
23 « 1 23.2 


© © -J o Un Bb © D mm 


V 
—9° 
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Exemple 93.: Empiler (fusionner) des données non-homogènes 
R 3.6.1 


Il peut être pénible pour certaines personnes de fusionner des jeux de données qui n'ont ni le 
mêmes colonnes, ni dans le même ordre avec la fonction cbind( ). Voyons donc comment 
nous pouvons nous simplifier la tâche avec la fonction smartbind( ) du package gtools: 


| R File Edit View Misc Packages Windows Help  E 


ST] Bel) el té] 


> library("gtools") | 
> (dfi<-data.frame(ID=c(1:3),Article=c("IBM 500","AST Intel 150","AST Intel 200"))) 
ID Article 
1 1 IBM 500 
2 2 AST Intel 150 
3 3 AST Intel 200 
> (df2<-data.frame (Quantité=c(3,8),1D=c(4:5),Article=c("Compar Presario 100","IBM 500"))) 


Quantité ID Article 
1 3 4 Compar Presario 100 
2 8 5 IBM 500 
> #pour fusionner plein de datafram qui commencent par "df" 
> (fusion<-do.call("smartbind", mget(ls(pattern = "df")))) 
ID Article Quantité 
EL 1 IBM 500 NA 
dfi:2 2 AST Intel 150 NA 
dEl:S 3 AST Intel 200 NA 
df2:1 4 Compar Presario 100 3 
da£2:2 5 IBM 500 8 
> rownames (fusion) <-— NULL 
> fusion 
ID Article Quantité 
4 À IBM 500 NA 
2 2 AST Intel 150 NA 
+ à AST Intel 200 NA 
4 4 Compar Presario 100 3 
5.5 IBM 500 8 
> | 


R Statistical Software 564/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Exemple 94.: Synthétiser/Agcréger des données (tables de 


contingences) 
R 3.0.2 


Nous allons voir ici quelques techniques élémentaires de synthèse de données plus élaborées 
que la simple fonction summary( ). Nous sommes bien évidemment très loin de ce qu'il est 
possible de faire beaucoup plus rapidement et esthétiquement avec le tableur Microsoft Excel 
(voir mes formations sur les tableaux croisés dynamiques sur Video2Brain.com et 
Alphorm.com). 


Voyons une première manière sympathique de synthétiser des données dans un tableau à 
double entrée avec des lignes de séparation. Nous installons et chargeons d'abord le package 


R Fichier Edition Voir Misc Packages Fenêtres Aide 
EROISESIEOIE 


> install.packages("Epi") 

Installing package into ‘C:/Video2Brain/Packages’ 

{as ‘lib’ is unspecified) 

essai de L'URL 'http://cran.rstudio.com/bin/windows/contrib/3.0/Epi 1.1.49.zip' 
Content type 'application/zip' length 1429689 bytes (1.4 Mb) 

URL ouverte 

downloaded 1.4 I! 


le package ‘Epi’ a été décompressé et les sommes MD5 ont été vérifiées avec succés 
Les packages binaires téléchargés sont dans 
C:\Users\1soz Vincent\AippDataiLocal\Temp\RtmpcJ81Xb\ downloaded packages 
> library(Epi) 
ittachement du package : ‘Epi’ 


L'objet suivant est masqué from ‘package:base’: 


merge.data.frame 


> | 


et ensuite nous faisons la synthèse avec la commande stat.table( ) : 
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> library("Epi") 
> mydata<-read.csv(file="c:/tmp/VentesClean.csv",header=TRUE, sep=",",encoding="ANSl") 
> stat.table(index=list (Article, FacturePayee),data=-mydata,contents=list (mean (Quantite)),margins=c (TRUE, TRUE)) 


= FacturePayee------—- 
Article Non Oui Total 
AST Intel 150 1:36 3.00 8.38 
AST Intel 200 9e 5.00 7.00 
Compaq Presario 100 13.36 9.87 11:99 
IBM 500 5.67 5.40 2:52 
Total 9.42 7.08 ES hi 


> stat.table(index=list (Article, FacturePayee),data=-mydata,contents=list (mean (Quantite),count (NClient)) 
+ ,margins=c (TRUE, TRUE) ) 


=————— FacturePayee------- 

Article Non Oui Total 
AST Intel 150 7.56 9.00 8.38 
7 11 14 

AST Intel 200 2:92 5.00 7.00 
12 13 18 

Compaq Presario 100 13.36 9.87 11:55 
11 15 23 

IBM 500 5-67 5.40 5.52 
12 12 19 

Total 9.42 7.08 8.11 
24 26 28 


NA 
Voici une deuxième manière de synthétiser desdonnées en une table de contingences avec les 
commandes table() (cette dernière peut être utilisée avec une seule variable aussi!) et 
addmargins(}) et ce sans packages!°: 


10 La commande xtable( ) que nous verrons lors de notre étude des graphiques permet d'avoir le même résultat 
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setwd("C:/") 
mydata<-read.csv("Ventes.csv",header=T,sep=":") 
mytable<-table (mydata$irticle,mydata$Facture.payée) 
mytable 


AST Intel 150 

AST Intel 200 

Compaq Presario 100 

IBM SO0 12 

mytable<-addmargins (mytable,FUN=sum,quiet=TRUE) 


mytable 


Non Oui sum 
AST Intel 150 9 12 21 
AST Intel 200 13 19 32 
Compaq Presario 100 14 15 29 
IBM SOÛ 12 15 27 
sur 48 61 109 


R RGui (64-bit) - [R Console] _ Q 
&@ File Edit View Misc Packages Windows Help 5 x 


> table (mydataS$Article,mydata$Facture.payée,dnn=list("Articles","Factures")) 


Factures 

Articles Non Oui 
AST Intel 150 9 12 
AST Intel 200 13 19 
Compaq Presario 100 14 15 
IBM 500 12 15 


> | 


Sinon, avec les proportions, en utilisant la commande prop.table() cela donne: 
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setwd("C:/") 


mydata<-read.csv("Ventes.csv",header=T,sep=":") 
mytable<-table (mydataf$irticle,mydataf$Facture.payée) 


mytable<-prop.table (mytable) 
mytable 


Non 
AST Intel 150 0.08256881 
AST Intel 200 0.11926606 
Compaq Presario 100 0.126844037 


IBM 500 0.11009174 


Oui 


«11009174 
.17431193 
.13761468 
.13761468 


mytable<-addmargins (mytable, FUN=sum,quiet=TRUE) 


mytable 


Non 
AST Intel 150 0.08256881 
AST Intel 200 0.11926606 
Compaq Presario 100 0.126844037 
IBM SO0 0.11009174 
sum 0.44036697 


Remarques: 


È 


Oui 


.11009174 
«17431193 
.13761468 
.13761468 
.55963303 


sur 


.19266055 
«29357798 
.26605505 
.24770642 
. 00000000 


e Pour extraire les valeurs dans des vecteurs il est possible de transformer la table en un 


data frame en utilisant la commande as.data.frame(rom_de_la_table). 


e Il suffit d'écrire: prop.table( )*100 pour avoir toutes les valeurs en % 


Enfin une question classique: comment mettre le symbole "%"? Eh bien ce n'est pas intuitif 


mais voilà en utilisant sprintf( ): 
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O 


GR RGui (64-bit) - [R Console] 


R File Edit View Misc Packages Windows Help - 6x 


Sa 


> mytable | 


Non Oui 
08256881 0.11009174 
11926606 0.17431193 
12844037 0.13761468 
11009174 0.13761468 


AST Intel 150 

AST Intel 200 

Compaq Presario 100 

IBM 500 
> pre _ table <- mytable 
pre _table[] <- sprintf("$.1f$5%",round(prop.table (mytable,1)*100, 3)) 
> pre table 


0. 
0. 
0. 
0. 


V 


Non Oui 


AST Intel 150 42.9% 57.15% 
AST Intel 200 40.6%5 59.45% 
Compaq Presario 100 48.3% 51.7% 
IBM 500 44.45% 55.6% 


> | 


Nous pouvons également synthétiser des données (très utile pour des diagrammes à barre ou 
des camemberts), avec la commande aggregate( ) : 
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setwd{("C:/") 

mydata<-read.csv("Ventes.csv",header=T,sep=":") 
mydata<-aggregate (mydata[1],by=1list (mydataf$ictivité) ,FUN=length) 
colnames (mydata) <-c{"Secteur",'"Comptage") 

mydata 


VMVNNVV 


Secteur Comptage 
ilimentaire 
issurances 
Banques 
Construction 
Distribution 
Éducation 
Machines/Outils 
Pharmaceutique 


gl 
2 
3 
4 
5 
6 
7 
8 
> 


Ou avec autre chose qu'un simple comptage: 
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El 
setwd({"C:/") 


mydata<-read.csv{("Ventes.csv",header=T,sep=";"] 
mydata<-aggregate (mydata$Quantité,hy=1list (mydata$dictivité),FUN=sum) 
colnames (mydata) <-c("Secteur","Somme Quantité") 
mydata 
Secteur Somme Quantité 
Alimentaire 46 
issurances 72 
Banques 74 
Construction 
Distribution 
Éducation 
Machines/Outils 
Pharmaceutique 


VMVNNNVV 


VO Jnin bo NRH 
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(ai 


> install.packages ("gmodels") 

Installing package into ‘C:/VideoZ2Brain/Packages’ 
(as ‘lib’ is unspecified) 

also installing the dependencies ‘gtools’, ‘gdata’ 


essai de L'URL 'http://cran.rstudio.com/bin/windows/contrib/3.0/gtools 3.2. 
Content type 'application/zip' length 112057 bytes (109 Kb) 

URL ouverte 

downloaded 109 Kb 


essai de L'URL 'http://cran.rstudio.com/bin/windows/contrib/3.0/gdata 2.13. 
Content type 'application/zip' length 850932 bytes (830 Kb) 

URL ouverte 

downloaded 5830 Kb 


essai de L'URL 'http://cran.rstudio.com/bin/windows/contrib/3.0/omodels 2.15.4.1.$ 
Content type 'application/zip' length 76853 bytes (75 Kb) 

URL ouverte 

downloaded 75 Kh 


Nous avons alors avec sa fonction CrossTable( ): 
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R Fichier Edition Voir Misc Packages Fenêtres Aide 
ÉROSESIOIE 


> library(gmodels) 
> CrossTable (mydataf$FacturePayee,mydatafirticle) 


Cell Contents 
| [ 
| Chi-square contribution | 
[ N / Row Total | 
| N / Col Total | 
I N / Table Total | 


Total Observations in Table: 109 


| mydata$äirticle 
mydatafFacturePayee | AST Intel 150 | AST Intel 200 Compaq Presario 100 IBM 500 | Row Total | 
D RS 

Non | 9 | 13 14 12 | 48 
( 0.007 | 0.085 0.118 0.001 | | 
( 0.188 | 0.271 0.292 0.250 | 0.440 | 
| 0.429 | 0.406 0.483 0.444 | | 
| 0.083 | 0.119 0.128 0.110 | | 
nee = | | || | 
Oui | 12 | 19 15 15 | 61 | 
( 0.005 | 0.067 0.093 0.001 | | 
( 0.197 | 0.311 0.246 0.246 | 0.560 | 
( 0,571. 0.594 0,517 0.556 | | 
[ 0.110 | 0.174 0.138 0.138 | | 
a À 
Column Total | 21 | 32 29 27 | 109 | 
( 0.193 | 0.294 0.266 0.248 | | 
ne fm || || nn | 
1 
Ÿ 


Ou pour revenir à du plus simple sans package utilisant la commande native sapply( ) 
relativement souvent utilisée dans des scripts R: 


R Fichier Edition = Voir Misc Packages Fenêtres Aide 


> setwdi"C:/"] 
> mydata<-read.csv("Ventes.csv",header=T,sep=";") 


> sapply(mydata[c{("Quantité","Prix.total.avec.rabais")], functioni(x) (cimean=mean(x) ,sd=sdix)))) 
Quantité Prix.total.avec.rabais 
mean 8.110092 18784.54 


sd 6.314797 15122.27 
> | 


Ou encore sans packages en utilisant la commande native tapply( ) : 
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RG Gb] 


R Fichier Edition Voir Misc Packages Fenêtres Aide 
ESBIOIE 


> setwd{"C:/") 
> mydata<-read.csv("VentesClean.csv",header=T,sep=";:") 
> #classique avec une entrée 
> tapply(imydata$Quantite,mydatafärticle,mean) 
AST Intel 150 AST Intel 200 Compaq Presario 100 IBM 500 
8.380952 7.000000 11.551724 5.518519 
> fclassique avec deux entrées 
> tapply(mydata$Quantite, list (mydata$irticle,mydata$FacturePayee) ,median) 
Non 
AST Intel 150 4.0 
AST Intel 200 8.0 
Compaq Presario 100 13.0 
IBM 500 LL 
> #deux entrées avec fonction personnelle 
> tapply(imydata$Quantite, list (mydata$firticle,mydata$FacturePayee), 
+ function(x) {sqgrt{var(x)/length{x))j}) 
Non Oui 
AST Intel 150 3.362832 2.0997835 
AST Intel 200 2.140757 0.6352234 
Compaq Presario 100 1.877007 1.3124556 
0.781736 0.7609518 


Ou avec trois entrées: 
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setwd("C:/") 
mydata<-read.csv{("VentesClean.csv",header=T,sep=";") 

#avec trois entrées 
tapply(mydata$Quantite, list (mydatafirticle,mydatafFacturePayee 
mydatafictivite) ,median) 

; Alimentaire 


AST Intel 150 

AST Intel 200 

Compaq Presario 100 NZ 1 
IBM 500 


5 s Assurances 


AST Intel 150 

AST Intel 200 
Compaq Presario 100 
IBM 500 


5 s banques 


AST Intel 150 4 2 
AST Intel 200 Ni Ni 
Compaq Presario 100 19 13 
IEM 500 9 à 


: +; Construction 


AST Intel 150 

AST Intel 200 

Compaq Presario 100 12.0 13. 
IBM 500 


Distribution 


et en utilisant par dessus la commande générique ftable( ) pour formater cela un peu mieux: 
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> ftable(tapply(imydata$Quantite, list (mydata$fictivite,mydatafFacturePayee 
+ ,mydatafirticle) ,median)) 
AST Intel 150 AST Intel 200 Compaq Presario 100 IBM 


Æ 
ce 
Æ 
ce 


ilimentaire LA 1) 
2.0 
Assurances : Ni 


: 4.0 
Banques : Ni 


Construction 
Distribution 
Éducation 


Machines/Outils 


6 ©! © © 6 'O Ur © © 6 G:in 


Pharmaceutique 


D -J 5 Jo N © © on O1 -J (0 On in in 
OOo nOo0000Cooonun 


2 . 
ce 


> | 


Ce dernier cas ressemble aux tableaux croisés dyamique du tableur Microsoft Excel mais en 
beaucoup moins flexible, rapide et esthétique. 


Enfin signalons la fonction xyTable() que nous utiliserons plus loin pour faire des 
régressions particulières. Considérons par exemple que nous souhaitons compter le nombre de 
quantités de commandes qui se trouvent près d'un arrondi au millier donnés des montants de 
facture. Nous avons alors: 


R File Edit View Packages Windows Help xl 


> x<-mydata$Quantité 
> y<-mydata$Prix.total.avec.rabais 
> df<-xyTablei(x,y,digit=1);:df 
$x 
[1 1223 3 3 4 4455566 7 7 8 6 6 9 9 10 10 10 20 20 20 20 20 
[30] 20 30 30 


| $y 
[1] 3000 5000 6000 7000 6000 10000 7000 9000 10000 6000 10000 20000 10000 20000 
[15] 10000 20000 10000 20000 30000 20000 30000 20000 30000 40000 20000 30000 40000 50000 
| [29] 60000 70000 50000 90000 


$number 
[1] 284 54 23 13 745 2 7 5 LZ 7 3 1 4 2 112 6 1 Z 3 ZL 1 1 | 
[30] 3 1 


[> 
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Ainsi il y a: 
e 2 commandes dont la quantité est 1 et le montant de facture près de 3'000 
e 8 commandes dont la quantité est 2 et le montant de facture près de 5'000 
e 5 commandes dont la quantité est 2 et le montant de facture près de 6000 
e Et ainsi de suite... 


Voyons maintenant la commande native split() agit sur des data frames: 


R RGuï (64-bit) - [R Console] — O X 
R File Edit View Misc Packages Windows Help 5 x 


> split (mydata{,c(1,3)],mydata$Activite) 
SAlimentaire 
NClient NCommande 
111 8 
111 32 
127 34 
127 44 
127 58 
111 80 
127 93 


SAssurances 
NClient NCommande 
L 100 
6 103 
23 100 
29 103 
45 100 
50 100 
55 103 
70 103 
74 103 
36 103 


SBanques 

NClient NCommande 
5 117 5 
31 120 31 
54 117 54 
59 105 59 
67 120 67 
68 117 68 
86 105 86 
87 105 87 
105 117 


S$Construction 
NClient NCommande 
9 113 9 
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Enfin, même si je ne suis pas un fan des application R qui ouvrent le navigateur Internet. 
pour ceux qui aiment vraiment les visuels très proches des tableaux croisés dynamiques de 
Microsoft Excel, nous avons le package rpivotTable et sa fonction du même nom 
rpivotTable( ): 


R File Edit View Misc Packages Windows Help - EX 


library("rpivotTable") 
mydata<-read.csv(file="c:/tmp/VentesClean.csv",header-=TRUE, sep=",") 
rpivotTable (rows=c("Activite","Article"),cols=c("FacturePayee","Rabais"), 
aggregatorName="Sum",vals = "PrixTotalAvecRabais",data-mydata) 


VV VV 


Ce qui donnera dans votre navigateur par défaut: 


Menu  ÎB indexhtml 2 + 


C #æ D file///C/Users/Vincent%20lsoz/AppData/Local/Temp/Rtmpw5joT1/viewhtml24481ab53aa/indexhtml 


[Table +] on IE FacturePayee r  Rabais 
[PrixTotalAvecRabais * 
NClient » Activite » RER LR eZ 
Rabais Totals 
NCommande Article Pere PE 0.00% 1.50% 3.00% 4.00% 0.00% 1.50% 3.00% 
DaDoCommande Alimentaire AST Intel 200 6,380.00 | 25,137.20 6.380.00 37,897.20 
Compaq Presario 100 1137675 2560800  36,984.75 
Quantite » 1BM 500 919600  15,851.60 25,047.60 
Assurances AST Intel 150 31,795.80 538000 3444545 71,621.25 
PnxParPiece » 
AST Intel 200 12.760.00 12,760.00 
PrixTotalAvecRabais r Compaq Presario 100 13,002.00 29,254.50 42,256.50 
1EM 500 11,495.00 6897.00  15.851.60 34,243.60 
Banques AST Intel 150 21,520.00 5380.00 26,900.00 
Compaq Presario 100 30.409,50 21,128.25 51,637.75 
18M 500 40,761.27 1149500  20380.63 72,636.90 
Construction | AST Intel 150 8070.00  23,846.85 31,916.85 
AST Intel 200 15,950.00 | 31,421.50 2233000 | 5341655 123,118.05 
Compaq Presario 100 | 825000  61,759.50 6,600.00 36,81150 | 113,421.00 
IBM 500 20,691.00 | 13,587.09 9196.00 38,496 76 81,970.85 
Distribution AST Intel 200 25,13720 | 71,168 90 116,259.55 212,565.65 
Compaq Presario 100 825000 2437875 26.004. 00 58,632.75 
1BM 500 6,897.00 4,598.00 11,495.00 
Machines/Outils | AST Intel 150 16,140.00 | 15,897.90 8521920 | 1076000  15,897.90 6262320 206,538.20 
AST Intel 200 19.140,00 | 18,852.90 9,570.00 47,562.90 
Compaq Presario 100 9.751.50 8.250,00  29.254.50 47,256.00 
18M 500 15,851.60 4,598.00 13,587 09 34,036.69 
Pharmaceutique | AST Intel 150 18,547.55 18,547.55 
AST Intel 200 12,760.00 | 40,847.95 | 136,149.20 12,760.00 202,517.15 
Compaq Presario 100 45,507.00 | 33,610.50 79,117.50 
1BM 500 33,967.72 4,598.00 38,565.72 
Éducation AST Intel 450 8,070.00 13,450.00 | 3179580 | 5479530 108,111.10 
AST Intel 200 41,470.00  25,137.20 66,607.20 
Compaq Presario 100 17,877.75 49,104.00 | 8.250.00 | 37,380.75 112,612.50 
1BM 500 11,495.00 6.897.00 | 22,645.15 41,037.15 
Totals | 167,038.00 | 465,524.64 | 271,338.10 | 134,323.20 | 228,885.00 | 600,558.44  179,838.00 | 2,047,515.38 
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Exemple 95.: Transformer des données longitudinales en 


transervales (et l'inverse) (dépivoter vs pivoter) 
R 3.0.2 


Voilà une situation dans laquelle nous nous retrouvons fréquemment lorsque nous travaillons 
avec des gens utilisant un tableur. Considérons le fichier suivant: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> mydata<-read.csv("C:/DonneesLongitudinales.csv",header=T,sep=":") 
> mydata 
id genre salaire 1980 salaire 1981 salaire 1962 


LE (a) Ss000 5500 6000 
2 2 À 2000 2200 3300 
3 3 (a 3000 2000 1000 
> 


avec la commande reshape( ) du package reshape2 nous allons transformer cela en données 
transversales (la syntaxe de la transformation est peu intuitive): 


«2, RGui (64-bit} - [R 


FR Fichier Edition Voir Misc Packages Fenêtres Aide 


library(reshape2) 
trans<-reshape (mydata,idvar="id",varying=list (names (mydata) [3:5]), 
v.names= "salaire ",timevar="annee",times=1960:1982,direction="long"] 
trans 
id genre annee salaire_ 
.1980 1 1980 5000 
. 1980 1980 2000 
.1980 1980 3000 
.1981 1981 5500 
.1981 1981 2200 
.1981 1981 2000 
. 1982 1982 6000 
. 1982 1982 3300 
. 1982 1982 1000 


V+VY 


Co D) EH © 0) He Co 1 
OrO0OO0OrOOrkO 


1 
2 
3 
1 
z 
3 
1 
2 
3 
> 
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et l'opération inverse (dont la syntaxe est beaucoup plus aisée): 


Re, RGui (64-bit) - 


-1950 1 (a) 
-.1950 2 1 
.1980 3 () 


Voyons un autre exemple: 


5000 
2000 
3000 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


5500 
2200 
2000 


> long<-reshape(trans,v.names="salaire ",idvar="id",timevar="annee", 
+ direction="wide") 
long 


id genre salaire .1980 salaire .1981 salaire .1962 


6000 
3300 
1000 


Fichier Edition Format Affichage 


? 


Pièces: Mesure;Opérateurs 


Pièce 1:9:Opérateur 1 
Pièce 2:6,0Opérateur 1 
Pièce 3:8,Opérateur 1 
Pièce 4,7:Opérateur 1 
Pièce 5,10; Opérateur 1 
Pièce 6,6,0Opérateur 1 
Pièce 1,2:Opérateur 2 
Pièce 2:1 Opérateur 2 
Pièce 3,4: Opérateur 2 
Pièce 4:1 Opérateur 2 
Pièce 5,5,Opérateur 2 
Pièce 6,2,0pérateur 2 
Pièce 1,5,Opérateur 3 
Pièce 2:3,Opérateur 3 
Pièce 3:6,Opérateur 3 
Pièce 4,2: Opérateur 3 
Pièce 5:6,Opérateur 3 
Pièce 6,4: Opérateur 3 
Pièce 1,8 Opérateur 4 
Pièce 2,2:Opérateur 4 
Pièce 3,8,Opérateur 4 
Pièce d:6,Opérateur 4 
Pièce 5,9: Opérateur 4 
Pièce 6,7,Opérateur 4 


Nous utilisons le package psych pour faire l'analyse avec la fonction ICC ) et le package 


reshape2 avec la fonction acast( )!! pour restructurer (pivoter) les données: 


11 Le "a" de acast( ) signifie "array" car la fonction dcast( ) du même package renvoie un "data frame". 
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KR Fichier Edition Voir Misc Packages Fenêtres Aide 


library(psych) 


library(reshapez) 


mydata<-read.csv("C:/tmp/ICC.csv",header=T,sep=";:") 
mydata<-acast (mydata, 


mydata 


Opérateur 1 Opérateur 2 Opérateur 3 Opérateur 


9 
6 
5 
7 
10 
6 


Pièces-Opérateurs, value.var="Mesure") 


2 


5 


R 


4 
5 
2 
5 
6 
9 
7 


Nous pouvons traiter des cas compliqués et assez courants dans le monde Microsoft Excel. 
Pour cela, construisons d'abord les deux jeux de données nécessaires pour l'exemple: 
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| GR RGui (64-bit) - [R Console] — LI 


| R File Edit View Misc Packages Windows Help x 


> À <- read.table(text="Year SIC alpha 
+ 1990 13 -0.08610973 
[+ 1990 15 -0.02270707 
|+ 1990 20 0.01273243 
+ 1990 25 -0.25173402 
+ 1991 26 -0.02625965 
+ 1991 27 -0.02685330", header=TRUE) 
> A 
Year SIC alpha 


1990 13 -0.08610973 

1990 15 -0.02270707 

1990 20 0.01273243 

1990 25 -0.25173402 

1991 26 -0.02625965 

27 -0.02685330 

B <- read.table(text="46 27 13 37 20 

1989 NA NA NA NA NA 

1990 NA NA NA NA NA 

1991 NA NA NA NA NA", header=TRUE, check.names=FALSE) 


V+ + + V Oo UE & NH 
H 
LU] 
Le] 
H 


46 27 13 37 20 
NA NA NA NA 
NA NA NA NA 
1991 NA NA NA NA NA 
> (A <- as.matrix(A)) 
Year SIC alpha 
[1,] 1990 13 -0.08610973 
[2,] 1990 15 -0.02270707 
[3,] 1990 20 0.01273243 
[4,] 1990 25 -0.25173402 
[5,1] 1991 26 -0.02625965 
[6,] 1991 27 -0.02685330 
> (B <- as.matrix(B)) 
46 27 13 37 20 
1989 NA NA NA NA NA 
1990 NA NA NA NA NA 
1991 NA NA NA NA NA 


BH 
© 
o © 
GS w 
24 2 
» » 


Nous souhaiterions retrouver les valeurs de la table À dans la matrice B. Pour cela 
subtilement, il faudra écrire: 
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MR RGui (64-bit) - [R Conso 


File Edit 


View 


le] 


Misc Pa 


ckages 


EECI 


> #on transforme d'abord la matrice B 
> Bm <- stack(as.data.frame(B)) 


> 


LO © JO U1 & N° H 


48 


(x 
> 


LO © -J oO UT & NH 


15 


Em 


values i 


CE 
ind 
13 
13 
13 
20 
20 
20 
27 
21 
27 
37 
37 
37 
46 
46 
46 


NA 
NA 
NA 
NA 
NA 
NA 
NA 
NA 
NA 
NA 
NA 
NA 
NA 
NA 
NA 


year 
1989 
1990 
1991 
1989 
1990 
1991 
1989 
1990 
1991 
1989 
1990 
1991 
1989 
1990 
1991 


nd 
46 
46 
46 
27 
27 
27 
13 
13 
13 
37 
37 
37 
20 
20 
20 


year 
1989 
1990 
1991 
1989 
1990 
1991 
1989 
1990 
1991 
1989 
1990 
LI9L 
1989 
1990 
1991 


|> #et on fusionne 
> C <- merge(Bm{,c("ind", 
by.y=c("SIic", 


alpha 
NA 


—-0.08610973 


0.012 


NA 
NA 
73243 
NA 
NA 
NA 


—-0.02685330 


NA 
NA 
NA 
NA 
NA 
NA 


year-ind) 


Windows Help 


> Bm$ind <- as.character (Bm$ind) 
> Bm$year <— rownames (B) 


"vyear")],as.data.frame(A),by.x=c("ind", 
"Year"),all.x=TRUE) 


> ftet on reformatte en longitudinal 
> library(reshape2) 
> dcaatiC, 
Using alpha as value column: use value.var to override. 


year 13 20 27 37 46 
1 1989 NA NA NA NA NA 
2 1990 -0.08610973 0.01273243 NA NA NA 
3 hi NA NA -0.0268533 NA NA 
> 


(a 


"year") F 


Enfin, voyons encore un autre exemple relativement courant et qui pose problème dans le 
monde Microsoft Excel et Microsoft Power BI, mais qui s'avère très facile avec R en utilisant 
les fonctions dcast( ), setDT( ) et rowid( ) du package data.table: 
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€ RGuïi (64-bit) - [R Console] 


ŒR File Edit View Misc Packages Windows Help 


> library("data.table") 
> df <- iris 
> nous voulons pivoter les noms des espèces relativement à la longuer de sépales 
> head({iris,10) 

Sepal.Length Sepal.Width Petal.Length Petal.Width Species 

5.1 3.5 1.4 0.2 setosa 

setosa 
setosa 
setosa 
setosa 
setosa 
setosa 
setosa 
setosa 
setosa 
+ Value.var = "Sepal.Length") 


& © A -1 © 


. 
. 
. 


b © 


D & & &  &  W 
10 4 4 10 Où lé ND) © 


sn O7 sb On On 4 dd 
0O0O0000000 
ON ON @ 4 NO NON ND 


4. 3.1 

> dcast (setDT(df), rowid(Species)-Specie 
Species setosa versicolor virginica 

L: 5,1 6.3 
2: 
3: 
L 
Se 
6: 


bb bb bb 
D On sb On db -3 5 On QU 


[na 
o 


à, à 
. . 
0 © -J On On 40 8 


0 2 © ME © OO 


Gi On On On On 4 On Un Où Un on mm 
7. 96 . . 
1 -J O1 ib CO -J © 4 O1 Ni) -J QG 4 Om Un & + © 


[=] 


Oo On On On On En Oo En 


1 CO Os bi C0 be 40 Où ND) C0 On -J O © ww © D 


. 
Q 


. 5€ + . Ge de 
— He © 8 À 48 N 4 HN NN -JJ & -J Où (p 


. 
. 


© Un © 4 © -J NO N © © © M M 0 bi JB —J © QG © © B 


On On On On En On On Oo a 
© Bb © © on in -J 


JO M -J J -J OO M JO M 3 On Oo M -J —J OO OO OO A M -J OO -J Bb -J A -J 


4 
4 
4 
5 
5 
4 
5 
4 
4 
5 
4 
4 
4 
5 
5 
5 
5 
5. 
5 
5 
5 
4 
5 
4 
5 
5 
5 
5 
4 
4 
S 
5 
5 
4 
5 


o 
m 


Bingo! Opération réussie! 
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Exemple 9%6.: Tableau disjonctif complet et tableau de Burt 


R 3.6.3 


Comme nous le savons de par notre étude théorique de l'analyse factorielle des 


correspondance et l'analyse factorielle multiple, ces dernières utilisent toutes deux un tableau 
disjonctif complet et le tableau de Burt. Voyons comment obtenir cela à partir d'un simple 
exemple vérifiable à la main à l'aide du package Laterality et sa fonction later AFCM( ): 


R 
M File Edit View Misc Packages Windows Help 


EI RER) @IIS] 


> library("Laterality") 
> 


> (mydata <- data.frame (Genre=c("Femme", "Homme", 
+ ,Couleur=c("Rouge", "Bleu", "Vert", 


+ ,Age=c(20,25,30,35))) 
| Genre Couleur Age 


| 1 Femme Rouge 20 
2 Homme Bleu 25 
| 3 Homme Vert 30 
| 4 Femme Rouge 35 
> 
|> laterAFCM(mydata) $Datadisj 
| L 1 0 
| 2 0 1 
| 3 0 1 
[4 1 0 
> laterAFCM(mydata) $SumcolDatadis] 


Genre .Femme 
2 2 
> laterAFCM(mydata) $Databurt 


Genre .Femme 
Genre .Homme 
Couleur.Bleu 
Couleur.Rouge 
Couleur.Vert 
Age.20 

Age.25 

Age.30 

Age.35 

>| 
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"Rouge") 


z 


Genre.Homme Couleur.Bleu Couleur.Rouge 


0 


"Homme", 


1 


0 
0 
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Couleur.Vert 


1 


0 
0 
0 


Age.20 
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1 
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Genre.Femme Genre.Homme Couleur.Bleu Couleur.Rouge Couleur.Vert Age.20 Age.25 Age.30 Age.35 


0 


0 
0 
1 


0 


CHOOHOOH 


Genre.Femme Genre.Homme Couleur.Bleu Couleur.Rouge Couleur.Vert Age.20 Age.25 Age.30 Age.35 
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Exemple 97.: Dépivoter des données de Microsoft Excel 
R 3.5.1 


L'exemple qui suit est totalement copié de l'excellent billet de blog suivant de Abhijit 
Dasgupta: 


https://webbedfeet.netlify.com/post/tidying-messy-excel-data-tidyxl/ 


Considérons le fichier Microsoft Excel suivant dont les données sont assez typiquement 
structurées pour ceux qui connaissent les tableaux croisés dynamiques: 


Fr pivot_excel_data.xisx - Microsoft Excel 


Insert Page Layout Formulas eview View Add-Ins Po 


31.83133 1 31.52867 1 32.92768 0 31.88682 0 
31.66967 1 31.33477 1 32.23012 0 32.36918 0 
31.45108 1 31.09272 0.202002 31.73647 0 31.51658 0 
31.0815 1 30.96078 0.448317 31.20458 0.086414 32.33217 1 


Notre objectif va être ici de mettre à plat ces données. Pour cela nous allons faire usage des 
packages unpivotr, tidyxl et dplyr et des fonctions majeures suivantes de ces packages: 
xlsx_cells( ) , behead( ) , filter() et spatter( ). 


L'ensemble du script (non-trivial comme le dit l'auteur lui-même) permettant d'arriver au 
résultat attendu est le suivant d'abord pour l'import: 


R 


Q Fie Edt Vien Misc Packages Windows Help Lex 
EBROBCEEE 


|> library("tidyxl") 

> library("unpivotr") 
> library("dplyr") 

> 


|> mydata <- tidyxl::xlsx cells ("c:/tmp/pivot_excel_data.xlsx®”) 
> head(mydata) 
# À tibble: 6 x 21 


sheet address row col is_ blank data_type error logical numeric date character character _forma- formula is array formula ref 
<chr> <chr> <int> <int> <lgl> <chr> <chr> <lgl> <dbl> <dttm> <chr> <list> <chr> <lg1> <chr> 

|1 bs_d- B1 1 2 FALSE character <NA> NA NA NA patient <tibble [1 x 14- <NA> FALSE <NA> 

2 bs_d- C1 1 3 FALSE numeric <NA> NA 44 NA <NA> <NULL> <NA> FALSE <NA> 

13 bs_d- Di 1 4 FALSE numeric <NA> NA 44 NA <NA> <NULL> <NA> FALSE <NA> 

4 bs_d- El 1 5 FALSE numeric <NA> NA 10 NA <NA> <NULL> <NA> FALSE <NA> 

5 bs_d- F1 1 6 FALSE numeric <NA> NA 10 NA <NA> <NULL> <NA> FALSE <NA> 

6 bs_d- G1 1 7 FALSE numeric <NA> NA 3 NA <NA> <NULL> <NA> FALSE <NA> 

# ... with 6 more variables: formula group <int>, comment <chr>, height <dbl>, width <dbl>, style format <chr>, local format_id <int> 


>| 


et ensuite pour le traitement: 
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R GU: i64-bit) - IK Console ll 


OR Fi- Fdit Vien Mis Packages Windows  Helf — D 4 


> cleanData <- function(d) !{ 

+ final <- à $5>$ 

+ select(row, col, data type, numeric, Character) %>% 

+ behead('N', ID) #>% + Extract column headers 

- behead('N', spine) %>#% 

+ behead('N', variable) %>4 

_ behead('w', angles) %>% # angles as row header 

+ select (numeric, TD:angles, data type, -spine) %>% # all vars are numeric 
+ filter (variable $tins c'A', 'B')) %>% # Kills off some extra columns 


+ spatter(variable) # Spreads, using data type, numeric 
- return(final) 
+ } 
> 
> (cleanData (mydata) ) 
# A tibble: 16 x 4 
1D angles A B 
<chr> <dbl> <dbl> <dbl> 
1 10 60 S3E.5 1 
2 10 65 ‘31:3 1 
3 10 70 31.1 0.202 
4 10 75 31.0 0.448 
“ 60 32.9 0 
6 3 65 32.2 0 
7 3 70 31.7 0 
8 3 15 31.2 0.0864 
9 44 60 31.8 1 
10 44 65 31,7: 1 
11 44 30 SELS 1 
12 44 75 31:L 1 
13 53 60 31.9 0 
14 53 65 32.4 0 
15 5 70 31.5 0 
16 53 25 32,31 
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Exemple 98.: Traiter un vecteur de texte 
R 3.0.2 


Voyons un cas courant dans les data frame consistant à décomposer le contenu d'une colonne 
contenant des chaînes de caractères en en prenant qu'une seule partie en appliquant la 
commande sapply() dont la syntaxe est loi d'être intuitive dans le cas présent (il faut au 
préalable convertir le typage de la colonne des textes avec la commande as.character( ) ): 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


setwd("C:/") 

mydata<-read.csv("VentesClean.csv",header=T,sep=":") 

mydata$firticle<-sapply(strsplit (as.character (mydatafärticle)," "j),"[",1) 

mydata 

NClient ictivite NCommande DateDeCommande ärticle Quantite PrixParPiecef 

100 Assurances 03.01.2000 Compaq 12 1650$ 
123 Machines/Outils 03.01.2000 IBM 2 2299$ 
109 Éducation 03.01.2000 AST 5 2690$ 
104 Éducation 03.01.2000 AST 3190$ 
117 Banques 04.01.2000 Compaq 1650$ 
103 issurances 04.01.2000 AST 2690$ 
104 Éducation 04.01.2000 AST 3190$ 
111 Alimentaire 04.01.2000 IBM 2299$ 
113 Construction 04.01.2000 Compaq 1650$ 
116 Pharmaceutique 04.01.2000 IBM 2299$ 
110 Distribution 05.01.2000 AST 3190$ 
112 Machines/Outils 05.01.2000 Compaq 1650$ 
123 Machines/Outils 05.01.2000 IBM 2299$ 
113 Construction 05.01.2000 AST 2690$ 
115 Distribution 05.01.2000 Compaq 1650$ 
124 Éducation 05.01.2000 AST 3190$ 
124 Éducation 05.01.2000 Compaq 1650$ 
106 Construction 05.01.2000 AST 3190$ 
101 Construction 05.01.2000 Compaq 1650$ 
116 Pharmaceutique 06.01.2000 IBM 2299$ 
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Exemple 99.: Travailler avec des valeurs absentes (NA) 
R 3.0.2 


Bon je ne suis pas un fan de ce sujet car je considère que le travail doit être correctement fait 
en amont pour éviter ce type de situations (c'est évidemment une opinion très personnelle). 
Notons et rappelons que ceux qui sont intéressés à approfondir le sujet, pourront se reporter 
au superbe ouvrage suivant sur le sujet: 


Flexible Imputation 
of Missing Data 


SECOND EDITION 
Stef van Buuren ©) Le) 


Il existe quelques paramètres et commandes dans R permettant de se débarrasser des valeurs 
absentes de type NA (Not Available) se trouvant dans un data frame. 


er : ; SC = 
Considérons le fichier suivant (remarquez les M£ dans la colonne Activité et Quantité): 


| M VentesNA.csv - Notepad O 
File Edit Format View Help 
"N..Clent";"Activité"-"N. de Commande":"Date de commande":"Article":"Quantité":"Prix par. pièce""Rabais "Prix total avec rabais":"Facture payée" A 
"1":100;"Assurances";1:"03.01.2000":"Compaq Presario 100":NA:1650:"1.50%":19503:"Oui" 
|"2":123:"Machines/Outils":2:"03.01.2000":"TBM 500":2:2299:"0.00%":4598:"Oui" 
|"3":109:NA:3:"03.01.2000":"AST Intel 150":5:2690:"0.00%":13450;"Oui" 
|"4":104:"Éducation";4:"03.01.2000":"AST Intel 200":3:3190:"0.00%":9570:"Oui" 
|"5":117:"Banques":5:"04.01.2000":"Compaq Presario 100":NA:1650:"1.50%":21128.25:"Oui" 
"6":103;"Assurances":6:"04.01.2000"-"AST Intel 150":2:2690:"0.00%":5380;"Oui" 
"7":104:"Éducation";7:"04.01.2000"-"AST Intel 200":2:3190:"0.00%":6380;:"Oui" 
|"8":111:"Alimentaire"-8:"04 01.2000"-"IBM 500":NA:2299:"0.00%":9196:"Oui" 
"9":113:"Construction":9:"04 01.2000":"Compaq Presario 100":NA:1650:"0.00%":6600;"Oui" 
"10":116;"Pharmaceutique"10:;"04.01.2000"-"IBM 500":NA:2299:"0.00%":4598:"Oui" 
|"11":110;"Distribution";11:"05.01.2000":"AST Intel 200":6:3190:"1.50%":18852.9:"Oui" 
|"12":112:"Machines/Outils":12:"05.01.2000":"Compaq Presario 100":6:1650;"1.50%":9751.5;"Oui" 
"13":123:"Machines/Outils":13:"05.01.2000"-"IBM 500":6:2299:"1.50%":13587.09:"Oui" 
"14":113:"Construction":14:"05 01.2000"-"AST Intel 150":3:2690:"0 00%":8070;"Oui" 
"15":115:"Distribution";15;"05.01.2000":"Compaq Presario 100":8:1650:"1.50%":13002;"Oui" 
"16":124:"Éducation":16:"05.01.2000"-"AST Intel 200":8:3190:"1.50%":25137.2;"Oui" 
|"17":124:"Éducation";17:"05.01.2000";"Compaq Presario 100":11:1650:"1.50%":17877.75:"Oui" 
"18":106:"Construction";18:"05.01.2000"-"AST Intel 200":11:3190:"1.50%":34563.65;"Oui" 
"19":101:"Construction":19:"05.01.2000":"Compaq Presario 100":14:1650:"1.50%":22753 5:"Non" 
"20":116;"Pharmaceutique":20;"06.01.2000"-"IBM 500":7:2299:"1.50%":15851.605;"Non" 
|"21":112:"Machines/Outils":21:"06.01.2000":"AST Intel 150":6:2690:"1.50%":15897.9:"Oui" 
"22":125:"Construction":22;"06.01.2000":"Compaq Presario 100":23:1650;"3.00%":36811.5;"Oui" 
"23":100;"Assurances":23:"06.01.2000"-"IBM 500":3:2299:"0.00%":6897:"Oui" 
"24":125:"Construction":24:"06.01.2000":"AST Intel 200":2:3190:"0.00%":6380;"Oui" 
"25":104:"Éducation":25;"07.01.2000":"AST Intel 150":12:2690:"1.50%":31795.8:"Oui" 
"26":126:"Machines/Outils":26;"07.01.2000":"AST Intel 150":24:2690:;"3.00%":62623.2:"Oui" 
"27":121;"Pharmaceutique":27:;"07.01.2000":"IBM 500":8:2299:"1.50%":18116.12;"Non" 
|"28":114:"Distribution":28:"07.01.2000":"AST Intel 200":9:3190;"1.50%":28279.35:"Oui" 


VA 
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Identifier les valeurs manquantes NA 


Alors quand nous importons dans R il faut spécifier ce qu'est une valeur "vide": 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


Et pour diagnostiquer simplement et bêtement les valeurs manquantes, nous pouvons utiliser 
la fonction is.na( }) de R: 


LI 
R File Edit View M 


> is.na(mydata) 
N..Client Activité N..de.Commande Date.de.commande Article Quantité Prix.par.pièce Rabais. Prix.total.avec.rabais Facture.payée 


Packages Windows Help _. 


L FALSE FALSE FALSE FALSE FALSE TRUE FALSE FALSE FALSE FALSE 
2 FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
3 FALSE TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
4 FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
5 FALSE FALSE FALSE FALSE FALSE TRUE FALSE FALSE FALSE FALSE 
6 FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
7 FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
8 FALSE FALSE FALSE FALSE FALSE TRUE FALSE FALSE FALSE FALSE 
9 FALSE FALSE FALSE FALSE FALSE TRUE FALSE FALSE FALSE FALSE 
10 FALSE FALSE FALSE FALSE FALSE TRUE FALSE FALSE FALSE FALSE 
11 FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
12 FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
13 FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
14 FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
13 FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
16 FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
17 FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
18 FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
19 FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
2 FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
22 FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
22 FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
24 FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
24 FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
25 FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
26 FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
27 FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
28 FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
29 FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
30 FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
31 FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
32 FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
33 FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
34 FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
35 FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
36 FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
37 FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
38 FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
39 FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 


On peut faire mieux esthétiquement (en sachant que les valeurs retournées peuvent être très 
utiles dans de nombreux cas pratiques!): 
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R RGui (64-bit) - [R Console 


R File Edit View Misc Packages Windows Help EN - RE: 


| > #arr.ind signifie “array index" 
> which(is.na(mydata), arr.ind=TRUE) 


row col 

3 2 

6 

5 6 

8 6 

9 6 

0 10 6 


| which(is.na(mydatal,6]), arr.ind=TRUE) 


11 Z 5 8 910 


Ven V V H (O0 CO 01 FH 


Supprimer les valeurs manquantes NA 


À nouveau, nous partons de: 
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Maintenant pour se débarrasser des lignes avec des NA nous utilisons la commande 
na.omit( ) : 
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> mydata<-read.csv("C:/VentesNi.csv",sep=";:",header=T,na.strings="Na") 
> mydata<-na.omit (mydata) 
> mydata 
N..Client Activité N..de.Commande Date.de.commande ärticle Quantité 
123 Machines/Outils 03.01.2000 IBM 500 
109 Éducation 03.01.2000 AST Intel 150 
104 Éducation 03.01.2000 AST Intel 200 
103 issurances 04.01.2000 AST Intel 150 
104 Éducation 04.01.2000 AST Intel 200 
110 Distribution 05.01.2000 AST Intel 200 
112 Machines/Outils 05.01.2000 Compaq Presario 100 
123 Machines/Outils 05.01.2000 IBM 500 
113 Construction 05.01.2000 AST Intel 150 
115 Distribution 05.01.2000 Compaq Presario 100 
124 Éducation 05.01.2000 AST Intel 200 
124 Éducation 05.01.2000 Compaq Presario 100 


H CO CO © om am N N & on D 
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Sinon certaines fonctions statistiques ont directement une option pour gérer ce genre de 
situation. Effectivement: 


RE 
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> mydata<-read.csv{("C:/VentesNi.csv",sep=";",header=T) 
> mean(mydata$Quantité) #exemple de fonction sans la gestion des NA 
| C1] Ni 
> mean(mydata$Quantité,na.rm=T) #exemple de fonction avec la gestion des Ni 
[1] 8.163462 
> | 


avec is.na() nous pouvons aussi savoir combien il y a des valeurs absentes ou non afin de 
Savoir à quoi nous attendre..: 


> sumi!is.naimydataf$Quantité)) 
[1] 104 


> sumiis.na(mydata$fQuantité)) 
[il 5 
> | 
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nous verrons plus loin que pour nous débarrasser des NA d'un data frame il suffit d'écrire 
na.omit(mon.data.frame). 


Remplacer les valeurs manquantes NA dans un dataframe 


Parfois 1l est souvent utile en finance et en statistiques de remplacer les NA par une valeur 
précise. Pour cela nous utilisons toujours la même fonction: 


R à orale T- 


R Fichier Edition Voir Misc Packages Fenêtres Aide 5x 


GSIPIE 


> mydata<-read.csv("c:/tmp/VentesNA.csv",header=TRUE, sep=";:",na.strings="NA") 
> mydata{is.na(mydata)]<-median (mydata$Quantité,na.rm=TRUE) 
Warning message: 
In ‘[<-.factor' (‘*tmp*', thisvar, value = 6) 
invalid factor level, NA generated 
> head (mydata, 10) 


N..Client Activité N..de.Commande Date.de.commande Article Quantité 
1 100 Assurances 1 03.01.2000 Compaq Presario 100 6 
2 123 Machines/Outils 2 03.01.2000 IBM 500 2 
3 109 <N2> 3 03.01.2000 AST Intel 150 5 
4 104 Éducation 4 03.01.2000 AST Intel 200 3 
5 117 Banques 5 04.01.2000 Compaq Presario 100 6 
6 103 Assurances 6 04.01.2000 AST Intel 150 2 
ri 104 Éducation 7 04.01.2000 AST Intel 200 2 
8 111 Alimentaire 8 04.01.2000 IBM 500 6 
9 113 Construction 9 04.01.2000 Compaq Presario 100 6 
10 116 Pharmaceutique 10 04.01.2000 IBM 500 6 
Prix.par.pièce Rabais. Prix.total.avec.rabais Facture.payée 
LE 1650 1.50% 19503.00 Oui 
2 2299 0.00% 4598.00 Oui 
3 2690 0.00% 13450.00 Oui 
4 3190 0.00% 9570.00 Oui 
5 1650 1.50% 21128.25 Oui 
6 2690 0.00% 5380.00 Oui 
3 3190 0.00% 6380.00 Oui 
8 2299 0.00% 9196.00 Oui 
9 1650 0.00% 6600.00 Oui 
. 2299 0.00% 4598.00 Oui 


À comparer avec: 
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| R Fichier Edition Voir Misc Packages Fenêtres Aide 


| > mydata<-read.csv(str Path,header=TRUE, sep=";",na.strings="NA" {stringsAsFactors = FALSE|) 


|> mydata{is.na(mydata)]<-median (mydata$Quantité,na.rm=TRUE) 
| > head(mydata, 10) 


Article Quantité 


| N..Client Activité N..de.Commande Date.de.commande 
[1 100 Assurances 1 03.01.2000 Compaq Presario 
(É: 123 Machines/Outils 2 03.01.2000 IBM 
| 3 109 ; 6 3 03.01.2000 AST Intel 

4 104 Éducation 4 03.01.2000 AST Intel 
| : 117 Banques 5 04.01.2000 Compaq Presario 
16 103 Assurances 6 04.01.2000 AST Intel 
| 7 104 Éducation 7 04.01.2000 AST Intel 
| 8 111 Alimentaire 8 04.01.2000 IBM 
19 113 Construction 9 04.01.2000 Compaq Presario 
| 10 116 Pharmaceutique 10 04.01.2000 IBM 
| Prix.par.pièce Rabais. Prix.total.avec.rabais Facture.payée 

L 1650 1:50% 19503.00 Oui 

2 2299 0.00% 4598.00 Oui 

3 2690 0.00% 13450.00 Oui 

4 3190 0.00% 9570.00 Oui R 

5 1650 1.50% 21128.25 Oui 

6 2690 0.00% 5380.00 Oui 

Æ 3190 0.00% 6380.00 Oui 

8 2299 0.00% 9196.00 Oui 

9 1650 0.00% 6600.00 Oui 

I 2299 0.00% 4598.00 Oui 

> 


Remplacer les valeurs manquantes dans une colonne numérique 
e 


100 
500 
150 
200 
100 
150 
200 
500 
100 
500 
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S1 on veut faire une imputation que sur une unique colonne, on écrira explicitement: 
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R RGui - Microsoft R Open version 3.5 (64-bit) - [R Console] — Ü X 
R Fichier Edition Voir Misc Packages Fenêtres Aide _|5|x 
> mydata<-read.csv("c:/tmp/VentesNA.csv",header=TRUE, sep=";",na.strings="NA") 
> QuantiteToClean<-mydata$Quantité 
> QuantiteToClean{is.na(QuantiteToClean) ]<-median (QuantiteToClean,na.rm=TRUE) 
> mydata$Quantité<-QuantiteToClean 
> head(mydata, 10) 
N..Client Activité N..de.Commande Date.de.commande Article Quantité 
5 100 Assurances 1 03.01.2000 Compaq Presario 100 6 
2 123 Machines/Outils 2 03.01.2000 IBM 500 2 
3 109 <N2> 3 03.01.2000 AST Intel 150 5 
4 104 Éducation 4 03.01.2000 AST Intel 200 3 
5 127 Banques 5 04.01.2000 Compaq Presario 100 6 
6 103 Assurances 6 04.01.2000 AST Intel 150 2 
ri 104 Éducation 7 04.01.2000 AST Intel 200 2 
8 111 Alimentaire 8 04.01.2000 IBM 500 6 
9 113 Construction 3 04.01.2000 Compaq Presario 100 6 
10 116 Pharmaceutique 10 04.01.2000 IBM 500 6 
Prix.par.pièce Rabais. Prix.total.avec.rabais Facture.payée 
1 1650 1.50% 19503.00 Oui 
2 2299 0.00% 4598.00 Oui 
3 2690 0.00% 13450.00 Oui 
4 3190 0.00% 9570.00 Oui 
5 1650 1.50% 21128.25 Oui 
6 2690 0.00% 5380.00 Oui 
3 3190 0.00% 6380.00 Oui 
8 2299 0.00% 9196.00 Oui 
9 1650 0.00% 6600.00 Oui 
“ 2299 0.00% 4598.00 Oui 
> 
UE E__E_EaEaEZEZEZZZ—_—_————— |] ]]-]-]-]--]]]|---]-----]------ (| 


Remplacer les valeurs manquantes dans une colonne de facteurs 
à 
ToDo 


Remplacer les valeurs manquantes par la précédente valeur non-absente 
Pour cela on a le package mefa et sa fonction fill.na( ) mais remarquons que bien 


évidemment il y a un problème si la première valeur est absente (ce qui peut être facilement 
résolu comme le montre la capture d'écran suivante): 
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Me AE. HE D'Un ereïnn 26 464 La RC 
RGui Microsoft R Ope ersion 3.5 (64-bi F 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> mydata$Quantité 


[1] NA 2 5 3 NA 2 2 NA NA NA 
[321 16 3 7 6 523 4 7 12 1 
[63] 12 3 4 512 5 13 12 5 22 
[941 5 6 5 6 631 5 2 6 11 


> library("mefa") 

> fill.na(mydata$Quantité) 

Error in fill.na(mydata$Quantité) : 
> mydata$Quantité[1]<-0 

> mydata$Quantité 


[1] 0 2 5 3 NA 2 2 NA NA NA 
E321 416 3% 7 6 523 4 7 12 1 
[OST 22: 3: S 512 5 19 12 5 22 
[SAT 5 6 5 6 631 5 2 6éil 

> fill.na(mydata$Quantité) 

ELT 0 2 5 5 3 2 2° ZE 2  Z 
[321 16 3 7 6 5 23 4 7 12 1 
[631 12 3 4 512 S 13 12 5 22 
‘ik S 6 5 6 631 5 2 611 

> 


le 


cannot replace 


6 3 8 8 11 
2: L'AL D 
33 10 11 4 13 

15 4 3 2 
"NA's 


6 3 8 8 11 
2.4, LA D 
33 10 11 4 13 
15 4 3 2 

6 3 8 811 
2 #4. L'1E Æ 
33 10 11 4 13 
15 4 3 2 


in 


14 
13 


6 
5 
4 


23 
3 


22 


first place 


14 
13 
15 


14 
13 
15 


Lo 


LS 


un 


un 


23 


23 


22 


> mydata<-read.csv("c:/tmp/VentesNA.csv",header=TRUE, sep=";",na.strings="NA") 


3 2 12 24 
s. T'241 1 
21 19 6 2 
d'.2 12 24 
5 721 7 
21-19 6 2 
3 2 12 24 
5 721 7 
21.193 6 ?Z 


- © 


œo 


w 


ww 


6 4 2 
8 10 4 
4 5 8 
6 4 2 
8 10 4 
4 5 8 
6 4 2 
8 10 4 
4 5 8 
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Analyser les données manquantes 


Nous allons voir ici en quoi la package VIM peut nous aider à analyser les valeurs 
manquantes d'un jeu de données. 


Nous chargeons pour l'exemple un jeu de données nommé s/eep associé au package: 


[IR Ru (64-bi0- 1 Conso - 


R File Edit View M ackages Windows Help = 4 x 


> library(VIM) 
> data(sleep);sleep 
Bodyügt BrainWgt NonD Dream Sleep Span Gest Pred Exp Danger 


1 6654.000 5712.00 Ni Ni 3.3 38.6 645.0 3 5 3 
[2 1.000 6.60 6.3 2.0 8.3 4.5 42.0 3 1 3 
3 3.385 44.50 NA NA 12.5 14.0 60.0 1 1 1 
4 0.920 5.70 Ni NA 16.5 NA 25.0 5 2 3 
5 2547.000 4603.00 2.1 1.8 3.9 69.0 624.0 3 5 4 
6 10.550 179.50 9.1 0.7 9.8 27.0 160.0 4 4 4 
7 0.023 0.30 15.8 3.9 19.7 19.0 35.0 1 ch 1 
E] 160.000 169.00 5.2 1.0 6.2 30.4 392.0 L. 5 4 
9 3.300 25.60 10.9 3.6 14.5 26.0 63.0 1 2 1 
10 52.160 440.00 68.3 1.4 9.7 50.0 230.0 1 1 1 
11 0.425 6.40 11.0 1.5 12.5 7.0 112.0 5 4 4 
12 465.000 423.00 3.2 0.7 3.9 30.0 281.0 5 5 5 
13 0.550 2.40 7.6 2.7 10.3 NA Ni 2 1 2 
14 187.100 419.00 NA NA 3.1 40.0 365.0 5 5 5 
| 15 0.075 1.20 6.3 2.1 8.4 3.5 42.0 1 1 1 
116 3.000 25.00 8.6 0.0 8.6 50.0 28.0 2 2 2 
17 0.785 3.50 6.6 4.1 10.7 6.0 42.0 2 2 2 
18 0.200 5.00 9.5 1.2 10.7 10.4 120.0 2 2 2 
19 1.410 17.50 4.8 1.3 6.1 34.0 Ni 1 2 1 
20 60.000 81.00 12.0 6.1 16.1 7.0 Ni 1 1 1 
21 529.000 680.00 Ni 0.3 Ni 26.0 400.0 5 5 5 
22 27.660 115.00 3.3 0.5 3.8 20.0 148.0 5 5 S 
23 0.120 1.00 11.0 3.4 14.4 3.9 16.0 3 1 2 
24 207.000 406.00 Ni NA 12.0 39.3 252.0 1 4 1 
25 85.000 325.00 4.7 1.5 6.2 41.0 310.0 1 3 s À 
26 36.330 119.50 Ni NA 13.0 16.2 63.0 1 1 1 
27 0.101 4.00 10.4 3.4 13.8 9.0 268.0 5 1 3 
28 1.040 5.50 ‘7.4 0.8 8.2 7.6 668.0 S 3 4 
29 521.000 655.00 2.1 0.8 2.9 46.0 336.0 5 5 5 
30 100.000 157.00 Ni NA 10.8 22.4 100.0 1 À 1 
31 35.000 56.00 NA NA NA 16.3 33.0 3 5 4 
32 0.005 0.14 7.7 1.4 9.1 2.6 21.5 E] 2 4 
33 0.010 0.25 17.9 2.0 19.9 24.0 50.0 1 1 1 
34 62.000 1320.00 6.1 1.9 8.0 100.0 267.0 1 » À 1 
35 0.122 3.00 86.2 2.4 10.6 NA 30.0 2 1 1 
36 1.350 8.10 6.4 2.8 11.2 NA 45.0 3 L 3 
| 37 0.023 0.40 11.9 1.3 13.2 3.2 19.0 4 1 3 
38 0.048 0.33 10.6 2.0 12.8 2.0 30.0 4 1 3 
39 1.700 6.30 13.8 5.6 19.4 5.0 12.0 2 1 1 
40 3.500 10.60 14.3 3.1 17.4 6.5 120.0 2 1 L 
41 250.000 490.00 Ni 1.0 NA 23.6 440.0 S 5 S 


Dont voici la description (suite à la demande d'une personne): 
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Data from which conclusions were drawn in the article “Sleep in 
Mammals: Ecological and Constitutionsl Correlates" by Allison, T. and 
Cicchetti, D. (1976), Science _, November 12, vol. 194, pp. 732-734. 
Includes brain and body weight, life span, gestation time, time 
sleeping, and predation and danger indices for 62 msmmals. 


Variables below (from left to right) for Mammals Data Set: 
species of animal 
body weight in kg 
brain weight in g 
slow wave ("nondreaming"}) sleep (hrs/day) 
paradoxical ("dreaming") sleep (hrs/day) 
total sleep (hrs/day) (sum of slow wave and paradoxical sleep) 
maximum life span (years) 
gestation time (days) 
predation index (1-5) 
1 = minimum (least likely to be preyed upon) 
5 = maximum (most likely to be preyed upon) 
sleep exposure index (1-5) 
1 = least exposed (e.g. animal sleeps in a 
well-protected den) 
5 = most exposed 
overall danger index (1-5) 
(based on the above two indices and other information) 
1 = least danger (from other animals) 


5 = most danger (from other animals) 


Note: Missing values denoted by -999.0 


For more details, see 


Allison, Truett and Cicchetti, Domenic V. (1976), "Sleep in Mammals: 
Ecological and Constitutional Correlates", Science _, November 12, 
vol. 194, pp. 732-734. 


African elephant 6654.000 5712.00 -999.@ -999.0 3.3 38.6 645.0 3 5 3 
African giant pouched rat 1.000 6.608 6.3 2.0 8.3 4.5 42.0 3 1 3 
Arctic Fox 3.385 44.500 -999.0 -999.0 12.5 14.0 60.0 1 1 1 
Arctic ground squirrel .920 5.708 -999.@ -999.0 16.5 -999.0 25.0 5 2 3 
Asian elephant 2547.00 4603.000 2.1 1.8 3.9 69.0 624.0 3 5 E 
Baboon 19.550 179.500 9.1 .7 9.8 27.60 180.0 E En E 
Big brown bat -023 .300 15.8 3.9 19.7 19.8 35.0 1 1 4 
Brazilian tapir 160.000 163.008 5.2 1.0 6.2 30.4 392.0 E 5 + 
Cat 2 204 95 où 1a a 24 145 2R à #2 a 1 ? 1 
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Avec la fonction aggr( ) du package VIM nous pouvons avoir un état des lieux du jeu de 
données: 


R kGu 64-bit _ X 


File History Resize ‘Windows 


OCDE) 


> missing<-aggr (sleep) :missing 


Missings in variables: 
Variable Count 
NonD 14 
Dream 12 
Sleep 
Span 
Gest 


>| 


Proportion of missings 
Combinations 


NonD 
Dream 
Sleep 
Span 
Gest 
Pred 
Exp 
Danger 


L 
(=) 
£ 
= 
SD 
re] 


BodyVgt 
Brain\W/gt 


5 
+ 
ë 
pa 


Figure 29 Graph combiné d'analyse de valeurs manquantes 


ou encore: 
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GR File Edit 


\ 
VIEW 


Misc 


Packages 


|> summary(aggr(sleep)) 


Missings per variable: 
Variable Count 


BodyWgt 
BrainWgt 
NonD 

| Dream 
Sleep 
Span 

| Gest 
Pred 

Exp 
Danger 


e) 
(s) 
14 
12 
4 


Windows 


Help 


Missings in combinations of variables: 


Percent 


| Combinations Count 
42 67.741935 


00000000 
00000000 


V 


:0:0:0:0:0:0:0:0 
:0:0:0:0:1:0:0:0 
:0:0:0:1:0:0:0:0 
:0:0:0:1:1:0:0:0 
:1:0:1:0:0:0:0:0 
:1:1:0:0:0:0:0:0 
:1:1:0:1:0:0:0:0 
:1:1:1:0:0:0:0:0 


[ei 


1) be (© 1) + 1 


4.838710 
3.225806 
1.612903 
3.225806 


14.516129 


1.612903 
3.225806 


Pour une variable donnée et ses intervalles nous pouvons afficher le nombre d'éléments non 


disponibles d'une autre variable choisie à l'aide de la fonction barMiss ): 
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R R Console 


> missing <- sleep[, c("Sleep"”,"Dream")] 
> barMiss (missing) 


R & Graphics: Device 2 (ACTIVE) 


E 
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Figure 30 Graphe d'histogramme de valeurs manquantes 


Nous pouvons également analyser les statistiques d'une variable (s/eep dans le cas présent) 
sous forme d'un box-plot et séparant aussi la statistique en deux sous-box-plot avec seulement 
et sans les valeurs manquantes d'une autre variable (dream dans le cas présent) à l'aide de la 
commande pbox( ): 
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R R Console 


> library(VIM) 
> data(sleep) 
> pbox(sleep[,c{"Sleep","Dream'")]) 


R R Graphics: Device 2 (ACTIVE) 


mn 
sh 
LS] 


.in Dream M 
ss.in Dream | 


bs 


Figure 31 Graphe Box-Whiser (boîtes à moustaches) de valeurs manquantes 


Nous avons aussi la fonction md.pattern() du package mice: 
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> library("VIM") 

> library("mice") 

> md.pattern(sleep) 
BodyWgt BrainWgt Pred Exp Danger Sleep Span Gest Dream NonD 


2 1 1 
2 1 1 
3 1 1 
9 1 1 
2 1 1 
1 1 1 
2 1 1 
1 1 1 

(e) (e) 


R File Edit View Misc Pac 


1 


Om bb bi bi bi bi 


1 


Om 


Windows 


1 


Om bb bi bi be 


1 


BbBHOmOHH M 


L 


bOmObE HE © 


1 


Bb kb kb © kb kb © 


1 


BOOM mObm 


ce 


[e 


BOOMmMmOObk bb 


1] 


© & & 12 12 13 «4 be © 


On peut lire du tableau ci-dessus, notamment à la première ligne, qu'il y a 42 observations ou 
entreprises qui sont complètes pour toutes les variables. On peut lire également à la huitième 


ligne que 1 observation est complète sauf pour 3 variables. 


Pour d'autres outils, le lecteur pourra se reporter à la page 516. 
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Imputer les valeurs manquantes statistiquement 


À ce jour le package le plus complet à notre connaissance permettant d'imputer des valeurs 
manquantes est le package mice avec la fonction mice( ) qui inclut presque une vingtaine de 
méthodes mathématiques pour accomplir le travail en question. 


Voyons donc un exemple (notez les NA dans le jeu de données d'origine!) mais d'abord 
observons la liste des méthodes impressionnante de méthodes d'imputation disponibles dans 
mice: 


8 RGui (64-bit) - [R Console] O 


R File Edit View Misc Packages Windows Help Sax) 


> library("mice") 
> methods (mice) 
[1] mice.impute.21l.bin mice.impute.21l.lmer 
[3] mice.impute.2l.norm mice.impute.2l.pan 
[5] mice.impute.2lonly.mean mice.impute.2lonly.norm 
[7] mice.impute.2lonly.pmm mice.impute.cart 
[9] mice.impute.jomolmpute mice.impute.lda 


[11] mice.impute.logreg mice.impute.logreg.boot 

[13] mice.impute.mean mice.impute.midastouch 

[15] mice.impute.norm mice.impute.norm.boot 

[17] mice.impute.norm.nob mice.impute.norm.predict | 
[19] mice.impute.paniImpute mice.impute.passive | 
[21] mice.impute.pmm mice.impute.polr 

[23] mice.impute.polyreg mice.impute.quadratic 

[25] mice.impute.rf mice.impute.ri 

[27] mice.impute.sample mice.mids 


[29] mice.theme 
see "?methods' for accessing help and source code 
Warning message: 
In .S3methods (generic.function, class, envir) 
ss "mice' appears not to be S3 generic; found functions thats$ 
> 


Ou de manière plus détaillée en allant lire la documentation du package lui-même: 


pmm any Predictive mean matching 
midastouch any Weighted predictive mean matching 
sample any Random sample from observed values 
cart any Classification and regression trees 
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rf any 

mean numeric 
norm numeric 
norm.nob numeric 
norm.boot numeric 
norm.predict  numeric 
quadratic numeric 
ri numeric 
logreg binary 
logreg.boot  binary 
poir ordered 
polyreg unordered 
lda unordered 
21.norm numeric 
21.1mer numeric 
21.pan numeric 
21.bin binary 
21only.mean numeric 
21lonly.norm  numeric 
21only.pmm any 


Random forest imputations 
Unconditional mean imputation 
Bayesian linear regression 

Linear regression ignoring model error 
Linear regression using bootstrap 
Linear regression, predicted values 
Imputation of quadratic terms 

Random indicator for nonignorable data 
Logistic regression 

Logistic regression with bootstrap 
Proportional odds model 

Polytomous logistic regression 

Linear discriminant analysis 

Level-1 normal heteroscedastic 

Level-1 normal homoscedastic, Imer 
Level-1 normal homoscedastic, pan 
Level-1 logistic, glmer 

Level-2 class mean 

Level-2 class normal 

Level-2 class predictive mean matching 


Et allons-y pour un petit cas pratique non-exhaustif!: 


R RGui (64-bit) - [R Cons 
R File 


SI) 


Edit View Misc Packages Windows Help 


> library("mice") 
> mydata<-read.csv(file-="VentesNA.csv",header=T,sep=";") 
> head(mydata) 


Warning message: 
Number of logged events: 500 
> head(complete (tempData)) 


N..Client Activité N..de.Commande Date.de.commande Article Quantité 
z 100 Assurances À 03.01.2000 Compaq Presario 100 NA 
2 123 Machines/Outils 2 03.01.2000 IBM 500 2 
3 109 <NA> 3 03.01.2000 AST Intel 150 5 
4 104 Éducation + 03.01.2000 AST Intel 200 3 
5 117 Banques 5 04.01.2000 Compaq Presario 100 NA 
6 103 Assurances 6 04.01.2000 AST Intel 150 2 
Prix.par.pièce Rabais. Prix.total.avec.rabais Facture.payée 
1 1650 1.50% 19503.00 Oui 
2 2299 0.00% 4598.00 Oui 
3 2690 0.00% 13450.00 Oui 
4 3190 0.00% 9570.00 Oui 
5 1650 1:50 21128.25 Oui 
6 2690 0.00% 5380.00 Oui 


> tempData<-mice (mydata,m=5,method="pmm",maxit=50,seed=500,print=FALSE) 


N..Client Activité N..de.Commande Date.de.commande Article Quantité 
1 100 Assurances 1 03.01.2000 Compaq Presario 100 13 
2 123 Machines/Outils 2 03.01.2000 IBM 500 2 
à 109 Machines/Outils 3 03.01.2000 AST Intel 150 5 
4 104 Éducation 4 03.01.2000 AST Intel 200 3 
5 117 Banques S 04.01.2000 Compaq Presario 100 15 
6 103 Assurances 6 04.01.2000 AST Intel 150 2 
Prix.par.pièce Rabais. Prix.total.avec.rabais Facture.payée 
1 1650 1.50% 19503.00 Oui 
2 2293 0.00% 4598.00 Oui 
3 2690 0.00% 13450.00 Oui 
4 3190 0.00% 9570.00 Oui 
5 1650 1.50% 21128-25 Oui 
6 | 2690 0.00% 5380.00 Oui 
> 


Attention!!! Pour que le package mice impute les variables catégorielles, il faut importer 
les données catégorielles en tant que facteurs. Donc évitez le stringsAsFactors=FALSE 


dans read.csv( ) ou autre.…..! 
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Exemple 100.: Fusionner des données par clé de mappage 


(RECHERCHEV) 
R 3.0.2 


Dans certaines situations simples plutôt que de faire appel à l'artillerie lourde du SQL pour 
associer deux data frame, une solution simple est parfois possible. Elle consiste à faire un 
mappage entre deux tables en utilisant la commande native merge() deR. 


Considérons pour l'exemple les deux jeux de données suivants: 


FR Fichier Edition Voir Misc Packages Fenêtres Aide 


mydataMain<-read.csv("C:/DonneesTransversales.csv",header=T,sep=";:") 
mydataSub<-read.csv("C:/MappageMerge.csv",header=T,sep=";")] 
mydataMain 
id annee genre salaire 
1980 (a) 5000 
1981 5500 
1982 6000 
1980 2000 
1981 2200 
1982 3300 
1980 3000 
1981 2000 
1982 1000 
mydataSsub 
id max _ attendu 
2400 
1800 
1900 


(e) 
(e] 
1 
1 
L 
(a) 
(e) 
(e] 
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Full (outer) join 


Nous allons faire un mappage et observer le résultat (la conclusion devrait ne pas nécessiter 
de commentaires de notre part): 


Gui (64-bit — 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


(@] 


> merge (mydataMain,mydataSub,by="id",all=TRUE) 
id annee genre salaire max attendu 
L 


SQOJJonnEu NH 
oO OO EH 


V H 
0 


1951 
1950 
1952 
1952 
1950 
19851 
1952 
1950 
1951 

Ni 


[a] 


O00OHHKH OO 


A 
ce 


5500 
S000 
6000 
3300 
2000 
2200 
1000 
3000 
2000 

Ni 


1500 
1500 
1500 
2400 
2400 
2400 
Ni 
Ni 
Ni 


Il s'agit donc de l'équivalent du fameux | de Microsoft Excel (VLOOKUP 


pour ceux qui ont la version anglaise). 


Left (outer) join 


Pour la jointure gauche nous utiliserons une syntaxe similaire: 


R File Edit View 


> merge (mydataMain,mydataSub,by="id",all.x=TRUE) 
id annee genre salaire max attendu 


L TL 19687 
2 1 1980 
3. d 1982 
4 2 1982 
5 2 1980 
6 2 1981 
7 3 1982 
8 3 1980 
9 3 1981 
> 


Misc 


0 


(CRT SR RS RS 


Packages 


5500 
5000 
6000 
3300 
2000 
2200 
1000 
3000 
2000 


Windows 


Help 


1800 
1800 
1800 
2400 
2400 
2400 
NA 
NA 
NA 
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Right (outer) join 


Pour la jointure droite nous utiliserons une syntaxe similaire: 


UR RGui (64-L [R sole — 0 
ŒR File Edit View Misc Packages Windows Help - EX 
E 
> merge (mydataMain,mydataSub,by="1id",all.y=TRUE) | 
id annee genre salaire max attendu | 
L' 1: 21987 (e] 5500 1800 
2 1 1980 0 5000 1800 
3 LÀ 19682 0 6000 1800 ] 
4 2 1982 1 3300 2400 | 
5 2 1980 1 2000 2400 | 
6 2 1981 4 2200 2400 
7 4 NA NA NA 1900 | 
> | 
. NS 
Inner join 


Pour la jointure interne nous utiliserons une syntaxe similaire: 


M RGui (64-bit) - [R Console] _ O 
OR File Edit View Misc Packages Windows Help - 6 xl 


|> merge (mydataMain,mydataSub,by="id") | 
id annee genre salaire max attendu | 


| “E  AOEL 0 5500 1800 
|2 1 1980 0 5000 1800 
[3 1 1982 0 6000 1800 
14 2 1982 1 3300 2400 
[5 2 1980 1 2000 2400 
6 | 1981 L 2200 2400 
> 
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Cross join 


Pour la jointure cartésienne nous utiliserons une syntaxe similaire: 


UR RGui (64-bit) - [R Console] 
ŒR File Edit View Misc Packages Windows Help 


SET [@ 


> merge (mydataMain,mydataSub, by=NULL) 

id.x annee genre salaire id.y max attendu 
1980 
1981 
1982 
1980 
1981 
1982 
1980 
1981 
1982 
1980 
1981 
1982 
1980 
1981 
1982 
1980 
1981 
1982 
1980 
1981 
1982 
1980 
1981 
1982 
1980 
1981 
1982 


HE 


© © -J a O1 & & NH 


OO BB 000000 AM OO © O OO OMR © 00 
EE LEE BB BB D ND ND ND D D D D D 


s? 
2 
2 
2 
3 
3 
3 
1 
& 
eh 
2 
2 
2 
3 
5 
3 
1 
L 
SF 
2 
2 
2 
3 
3 
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Exemple 101.: Afficher un data frame en tant que table 
R 3.24 


Nous allons voici ici quelques possibilités du package gridExtra dont il existe une excellente 
documentation ici: 


https://cithub.com/baptiste/sridextra/wiki/tableGrob 


Donc voyons un example avec notre jeu de données habituel et en utilisant la fonction 
tableGrob: 


R RGui (64-bit) - [R Console] = (n) X 
KR File Edit View Misc Packages Windows Help SE: 


library(gridExtra) 
mydata<-read.csv("C:/tmp/VentesClean.csv",header=T,sep=":") 
tt3 <- ttheme default ( 

core=list(fg params=list (fontsize=6)), 

colhead=list(fg params=list(fontsize=6)), 

rowhead=list(fg params=list (fontsize=6)) 

) 

mytable<- tableGrob(mydata{1:25,],theme=tt3) 

grid.arrange (mytable) 


VV VV V 


Ce qui donne: 
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activite 
ASSUTANCES 
Macnines Outié 
Écucation 
Écucation 
Banques 
ABSUTaNCeS 
Écvcation 
Almertaire 
Construction 
Pnarmaceutique 
Distribution 
Macnines Outils 
Macnines Oufié 
Construction 
Distrotion 
Écucation 
Éoucaætion 
Construction 
Construction 
Prarmaceutique 
Macnines Outls 
Construction 
ASEUTANCEE 
Construction 
Écvcaton 


18 
19 
2 
rl 
2 
pa) 
2 
2 


Figure 32 Graph d'un data.frame 
D'autres complications viendront par la suite car la syntaxe est un peu pénible à ce jour! 


ToDo: Faire d'autres exemples 
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Exemple 102.: Différences entre apply, lapply, sapply et 


autres... 
R 3.2.4 


Comme la question est fréquemment demandée dans les formations, voici — avant de passer à 
l'étude du package dplyr - un résumé concernant les différences entre ses trois fonctions que 
l'on retrouve fréquemment (si nous omettons vapply( ), tapply( ), eapply( ), rollapply( )?). 


Alors allons-y (on peut obtenir les mêmes informations en tapant ??apply dans la console et 
en allant regarder la dernière page du résultat): 
LUV..LULLAppE y. APPIY NULLE 2 uuvUUuS 
base::apply Apply Functions Over Array Margins 
base::.subset Internal Objects in Package 'base' 
base::by Apply a Function to a Data Frame Split by Factors 
base::eapply Apply a Function Over Values in an Environment 
base::lapply Apply a Function over a List or Vector 
base::mapply Apply a Function to Multiple List or Vector Arguments 


base::rapply Recursively Apply a Function to a List 


base::tapply Apply a Function Over a Ragged Array 


crid::2Fdit Create and Annlv Edit Obiects 
NS 


O0 
e base::by Apply a function to a data ffame split by Factors 


Permet d'appliquer une fonction R ou personnelle sur un ensemble de colonnes d'un 
data frame par catégories d'une variable. 


ee base::apply(array/matrix, margin, fun, …) Apply Functions Over Array 
Margins 


Permet d'appliquer une fonction R ou personnelle sur un ensemble de colonnes d'une 
matrice. Comme nous l'avons montré avec les exemples aux pages 277, 2512 ou 
encore 2931. 


e base::lapply(list/vector, fun, …) Apply Functions and return a list 
Permet d'appliquer une fonction R ou personnelle sur une liste et renvoie une liste. 
C'est un cas relativement rare mais nous le lecteur pourra en voir un exemple à la page 


2179. 


Remarque: Passer le paramètre simplify-FALSE à sapply() donne le même résultat 
que lapply: sapply(x, fun, simplify=F) 


e base::sapply(list/vector, fun, …) Apply Functions and return a vector (or 
optionaly a list) 


12 En tant qu'auteurs du présent document, nous n'en avons jamais eu usage et donc ne voyons que faiblement 
l'intérêt de s'attarder dessus. 
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Permet d'appliquer une fonction R ou personnelle sur une liste vecteur et renvoie une 
liste ou vecteur. C'est le cas le plus utilisé dans R et lecteur pourra en voir des 
exemples à la page 571, 233, 2484, 2916. 


Mais pour ceux qui ne souhaiteraient pas avoir à reparcourir toutes les pages mentionnées en 
référence, voici un résumé francophone repris de l'excellent article de blog suivant de Neil 
Saunders: 


https://nsaunders.wordpress.com/2010/08/20/a-brief-introduction-to-apply-in-r/ 


Remarque: On parle souvent de "vectorisation" lorsqu'on utilise les fonctions ci-dessous. 
Mais en réalité, en allant voir le code source de R, on peut observer qu'il s'agit simplement de 
fonctions qui cachent en arrière plan des boucles écrites en R pour apply( ) ou des boucles en 
C qui appellent des fonctions en R pour les autres (donc ce sont juste des fonctions qui le plus 
souvent simplifient l'écriture d'un script R!). 


apply 


Rappel: Renvoie un vecteur ou un tableau ou une liste de valeurs obtenus en appliquant une 
fonction aux marges d'un tableau ou d'une matrice. 


Voyons un exemple: 


R Statistical Software 611/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


@R RGui (64-bit) - [R Console] — 


GR Fichier Edition Voir Misc Packages Fenêtres Aide - F5 x 


ÉBROISOSINIE | 


> # création d'une matrice de 10 lignes x 2 colonnes 
> m <-— matrix(c(1:10, 11:20), nrow = 10, ncol = 2) 
> # moyennes des lignes 
> apply(m, 1, mean) 
[1], 6 7 8 910 11 12 13 14 15 
> # moyennes des colonnes 
> apply(m, 2, mean) 
ER RS 200 
> # diviser toutes les valeurs par 2 
> apply(m, 1:2, function(x) x/2) 


[,1] [,2] 
[L, 1 5-5: 
[2,] 1.0 6.0 
13,1 1.5 5:59 
[4,] 2:0 7:0 
[5,] 2:23 71:95 
[6,] 3.0 8.0 
[7,] 3.5 8.5 
[8,] 4.0 9.0 
[9,] 4.5 9.5 
[10,] 5.0 10.0 
> 
by 


Rappel: La fonction ‘by' est un wrapper orienté objet pour ‘tapply' appliqué aux trames de 
données. 


Exemple: 
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UR RGuiï (64-bit) - [R Console] — 


GR Fichier Edition Voir Misc Packages Fenêtres Aide _ F x 


EBOIBSCSNIE 


> attach(iris) 
> head(iris) 
Sepal.Length Sepal.Width Petal.Length Petal.Width Species 


1 Se 3.5 1.4 0.2 setosa 
2 -.9 3.0 1:4 0.2 setosa 
3 2:17 ce 13 0.2 setosa 
d 4.6 3:1 1.5 0.2 setosa 
. 5.0 3.6 1.4 0.2 setosa 
6 5.4 7 157 0.4 setosa 


> # obtenir la moyenne des 4 premières variables, par espèce 

> by(iris!{, 1:4], Species, colMeans) 

Species: setosa 

Sepal.Length Sepal.Width Petal.Length Petal.Width 
5.006 3.428 1.462 0.246 

Species: versicolor 

Sepal.Length Sepal.Width Petal.Length Petal.Width 
5.936 2.770 4.260 1.326 

Species: virginica 

Sepal.Length Sepal.Width Petal.Length Petal.Width 

| 6.588 2.974 5.552 2.026 
> 


eapply 


Rappel: eapply applique FUN aux valeurs nommées d'un environnement et renvoie les 
résultats sous forme de liste. 


Exemple: 
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Sciences.ch 


R RGui (64-bit) - [R Console] . 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


# un nouvel environnement 

e <—- new.env() 

# deux variables d'environnement a et b 
eS$a <- 1:10 

eS$b <- 11:20 

# moyenne des variables 

eapply(e, mean) 

‘a° 

EL] 5:58 


mNVVVVV VV 


$b 
EL] 15.9 


> | 


lapply 


Rappel: lapply renvoie une liste de la même longueur que X, dont chaque élément est le 


résultat de l'application de FUN à l'élément correspondant de X. 


Exemple: & 


oŸ 
R RGui (64-bit) - [R Console] — 


GR Fichier Edition Voir Misc Packages Fenêtres Aide 


> # créer une liste avec 2 éléments 

> 1 <— list(a = 1:10, b = 11:20) 

> # la moyenne des valeurs dans chaque élément 
> lapply(l, mean) 

$'a° 

[11 S.5 


[1] 15.5 

> + la somme des valeurs dans chaque élément 
> lapply(l, sum) 

$'a* 

[1] 55 


$b 
[1] 155 


> | 
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La documentation sur lapply() nous dit de consulter la documentation pour sapply() , 
vapply() . Faisons cela. 


sapply 


Rappel: sapply est une version conviviale de lapply par défaut renvoyant un vecteur ou une 
matrice si nécessaire. 


Exemple: 


8 Fichier Edition Voir Misc Packages Fenêtres Aide 


> # créer une liste avec 2 éléments 

> 1 <- list(a = 1:10, b = 11:20) 

> # moyenne des valeurs en utilisant sapply() 
> l.mean <- sapply(l, mean) 

> # type d'objet retourné? 

> class(l.mean) 

[1] “"numeric" 

> # c'est un numérique donc nous pouvons obtenir le résultat ainsi: 
> l.mean{['a']] 

ER ER 

> 


On peut voir la différence en revenant sur un exemple que nous avions fait lors de notre 
études sur la manipulation de textes: 
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R File Edit View Misc Packages Windows Help … EF X 


> string<-c("hello monde","aurevoir world","aufwiedershen Welt") 
> fpremière étape 

> lapply(strsplitistring," "};"[") 

[[1]] 

[1] "hello" "monde" 


| [[21] 


[1] “aurevoir” "world" 


[C[3]] 
[1] “aufwiedershen" "Welt" 


> fpremière étape complétée 
> lapply(strsplit(string," "),"[",2) 
[[1]] 


[1] "monde" 
[C[2]] 
ELT “world” 
[[3]1] 

| [1] "Welt" 


> fversion finale et complète 
[> unlist(lapply(strsplit(string," "),"[",2)) 
| [1] "monde" "world" "Welt" 

> fsinon on peut le faire aussi avec 

> sapply(strsplit(string," "),"[",2) 

[1] "monde" "world" "Welt" 

> #fplus général encore 

> sapply(strsplit(string," "),tail, n = 1L) 
# "monde" "world" "Welt" 

> 


vapply 


Rappel: vapply() est similaire à sapply( ) , mais a un type de valeur de retour pré-spécifié, 
donc il peut être plus sûr (et parfois plus rapide) à utiliser. 


Exemple: 


Un troisième argument est fourni à vapply() , que vous pouvez considérer comme une sorte 
de modèle pour la sortie. La documentation utilise la fonction fivenum comme exemple, alors 
allons-y avec ça: 
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R Fichier Edition Voir Misc Packages Fenêtres Aide 


|> 1 <- list(a = 1:10, b = 11:20) 

|> # fivenum des valeurs avec vapply 

> l.fivenum <- vapply(l, fivenum, c(Min.=0, "ist Qu."=-0, Median=0, "3rd Qu."=0, Max.=0)) 
|> class(l.fivenum) 

| [1] "matrix" 

> # voyons cela 

> l.fivenum 


a b 
Min. 1-0 11:0 
ist Qu. 3.0 13.0 
Median 5:59 2555 
3rd Qu. 8.0 18.0 
Max. 10.0 20.0 
| > 
mapply 


Rappel: mapply() est une version multivariée de sapply() . mapply() applique FUN aux 
premiers éléments de chaque argument (...), aux deuxièmes éléments, aux troisièmes 
éléments, etc. 


La documentation de mapply() est pleine d'exemples assez complexes, mais voici un 
exemple simple et stupide: 


| GR Fichier Edition Voir Misc Packages Fenétres Aide | 6 
] 
é[#/a] 


> 11 <- list(a = c(1:10), b = c(11:20)) 
> 12 €= liste = c(21:30),; a = c(31:40)) 
|> + somme es éléments correspondants de 11 et 12 
> mapply(sum, 11$a, 11$b, 12$c, 1254) 
[1] 64 68 72 76 80 84 88 92 96 100 
> 


Ici, nous sommons 11$a[1]+11$b[1]+12$c[1]+12$d[1]=(1 + 11 + 21 + 31) pour obtenir 64, le 
premier élément du retour liste. C'est le même principe jusqu'à 
11$a[10]+11$b[10]+12$c[10]+12$d[10]-(10+20+30+40)=100, le dernier élément. 
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rapply 
Rappel: Rapply est une version récursive!? de lapply() . 
Exemple: 
M RGuï (64-bit) - [R Console] — O 
GR Fichier Edition Voir Misc Packages Fenêtres Aide | mm IX 


> # commencons avec notre exemple classique de liste 
> 1 <- list(a = 1:10, b = 11:20) 
> # log2 de chaque élément de la liste 
> rapply(l, log2) 
al a2 a3 a4 as a6 a7 a8 
0.000000 1.000000 1.584963 2.000000 2.321928 2.584963 2.807355 3.000000 
a9 a10 b1 b2 b3 b4 b5s b6 
3.169925 3.321928 3.459432 3.584963 3.700440 3.807355 3.906891 4.000000 
b7 b8 b9 b10 
4.087463 4.169925 4.247928 4.321928 
> # log2 de chaque valeur de la liste 
> rapply(l, log2, how = "list") 
$'a 
[1] 0.000000 1.000000 1.584963 2.000000 2.321928 2.584963 2.807355 
[8] 3.000000 3.169925 3.321928 


$b 
[1] 3.459432 3.584963 3.700440 3.807355 3.906891 4.000000 4.087463 
[8] 4.169925 4.247928 4.321928 


> # et qu'advient-t-il si la fonctione est la moyenne? 
> rapply(l, mean) 
a b 
2-9 15.5 
> rapply(l, mean, how = "list") 
S'a* 
[1] 5.5 


$b 
ELT) 1525 


> | 


1 Je pense que "récursif” est un peu trompeur. Ce que fait le rapply( ) est d'appliquer des fonctions aux listes de 
différentes manières, en fonction des arguments fournis. 
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tapply 


Sciences.ch 


Rappel: Applique une fonction à chaque cellule d'un tableau décalé, c'est-à-dire à chaque 


groupe de valeurs (non vide) donné par une combinaison unique des niveaux de certains 
facteurs. 


OKk comme cela ce n'est pas clair du tout. Voyons un simple exemple ce sera plus parlant... 


Re File Edit View Misc 


Packages Windows Help nr. | 
#| 18 


> attach(iris) 
> tapply(iris$Petal.Length, Species, mean) 
setosa versicolor virginica 
1.462 4.260 5.532 


> | 
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Data Wrangling 


Avant de commencer, un petit visual qui benchmark des technologies pour le traitement de 


gros Jeux de données, est plus qu'intéressant: 


Input table: 1,000,000,000 rows x 5 colurns (50 GB } 


DCE? CE 40 13e 
2081 CE 0 1556 
1 F 2021-04-18 2006 
BCighome 21325  2021-CE-12 258 
B cuir a192 2Ce1-CE-11 4528 
L_ETTLS 312 2061.06 51 5686 
tydalatable 10 6 2081 C6 30 7526 
detyr 10.7 2C21-C6-2C rernal error 
125 2021630 out memory 
PCrt04t 2X61C6 06  outol memory 

an: 20816 31 nternal error rat time 

027 DUe1 CE 1€ out of memory B Secord time 

588 README pending 

1.0 15 20 2.5 30 


moe groups ai 10000020 rome rest 130 x 2 
AT 99 +3 AM. SENMMENQ «8 161) 


20.12.0.19 
CGT RUE PS RENTE PT 
nt PITENI 
RUL L ALEALLLE CEE PE 24711 
ne 1:0.16 
CAL CR LE LEUR LEE 
Een is AA 


Te dei > ave x 1} its 


chere 


2 30 


ET PPT LIL CRETE ECO SE PTE T CRE ECO COTE CTOT ATOS 
EE 
DFgreupuy! &l' draps False cimersoG Tran golf V{'/ Sum ]Locmpane( 
marc 
dr bu AN! 71 Bidismeni dde Deal, 8 TRUE 


220 


Ouery 2: "su #4 try Kt:ME 10,000 doc group ol =105 008 ro; resast 10,020 x 3 
PRE TERRE OR) 
Bo: qu 


Æ's qis 
TL Ar mieu moe me TA Eye it, A9] 

DATAAT 

a, ME munis) AS À PRO lé GREUR IV ki, ec 
mio, 
AR um A 44 PAUON A CFIQUIP EP Lt 
nA41 137 
10 Juris saR ET) 


1.06, Co 


= ou PE 
… — 348 024 
DATI UE DLL LL 2 } LS 


9 rcamaisnæ 
DPpegur ai ME 6 ne-Paies murt-Paieu, ovurvad- Tr rom Palau ap] vi au lt 
ALES 

DFAOUpOY LRO RE à Lip rats, LOUE Pi NUS AQU WT - MAI LEONE: 


2 0 Qu ne NES GUOUES € 10 PONS PES VEAUMAOS 6 2 
eee. vo: me TRUEY. bem 


pour 2 cm QU à FeamaNt V2 (fi 25 MEN 
39, 0,32 
sas 1) AE +4, av iv 2) A8 +3 FROM bi QROUR 8? LUE 
= 


STE 0,50: 0.52 
De Meg ES 6 23 qum haipemie dd > AN 23 Oman em «à PET) 


RE pe 
SELECT 4, suryŸ) AE NE, moan(rô| AË uà FFOËA 1 OROUP EN lei 


2 07.230 
in LIRE EI 
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Bee ae y 
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came ne 

ARATET a. verge) A3 à mm te PVO dé ATEN A NS 

er 
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Packages saldf et tidyquery 


Pour la traitement de données rien qu'avec du SQL (langage relativement important en Data 
Science), le lecteur peut se référer à la page 446. 


Sinon voici déjà une petite entrée..…: 


R File Edit View Misc Packages Windows Help 
ÉBROISCSINIE 


> library("tidyquery") 
> library("nycflights13") | 
> query{( 
+ "SELECT origin, dest, 
COUNT (flight) AS num flts, 
round(SUM(seats)) AS num seats, 
round(AVG(arr delay)) AS avg delay 
FROM flights f LEFT OUTER JOIN planes p 
ON f.tailnum = p.tailnum 
WHERE distance BETWEEN 200 AND 300 
AND air time IS NOT NULL 
GROUP BY origin, dest 
HAVING num flts > 3000 
ORDER BY num seats DESC, avg delay ASC 
LIMIT 2;°" 


HE + + + + + + + + + + 


} 
# À tibble: 2x5 
origin dest num flts num seats avg delay 


<chr> <chr> <int> <db1> <db1> 
1 LGA DCA 4468 712643 6 
| 2 EWR BOS 5247 611192 5 


Package dplyr 


Je recommande toujours d'éviter au maximum d'utiliser des packages pour faire ce que les 
packages natifs de R font déjà. Mais certaines personnes n'écoutant pas. le package dplyr!* 
(qui est une itération du package plyr) reste toutefois beaucoup utilisé de par sa rapidité et 
c'est pourquoi nous allons exceptionnellement voir de quoi il s'agit relativement en détails 
(même s1 je déteste faire cela) mais sans toutefois étudier toutes les combinaisons possibles 
(car la combinatoire tend vers l'infini.….). 


Remarque: Il semblerait que le package data.table et dplyr sont comparables en vitesse. 
Mais comme les packages évoluent (raison pour laquelle nous ne fournirons pas de 
comparaison chiffrée!), il faut régulièrement les tester et les comparer. Cependant 1l est clair 
et net que dplyr à une syntaxe plus lisible que celle de data.table et permet également un 
accès plus facile à des bases de données externes. 


Attention!!! Comme pour tout package non-natif, les noms des fonctions changent parfois 
d'une itération à une autre. 


Pour en savoir plus le lecteur pour se référer à: 


4 Le "d" est pour dataframes, le "plyr" et pour évoquer des"pliers" ("pinces" en français) 
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https://cran.rstudio.com/web/packages/dplyr/vignettes/introduction.html 


Bon chargeons le package et le dataframe que nous allons utiliser: 


R File Edit View Misc Packages Windows Help a 


[> library("dplyr") 
|> mydata<-read.csv("c:/tmp/VentesDPELYR.csv",header=T, sep=";") 
>| 


Voyons comment convertir le jeu de données en classe tbl avec la fonction tbl_df( ). Les tbl 
sont plus faciles à explorer que les data frames: 


ft RGui (64-bit) - [R Console] — X 
File Edit View Misc Packages Windows Help |#1x 


> tbl_df(mydata) 
# A tibble: 109 x 10 


NClient Activite NDeCommande DateDeCommande Article Quantite PrixParPiece Rabais 
<int> <fctr> <int> <fctr> <fctr> <int> <int> <fctr> 
1 100 Assurances 1 03.01.2000 10:19 Compaq Presario 100 12 1650 1.50% 
2 123 Machines/Outils 2 03.01.2000 07:08 IBM 500 2 2299 0.00% 
3 109 Éducation 3 03.01.2000 14:35 AST Intel 150 s 2690 0.00% 
4 104 Éducation 4 03.01.2000 04:14 AST Intel 200 3 3190 0.00% 
5 117 Banques 5 04.01.2000 16:25 Compaq Presario 100 13 1650 1.50% 
6 103 Assurances 6 04.01.2000 11:01 AST Intel 150 2 2690 0.00% 
7 104 Éducation 7 04.01.2000 21:30 AST Intel 200 2 3190 0.00% 
8 111 Alimentaire 8 04.01.2000 02:20 IBM 500 4 2299 0.00% 
9 113 Construction 9 04.01.2000 23:06 Compaq Presario 100 4 1650 0.00% 
10 116 Pharmaceutique 10 04.01.2000 16:14 IBM 500 2 2299 0.00% 
+ [” With 99 more rows, and 2 more variables: PrixTotalAvecRabais <dbl>, FacturePayee <fctr> 
> 


R n'affiche que les données adaptées à la taille de l'écran! 


Pour l'opération inverse, nous utilisons la fonction as.data.frame( ): 
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| GR RGui (64-bit) - [R Console] _ 
| GR File Edit View Misc Packages Windows Help _ FX 
> as.data.frame(select (mytable,NClient,Activite)) 
NClient Activite 
1 100 Assurances 
| 2 123 Machines/Outils 
| 3 109 Éducation 
| 4 104 Éducation 
| S 117 Banques 
| 6 103 Assurances 
7 104 Éducation 
8 111 Alimentaire 
9 113 Construction 
10 116 Pharmaceutique 
| 11 110 Distribution 
12 112 Machines/Outils 
13 123 Machines/Outils 
14 113 Construction 
15 115 Distribution 
16 124 Éducation 
17 124 Éducation 
18 106 Construction 
19 101 Construction 
| 20 116 Pharmaceutique 
| 21 112 Machines/Outils 
| 22 125 Construction 
| LA 
Pour avoir un résumé, nous utilisons la fonction glimpse( ): 
R RGui (64-bit) - [R Console] = (me X 
ŒR File Edit View Misc Packages Windows Help 5 x 


> glimpse(tbl_df (mydata)) 
Observations: 109 
Variables: 10 


$ NClient <int> 100, 123, 109, 104, 117, 103, 104, 111, 113, 116, 110, 112, 123, 113, 115, 124,... 
$ Activite <fctr> Assurances, Machines/Outils, Éducation, Éducation, Banques, Assurances, Éducat... 
$ NDeCommande <int> 1, 2, 9, 4, 5, 6, 7, 8, 9, 10, 11, 12, 19, 14, 15, 16, 17,. 10, 19, 20, 21, 22, ……. 
$ DateDeCommande <fctr> 03.01.2000 10:19, 03.01.2000 07:08, 03.01.2000 14:35, 03.01.2000 04:14, 04.01.... 
$ Article <fctr> Compaq Presario 100, IBM 500, AST Intel 150, AST Intel 200, Compaq Presario 10... 
$ Quantite Cine 12, 2: 5, % 19, 2, 2, 4, 4, 2, 6,16, 6, 3; 0, ©, 11; 11, 14, 7, 6, 25, 2,2, 1... 
$ PrixParPiece <int> 1650, 2299, 2690, 3190, 1650, 2690, 3190, 2299, 1650, 2299, 3190, 1650, 2299, 2... 
$ Rabais <fctr> 1.50%, 0.00%, 0.00%, 0.00%, 1.50%, 0.00%, 0.00%, 0.00%, 0.00%, 0.00%, 1.50%, 1... 
$ PrixTotalAvecRabais <dbl> Î9503.00, 4598.00, 13450.00, 9570.00, 21128.25, 5380.00, 6380.00, 9196.00, 6600... 
$ his <fctr> Oui, Oui, Oui, Oui, Oui, Oui, Oui, Oui, Oui, Oui, Oui, Oui, Oui, Oui, Oui, Oui... 
> 


Comme d'habitude nous pouvons utiliser la fonction View( ) pour afficher les données dans 
un tableur: 
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R RGui (64-bit) - [R Console] L X 


GR File Edit View Misc Packages Windows Help FX 


> View(tbl_ df (mydata)) 
>| 


Ce qui donne: 


R D:t:: tbl_df(mydata) 


[aies  Juecmnes/ouue] 2  fosoizocovsfmmse [2 | 
Dotios  féaucmon | 3  fosorsoosssfasrmmenuss fs | 
[aies féaucarson | 4 [05.02.2000 oœsrsasr mer |: 
sir Jrenques | s  osoiz00ois:2s[compeq renoue 
Detios assurances | 5 fosoi20co asmifasrmmeriso [2 | 
Donios  féaucmson | 7 {osoi2000 aussofasrmer zoo [2 | 
Doi faumentere | #  fosoisocoezsofmuso [+ | 
Doiis  Jconsurucuson | 5 [04.01.2000 25:06[compaq rreenoi 
[aoiss  Jrnermeceutique [10 fosoi2oco ssl ses [2 | 
Canfuo  foisvmpuuon [ai fosisooisafasrmess  [s | 
Cazine  Jnecmines/ouvis| 12 [05.01.2000 c5:29[compaq rresaio io 6 
Casiss  Juecmnes/oumnsl is  fos.orocois:zrfmmses [se | 
Caadiss  Jconserucuion [is  fos.oiocoissofasrimerise |: | 
Casiss  Joismpumion [is {os.01.2000 cùss7[compag rresanioioe 
Caiss Jéoucwon [is  fosoizoo zusfasrmmezo  [e | 
"4 


On peut sélectionner seulement certaines colonnes à choix avec la fonction select( ): 


R Statistical Software 624/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


R RGui (64-bit) - [R Console] — 


| R File Edit View Misc Packages Windows Help = 1 


| > select (mytable,NClient,Activite) 
|# À tibble: 109 x 2 


NClient Activite 
<int> <fctr> 
M 1 100 Assurances 
| 2 123 Machines/Outils 
| 3 109 Éducation 
4 104 Éducation 
5 117 Banques 
6 103 Assurances 
7 104 Éducation 
8 1121 Alimentaire 
9 113 Construction 
10 116 Pharmaceutique 
+ [” with 99 more rows 
> 


ou pour retirer une ou plusieurs colonnes: 


| MR RGuiï (64-bit) - [R Console] — ( 


ŒR File Edit View Misc Packages Windows Help _ 


> mytable %5>% 
+ select (-NClient,-Activite) 
# À tibble: 109 x 8 


NDeCommande DateDeCommande Article Quantite PrixParPiece Rabais 
| <int> <fctr> <fctr> <int> <int> <fctr> 
| 1 1 03.01.2000 10:19 Compaq Presario 100 12 1650 1.50% 
| 2 2 03.01.2000 07:08 IBM 500 2 2299 0.00% 
| 3 3 03.01.2000 14:35 AST Intel 150 5 2690 0.00% 
| 4 4 03.03.2000 04:14 AST Intel 200 3 3190 0.00% 

5 5 04.01.2000 16:25 Compaq Presario 100 13 1650 1.50% 
| 6 6 04.01.2000 11:01 AST Intel 150 2 2690 0.00% 
[7 7 04.03.2000 21:30 AST Intel 200 2 3190 0.00% 
1e 8 04.01.2000 02:20 IBM 500 4 2299 0.00% 
| 9 9 04.02.2000 23:06 Compaq Presario 100 4 1650 0.00% 
| 10 10 04.01.2000 16:14 IBM 500 2 2299 0.00% 

# ... with 99 more rows, and 2 more variables: PrixTotalAvecRabais <dbl», 

# l FacturePayee <fctr> 

> 


Ou pour retirer toutes les colonnes non-numériques: 
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MR RGui (64-bit) - [R Console] . (n) 
GR File Edit View Misc Packages Windows Help - Ex 


> select _if(tbl df(mydata), is.numeric) 
# À tibble: 109 x 5 
NClient NCommande Quantite PrixParPiece PrixTotalAvecRabais 


<int> <int> <int> <int> <db1l> 

1 100 L 12 1650 19503 
2 123 2 2 2299 4598 
3 109 3 LE 2690 13450 
4 104 Es 3 3190 9570 
S 117 5 13 1650 21128. 
6 103 6 a 2690 5380 
g ; 104 7 2 3190 6380 
8 111 8 4 2299 9196 
9 113 9 E 1650 6600 

10 116 10 2 2299 4598 

- L” with 99 more rows 

> 


Ou encore pour changer l'ordre de certaines colonnes seulement en préservant le reste des 


colonnes: 
NS 


GR File Edit View Misc Packages Windows Help = 2% 


> mytable +%>% 
|+ select (Activite, NClient, everything({()) 
# À tibble: 109 x 10 


Activite NClient NDeCommande DateDeCommande Article Quantite 
| <£ctr> <int> <int> <£fctr> <£fctr> <int> 
1 æ Assurances 100 1 03.01.2000 10:19 Compaq Presario 100 12 

2 Machines/Outils 123 2 03.01.2000 07:08 IBM 500 2 
| 3 Éducation 109 3 03.01.2000 14:35 AST Intel 150 5 
| 4 Éducation 104 4 03.03.2000 04:14 AST Intel 200 3 

5 Banques 117 5 04.01.2000 16:25 Compaq Presario 100 13 

6 Assurances 103 6 04.01.2000 11:01 AST Intel 150 2 

7 Éducation 104 7 04.03.2000 21:30 AST Intel 200 2 

8 Alimentaire 111 8 04.01.2000 02:20 IBM 500 4 

9 Construction 113 9 04.02.2000 23:06 Compaq Presario 100 4 

10 Pharmaceutique 116 10 04.01.2000 16:14 IBM 500 2 

# ... with 99 more rows, and 4 more variables: PrixParPiece <int>, Rabais <fctr>, 

# | PrixTotalAvecRabais <dbl>, FacturePayee <fctr> 

> 


Nous pouvons aussi faire en très peu de lignes un calcul et en préserver uniquement le résultat 
sans utiliser la commande select (il suffit d'utiliser transmute et d'affecter le résultat à une 
variable): 


R Statistical Software 626/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


MR RGui (64-bit) - 


mn 
| 
O 


GR File Edit View Misc Packages Windows Help EX 


> library("dplyr") 
> mydata<-read.csv("c:/tmp/VentesDPLYR.csv",header=T,sep=";") 
> PrixTotalFinal<-mydata$>%transmute (PrixTotalAvecRabaisAvecTVA=PrixTotalAvecRabaisl.2) 
> head(PrixTotalFinal,10) 
PrixTotalAvecRabaisAvecTVA 
23403. 
5517; 
16140. 
11484. 
25353. 
6456. 
7656. 
11035. 
7920. 
(e) 5517. 


V BH (0 © -J Où OU :B © D + 
NON OCOVbOOmM 


Il est possible de faire un tri avec la fonction arrange( ) où nous découvrons le symbole 
%>% (appelé "pipe" en anglais ou "puis" en français comme "...et puis..."): 


GR RGui (64-bit) - [R Console] DE 0 


OR File Edit View Misc Packages Windows Help EX 


> select (mytable,NClient,Activite) %>% 
+ arrange (desc (NClient)) 
{+ À tibble: 109 x 2 


+. With 99 more rows 


NClient Activite 
<int> <fctr> 
1 127 Alimentaire 
2 127 Alimentaire 
| 3 127 Alimentaire 
4 127 Alimentaire 
5 126 Machines/Outils 
6 126 Machines/Outils 
Ÿ 125 Construction 
8 125 Construction 
9 125 Construction 
10 125 Construction 
- 
[> 


Symbole que nous pouvons généraliser: 
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Sciences.ch 


ft RGui (64-bit) - [R Console] 


ŒR File Edit View Misc Packages Windows Help 


mytable<-tbl df (mydata) 


mytable +5>% 


group _by(Article) +5>% 
summarise (avg=mean (Quantite)) %5>% 


arrange (avg) 
À tibble: 4 x 2 
Article 
<fctr> 
IBM 500 
AST Intel 200 
AST Intel 150 
Compaq Presario 100 


avg 
<db1> 
5.518519 
7.000000 
8.380952 
11.551724 


ou encore avec plus de finesse pour prendre un autre exemple typique (cela fait bien 
évidemment penser aux tableaux croisés dynamiques de nombreux tableurs): 


R RGui (64-bit 


QŒR File Edit Packages 


ÉBROISOSIOIE 


- [R Console] D 


View Misc Windows Help 


> mytable<-tbl df (mydata) 
> mytable %$>% 
+ group by(Article) #%>% 
+ summarise (Moyenne=mean (Quantite),Commandes=n_ distinct (NDeCommande)) %52>% 
+ arrange (Article) 
# A tibble: 4 x 3 
Article Moyenne Commandes 
<fctr> <db1> <int> 
x | AST Intel 150 8.380952 21 
2 AST Intel 200 7.000000 32 
3 Compaq Presario 100 11.551724 29 
4 | IBM 500 5.518519 27 
> 


ou encore si on veut des différences successives (très utilisé en finance avec des 
complications significatives!*!): 


5 Transformation en pourcent, ou calcul du logarithme natural des ratios des rendements, etc. 
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R RGui (64-bit) - [R Console] — mn 


ŒR File Edit View Misc Packages Windows Help x 


ÉBROISOSIOIE 


> mytable<-tbl df(mydata) 
> mytable $5>$% 
+ group by(Article) %5>% 
+ summarise (Moyenne=mean (Quantite)) %>% 
+ mutate (Difference=Moyenne-lag(Moyenne)) 
# À tibble: 4 x 3 
Article Moyenne Difference 
<£ctr> <db1> <db1l> 
n À AST Intel 150 8.380952 NA 
2 AST Intel 200 7.000000 -1.380952 
3 Compaq Presario 100 11.551724 4.551724 
4 | IBM 500 5.518519 -6.033206 
> 


On peut aussi (cas hyper classique!) vouloir extraire que les n plus grands éléments d'un data 
frame: 


R RGui (64-bit) - [R Console] — 
| File Edit View Misc Packages Windows Help - sx 
ET) 
> mydata %5>% 
+ arrange (desc(Quantite)) %5>% 
| + filter (row number () <=5) 
NClient Activite NDeCommande DateDeCommande Article Quantite 
( 123 Machines/Outils 75 20.01.2000 20:05 AST Intel 150 33 
| 2 109 Éducation 99 28.01.2000 16:48 Compaq Presario 100 31 
3 126 Machines/Outils 26 07.02.2000 16:10 AST Intel 150 24 
| 4 125 Construction 22 06.03.2000 23:18 Compaq Presario 100 23 
| 5 119 Distribution 37 11.01.2000 03:25 AST Intel 200 23 
PrixParPiece Rabais PrixTotalAvecRabais FacturePayee 
1 2690 4.00% 85219.2 Non 
| 2 1650 4.00% 49104.0 Non 
| 3 2690 3.00% 62623.2 Oui 
| 4 1650 3.00% 36811.5 Oui 
5 3190 3.00% 71168.9 Non 
” 


Sinon on peut aussi utiliser: 
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R RGui (64-bit) - [R Console] L LI 
| File Edit View Misc Packages Windows Help SAT. IE 


ES 


| > top _ n(mydata,5,Quantite) 


NClient Activite NDeCommande DateDeCommande Article Quantite 
a 125 Construction 22 06.03.2000 23:18 Compaq Presario 100 23 
2 126 Machines/Outils 26 07.02.2000 16:10 AST Intel 150 24 
| 3 119 Distribution 37 11-01.2000 03:25 AST Intel 200 23 
|4 123 Machines/Outils 75 20.01.2000 20:05 AST Intel 150 33 
S 109 Éducation 99 28.01.2000 16:48 Compaq Presario 100 31 
| PrixParPiece Rabais PrixTotalAvecRabais FacturePayee 
|1 1650 3.00% 36811.5 Oui 
2 2690 3.00% 62623.2 Oui 
3 3190 3.00% 71168.9 Non 
| 4 2690 4.00% 85219.2 Non 
| » | 1650 4.00% 49104.0 Non 
| > 


Nous pouvons aussi calculer les rangs: 


MR RGui (64-bit) - [R Console] — 


R File Edit View Misc Packages Windows Help - EX 


library("dplyr") 
mydata<-read.csv("c:/tmp/VentesDPLYR.csv",header=T,sep=";:") 


> 
» 
> 
> mydata +>% 
+ group by(NClient) $52># 
+ summarise (SumQuantite=sum(Quantite)) %>% 
+ arrange (desc(SumQuantite)) %2>% 
+ mutate (rank = rank(-SumQuantite)) 

# À tibble: 28 x 3 

NClient SumQuantite rank 


<int> <int> <db1l> 

L 1093 69 1 

2 123 61 2 

3 121 58 3 

4 101 54 4 

5 108 50 5 

6 103 40 6.5 

r 106 40 6.5 

8 126 36 8 

9 104 34 9.5 
10 105 34 9.5 
* with 18 more rows 
> 


Maintenant considérons le petit fichier de données longitudinales (wide-format) suivant: 
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GR File Edit View Misc Packages Windows Help 4x 


> mydata<-read.csv("C:/tmp/DonneesLongitudinales.csv",header=T,sep=";") 
> mytable<-tbl_ df (mydata) 
> mytable 
# À tibble: 3 x 5 
id genre salaire 1980 salaire 1981 salaire 1982 


<int> <int> <int> <int> <int> 
1 1 0 5000 5500 6000 
2 2 1 2000 2200 3300 
3 | 3 0 3000 2000 1000 
> 


| GR RGui (64-bit) - [R Console] 


| R File Edit View Misc Packages Windows Help 


> library(tidyr) 
| > gather (mytable, "year", "wage",3:5) 
# À tibble: 9 x 4 


id genre year wage 
<int> <int> <chr> <int> 
À L O0 salaire 1980 5000 
| 2 2 1 salaire 1980 2000 
3 3 O0 salaire 1980 3000 
4 1 O0 salaire 1981 5500 
5 2 1 salaire 1981 2200 
6 3 0 salaire 1981 2000 
7 1 O0 salaire 1982 6000 
8 2 1 salaire 1982 3300 
9 | 3 O0 salaire 1982 1000 
> 


On peut faire l'opération inverse (long to wide) avec la fonction spread( ) toujours du 
package tidyr: 
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GR RGui (64-bit) - [R Console] — O 


GR File Edit View Misc Packages Windows Help = FX 


> spread(gather (mytable, "year", "wage",3:5),year,wage) 
# À tibble: 3x5 
| id genre salaire 1980 salaire 1981 salaire 1982 


* <int> <int> <int> <int> <int> 

1 1 0 5000 5500 6000 
| 2 2 | 2000 2200 3300 
3 | 3 0 3000 2000 1000 
| > 


Avec la fonction separate( ) on peut scinder une colonne de dates (remarquez l'association 
erronée des années et des jours!!!!): 


| MR RGui (64-bit) - [R Console] 
| R File Edit View Misc Packages Windows Help - aix 


Sir 2e 


| > mydata<-read.csv("C:/tmp/VentesDPLYR.csv",header=T,sep=";") 
| 


> mytable<-tbl_df (mydata) 
> separate (mytable, DateDeCommande,c("y","m","d")) 
# À tibble: 109 x 12 


NClient Activite NDeCommande 4 m d Article Quantite PrixParPiece Rabais 
LL <int> <fctr> <int> <chr> <chr> <chr> <fctr> <int> <int> <fctr> 
1 100 Assurances z 03 01 2000 Compaq Presario 100 12 1650 1.50% 
2 123 Machines/Outils 2 03 01 2000 IBM 500 2 2299 0.00% 
| 3 109 Éducation 3 03 01 2000 AST Intel 150 5 2690 0.00% 
14 104 Éducation 4 03 01 2000 AST Intel 200 3 3190 0.00% 
5 117 Banques » 04 01 2000 Compaq Presario 100 13 1650 1.50% 
| 6 103 Assurances 6 04 01 2000 AST Intel 150 2 2690 0.00% 
17 104 Éducation 7 04 01 2000 AST Intel 200 2 3190 0.00% 
8 111 Alimentaire 8 04 01 2000 IBM 500 4 2299 0.00% 
9 113 Construction 9 04 01 2000 Compaq Presario 100 4 1650 0.00% 
| 10 116 Pharmaceutique 10 04 01 2000 IBM 500 2 2299 0.00% 
| # ... with 99 more rows, and 2 more variables: PrixTotalAvecRabais <dbl>, FacturePayee <fctr> 


Et pour ceux qui connaissent bien les tableaux croisés dynamiques, nous pouvons faire une 
analyse similaire avec répétition des lignes de groupement (comportement exclusif de dplyr): 


R Statistical Software 632/3133 
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MR RGui (64-bit) - [R Console] = 


R File Edit View Misc Packages Windows Help 1 il LE 


> mytable<-tbl_df (mydata) 

> mytable<-separate (mytable, DateDeCommande,c("y","m","d")) 

Warning message: 

Too many values at 109 locations: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, ... 
> mytable %>4 

+ group _by(d,y) +>+ 

+ summarise (mn _amt=mean (Quantite)) 

Source: local data frame [21 x 3] 

Groups: d [?] 


à 4 mn_amt 
<chr> <chr> <db1> 


1 2000 03 5.500000 
2 2000 04 4.500000 
3 2000 05 8.111111 
4 2000 06 8.200000 
5 2000 07 10.500000 
6 2000 10 7.000000 
& À 2000 11 9.000000 
8 2000 12 5.666667 
9 2000 13 8.000000 
10 2000 14 3.500000 
# ... with 11 more rows 
>| 

< > 


On peut refaire l'inverse avec la fonction unite_( ): 


MR RGui (64-bit) - [R Console] = me] 


ŒR File Edit View Misc Packages Windows Help x 


> unite_(separate (mytable, DateDeCommande, c("y","m","d")),"DateCommande",c("y","m","d"),",.") 
# À tibble: 109 x 10 


NClient Activite NDeCommande DateCommande Article Quantite PrixParPiece Rabais 
” <int> <fctr> <int> <chr> <fctr> <int> <int> <fctr> 
ZL 100 Assurances 1 03.01.2000 Compaq Presario 100 12 1650 1.50% 
2 123 Machines/Outils 2 03.01.2000 IBM 500 2 2299 0.00% 
3 109 Éducation 3 03.01.2000 AST Intel 150 5 2690 0.00% 
4 104 Éducation 4 03.01.2000 AST Intel 200 3 3190 0.00% 
5 117 Banques 5 04.01.2000 Compaq Presario 100 13 1650 1.50% 
6 103 Assurances 6 04.01.2000 AST Intel 150 2 2690 0.00% 
7 104 Éducation 7 04.01.2000 AST Intel 200 2 3190 0.00% 
8 111 Alimentaire 8 04.01.2000 IBM 500 4 2299 0.00% 
9 113 Construction 9 04.01.2000 Compaq Presario 100 4 1650 0.00% 
10 116 Pharmaceutique 10 04.01.2000 IBM 500 2 2299 0.00% 
# ... with 99 more rows, and 2 more variables: PrixTotalAvecRabais <dbl>, FacturePayee <fctr> 


Warning message: 
Too many values at 109 locations: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 2$ 
>| 


Voyons un autre cas d'application de separate( ) (rappelons que cette dernière permet de 
séparer des colonnes) et unite_( ) (qui permet de fusionner des colonnes): 
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Vincent ISOZ, Daname KOLANI 


Sciences.ch 


R File Edit View Misc Packages 


ÉROSESIOE 


> library("dplyr") 


> library("tidyverse") 


> head(mtcars) 


Mazda RX4 

Mazda RX4 Wag 
Datsun 710 

Hornet 4 Drive 
Hornet Sportabout 
Valiant 


> head(unite (mtcars, 


Mazda RX4 

Mazda RX4 Wag 
Datsun 710 

Hornet 4 Drive 
Hornet Sportabout 
Valiant 

> mtcars %>% 


21: 
21: 
22: 
21: 
18: 
18. 


+ unite("vs_ am", vs, am) 
Ed separate(vs_am, 


Mazda RX4 
Mazda RX4 Wag 
Datsun 710 
Hornet 4 Drive 
Hornet Sportabout 
Valiant 

Duster 360 
Merc 240D 
Merc 230 

Merc 280 

Merc 280C 

Merc 450SE 
Merc 450SL 
Merc 450SLC 


Cadillac Fleetwood 
Lincoln Continental 


Chrysler Imperial 
Fiat 128 

Honda Civic 
Toyota Corolla 


Windows 


Help 


mpg cyl disp hp drat wt qsec vs am gear carb 

0 6 160 110 3.90 2.620 16.46 O0 1 4 4 

0 6 160 110 3.90 2:875 17-02 O0 1 4 4 

8 4 108 93 3.85 2.320 18.61 1 1 4 L 

4 6 258 110 3.08 3.215 19.44 1 0O 3 1 

7 8 360 175 3.15 3.440 17.02 O0 O0 3 F 

1 6 225 105 2.76 3.460 20.22 1 0 3 L 

"vs_am", c("vs","am"))) 

mpg cyl disp hp drat wt qsec vs_ am gear carb 
-0 6 160 110 3.90 2.620 16.46 0_1 4 4 
.0 6 160 110 3.90 2.875 17.02 QE 4 4 
-8 4 108 93 3.85 2.320 18.61 L'1 4 1 
.4 6 258 110 3.08 3.215 19.44 1_0 3 L 
ET 8 360 175 3.15 3.440 17.02 0_0 & | 2 
L 6 225 105 2.76 3.460 20.22 10 3 L 
$>$ 

c("vs", "am")) 

mpg cyl disp hp drat wt qsec vs am gear carb 
21.0 6 160.0 110 3.90 2.620 16.46 O0 1 4 4 
21.0 6 160.0 110 3.90 2.875 17.02 O0 1 4 4 
22.8 4 108.0 93 3.85 2.320 18.61 1 1 4 L 
21.4 6 258.0 110 3.08 3.215 19.44 1 O0 3 1 
18.7 8 360.0 175 3.15 3.440 17.02 O0 O0 3 2 
18.1 6 225.0 105 2.76 3.460 20.22 1 O0 3 1 
14.3 8 360.0 245 3.21 3.570 15.84 O0 O0 3 4 
24.4 4 146.7 62 3.69 3.190 20.00 1 O0 4 2 
22.8 4 140.8 95 3-92 3.150 22-90 1 0 4 2 
19.2 6 167.6 123 3.92 3.440 18.30 1 O0 4 4 
17.8 6 167.6 123 3.92 3.440 18.90 1 O0 4 4 
16.4 8 275.8 180 3.07 4.070 17.40 O O0 3 4 
173 8 275.8 180 3.07 3.730 17.60 O O0 3 3 
15.2 8 275.8 180 3.07 3.780 18.00 O0 O0 3 3 
10.4 8 472.0 205 2.93 5.250 17.98 O0 O0 3 4 
10.4 8 460.0 215 3.00 5.424 17.82 O0 O0 3 4 
14.7 8 440.0 230 3.23 5.345 17.42 O0 O 3 4 
32.4 4 78.7 66 4.08 2.200 19.47 1 1 4 1 
30.4 4 75.4 52 4.93 1.615 18:52 TZ L 4 2 
33.9 4: 71:14 65 4-22 1-935 19-90 ZL ZT 4 1 


Enfin un autre exemple classique (et malheureux) d'application de unite_( ) pour corriger des 
stockages de données mal conçus (merci à une de mes post-doctorante pour m'avoir soumis le 
problème car je sais qu'elle n'est pas la seule dans ce genre de situation m**#%#*%%%#), 

Considérons les données suivantes: 


R Statistical Software 


634/3133 


Vincent ISOZ, Daname KOLANI 


Sciences.ch 


| UR RGui (64-bit) - [R Console] 


| ŒR File Edit View Misc Packages Windows Help 


V 


library("dplyr" 


V 


) 


library("tidyverse") 


NA 
NA 


> (my bad data<- read.csv("C:/tmp/unite.csv", header=T, sep=",")) 
StartDate EndDate Duration LocationLatitude LocationLongitude 
1 2019-01-02 09:35 2019-01-02 09:36 51 46.99181 6.931000 
2 2019-01-02 10:19 2019-01-02 10:20 72 46.99181 6.931000 
3 2019-01-03 05:35 2019-01-03 05:43 467 46.99181 6.931000 
4 2019-01-03 05:49 2019-01-03 05:51 136 46.99181 6.931000 
5 2019-01-03 05:51 2019-01-03 05:53 95 46.99181 6.931000 
6 2019-01-03 05:53 2019-01-03 05:54 80 46.99181 6.931000 
7 2019-01-03 06:15 2019-01-03 06:17 121 46.99181 6.931000 
8 2019-01-03 06:18 2019-01-03 06:19 55 46.99181 6.931000 
9 2049-01-03 09:29 2019-01-03: 09:39 625 46.51601 6.632797 
10 2019-01-07 03:13 2019-01-07 03:24 664 46.991681 6.931000 
DistributionChannel UserLanguage Filleri NEG Filleri NEG.1 Filleri NEG.2 Filleri NEG.3 
4 preview EN NA NA NA 
2 preview EN NA NA NA 
3 preview EN NA NA NA 
4 preview EN NA NA NA 
S preview EN NA NA NA 
6 preview EN NA NA NA 
7 preview EN NA NA NA 
8 preview EN NA 4 NA 
9 anonymous EN NA NA NA 
10 anonymous FR NA NA NA 
Filleri NEG.4 Filleri NEG.S5 Filleri NEG.6 Filleri NEG.7 Filleri NEG.8 Filleri NEG.9 
4 NA 4 NA NA NA NA 
2 NA NA 5 NA NA NA 
3 NA NA NA NA NA NA 
4 NA 4 NA NA NA NA 
S NA NA NA NA 4 NA 
6 NA NA NA NA NA 2 
7 NA NA NA NA NA NA 
8 NA NA NA NA NA NA 
9 NA NA NA 1 NA NA 
10 NA NA NA NA NA 1 
Filleri NEG.10 Sexe Age Education 
1 NA L 25 4 
2 NA É. 29 5 
3 4 3 26 4 
4 NA 1 36 8 
5 NA 3 81 2 
6 NA 3 58 2 
7 NA 2 28 7 
8 NA 3. 52 8 
» NA EL. JL 8 
10 NA 1 47 8 
>| 


Pour les nettoyer afin de fusionner toutes les colonnes (qui à l'origine ont toutes le même nom 


dans le fichier *.csv...) il faut un script non-trivial que voici: 
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MR RGui (64-bit) - [R Console] 


| File Edit View Misc Packages Windows Help 


V++++V 


my_bad data 


Hs (0 © JO O1 & & NH 


preview 

preview 

preview 

preview 

preview 

preview 

preview 

preview 

anonymous 

(e] anonymous 


V (0 CO -J où 01 & W& NH 


StartDate EndDate 
2019-01-02 09:35 2019-01-02 09: 
2019-01-02 10:19 2019-01-02 10: 
2019-01-03 05:35 2019-01-03 05: 
2019-01-03 05:49 2019-01-03 05: 
2019-01-03 05:51 2019-01-03 05: 
2019-01-03 05:53 2019-01-03 05: 
2019-01-03 06:15 2019-01-03 06: 
2019-01-03 06:18 2019-01-03 06: 
2019-01-03 09:29 2019-01-03 09: 

0 2019-01-07 03:13 2019-01-07 03: 
DistributionChannel UserLanguage Filleri NEG All Sexe Age Education 


24 


EN 
EN 
EN 
EN 
EN 
EN 
EN 
EN 
EN 
FR 


"Filleri NEG.9", 


my_ bad data <-unite (my bad data, col="Filleri NEG All", from=c("Filleri NEG", 
"Filleri NEG.1","Filleri NEG.2","Filleri NEG.3","Fillerl NEG.4","Filleri NEG.5", 
"Filleri NEG.6","Fillerl NEG.7","Fillerl NEG.8", 
mutate(Filleri NEG All = stringr::str replace all(Fillerl NEG All, 
mutate(Filleri NEG All = stringr::str replace all(Filleri NEG All, 


"Filleri NEG.10"))%>% 
1))%5>% 


"NA ,2", 
‘_NA,?", 


Duration LocationLatitude LocationLongitude 


664 


HE UD EEE UE 


46.99181 
46.99181 
46.99181 
46.99181 
46.99181 
46.991811 
46.99181 
46.99181 
46.51601 
46.99181 


L 23 


EH H & ND & & H & D 
ou 
© 


co © © -J NN Co # O1 


6.931000 
6.931000 
6.931000 
6.931000 
6.931000 
6.931000 
6.931000 
6.931000 
6.632797 
6.931000 


11)) 


Nous pouvons aussi renommer les colonnes avec Ja fonction rename ): 
NS 


Ÿ 
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GR RGui (64-bit) - [R Console] — 


GR File Edit View Misc Packages Windows Help = 8 X 


ÉSOSGSIOIE 


> mytable<-tbl df (mydata) 

> mytable<-separate (mytable, DateDeCommande,c("y","m","d")) 

Warning message: 

Too many values at 109 locations: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, $ 
> mytable<-rename (mytable, year=d) 

> mytable<-rename (mytable,month=m) 

> mytable<-rename (mytable, day=y) 


> mytable 
# À tibble: 109 x 12 

NClient Activite NDeCommande day month year Article $ 
* <int> <£ctr> <int> <chr> <chr> <chr> <fctr> $ 
Z 100 Assurances 5 À 03 01 2000 Compaq Presario 100 $ 
2 123 Machines/Outils 2 03 01 2000 IBM 500 $ 
3 109 Éducation 3 03 01 2000 AST Intel 150 $ 
4 104 Éducation 4 03 01 2000 AST Intel 200 $ 
5 117 Banques 5 04 01 2000 Compaq Presario 100 $ 
6 103 Assurances 6 04 01 2000 AST Intel 150 $ 
+ 104 Éducation 7 04 01 2000 AST Intel 200 $ 
8 ALL Alimentaire 8 04 01 2000 IBM 500 $ 
9 113 Construction 9 04 01 2000 Compaq Presario 100 $ 
10 116 Pharmaceutique 10 04 01 2000 IBM 500 $ 
$ [ With 99 more rows, and 1 more variables: FacturePayee <fctr> 
> 


avec la fonction mutate( ) nous pouvons entre autres, changer le typage (as.numeric( ), 
as.string( ), factor( )) d'une colonne: 
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R RGui (64-bit) - [R Console] 


GR File Edit View Misc Packages Windows Help 


SJlell8| 


> mytable %>%5 mutate{year=as.numeric(year)) 
# À tibble: 109 x 12 


year 
<db1> 
2000 
2000 
2000 
2000 
2000 
2000 
2000 
2000 
2000 
2000 


Article 
<fctr> 
Compaq Presario 100 
IBM 500 

AST Intel 150 
AST Intel 200 
Compaq Presario 100 
AST Intel 150 
AST Intel 200 
IBM 500 
Compaq Presario 100 
IBM 500 


NClient Activite NDeCommande day month 
<int> <£fctr> <int> <chr> <chr> 

L 100 Assurances 1 03 01 
2 123 Machines/Outils 2 03 01 
3 109 Éducation 3 03 01 
| 4 104 Éducation 3 03 01 
| 5 117 Banques 5 04 01 
16 103 Assurances a 04 01 
| 7 104 Éducation 7 04 01 
8 111 Alimentaire 8 04 01 
9 113 Construction 9 04 01 
10 116 Pharmaceutique 10 04 01 
# ... with 99 more rows, and 5 more variables: Quantite <int», 
+ PrixParPiece <int>, Rabais <fctr>, PrixTotalAvecRabais <dbl>, 
$ | FacturePayee <fctr> 
> 


ou encore un exemple de mutate( ) avec les facteurs: 


R RGui (64-bit) - [R Console] 


ŒR File Edit View Misc Packages Windows Help 


> mytable %>% mutate(Article=factor (Article, 


+ labels=c("ASTI150","ASTI200","IBM500","CP100"))) 
# À tibble: 109 x 10 


<int> 
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© # 4 N D GO Go O1 ND 


+ levels=c("AST Intel 150", "AST Intel 200","IBM 500","Compaq Presario 100"), 


NClient Activite NDeCommande DateDeCommande Article Quantite PrixParPiece 


<int> 
1650 
2299 
2690 
3190 
1650 
2690 
3190 
2299 
1650 
2299 


<int> <fct> <int> <fct> <£ct> 
1 100 Assuran- 1 03.01.2000 10-+ CP100 
2 123 Machine- 2 03.01.2000 07- IBM500 
3 109 Éducati- 3 03.01.2000 14- ASTI150 
4 104 Éducati- 4 03.01.2000 04+ ASTI200 
5 117 Banques 5 04.01.2000 16-+ CP100 
6 103 Assuran- 6 04.01.2000 11- ASTI150 
7 104 Éducati- 7 04.01.2000 21- ASTI200 
8 111 Aliment- 8 04.01.2000 02-+ IBMS500 
9 113 Constru- 9 04.01.2000 23-+ CP100 
10 116 Pharmac- 10 04.01.2000 16-+ IBM500 
# -.. with 99 more rows, and 2 more variables: PrixTotalAvecRabais <dbl1l>, 
5 | FacturePayee <fct> 
> 


ANNE 


Rabais 
<Ect> 
- 50% 
-00% 
-00$ 
.-00$ 
-50% 
-00% 
-00% 
-00% 
-00% 
-00% 


O0O0000m000M 


ou créer de nouvelles variables en mélangeant plusieurs notions vues jusqu'à maintenant: 
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@R RGuiï (64-bit) - [R Console] — 


GR File Edit View Misc Packages Windows Help 6 x 


> mytable +%>% 
+ group by(Article) +>% 
+ summarise (mn amt=mean(Quantite)) +%>% 
+ mutate(Tax=mn amt*0.08) 
# À tibble: 4 x 3 
Article mn_amt Tax 
<fctr> <db1> <db1> 
AST Intel 150 8.380952 0.6704762 
AST Intel 200 7.000000 0.5600000 
Compaq Presario 100 11.551724 0.9241379 
| IBM 500 5.518519 0.4414815 


V æ & N ++ 


En associant des fonctions on peut aussi faire par exemple: 


GR RGui (64-bit) - [R Console] — 


GR File Edit View Misc Packages Windows Help s' X 


ÉBSOISOSINIE 


mytable +>% 
select (Article,Quantite,PrixParPiece) %>% 
group _by(Article) +>% 
summarise (mn amt=mean(Quantite)) %>% 
mutate (Tax=cumsum(mn amt*0.08)) 
A tibble: 4 x 3 
Article mn _amt Tax 
<£ctr> <db1> <db1> 
AST Intel 150 8.380952 0.6704762 
AST Intel 200 7.000000 1.2304762 
Compaq Presario 100 11.551724 2.1546141 
| IBM 500 5.518519 2.5960956 


me + + + + V 


V 4 & ND 1 


ou encore plus subtil avec un if_else( ) : 
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R RGui (64-bit) - [R Console … # 
R File Edit View Misc Packages Windows Help Ex 


ÉBOISCESIOIE 


> mytable +>% 

+ select (NDeCommande, FacturePayee)+>% 

+ mutate (FacturePayee New=if else (FacturePayee=="Oui", 1, 0)) 
# À tibble: 109 x 3 


n 


NDeCommande FacturePayee FacturePayee New 


<int> <£fctr> <db1> 
1 sl Oui 1 
2 2 Oui 1 
| 3 3 Oui 1 
| 4 4 Oui 1 
5 5 Oui 1 
6 6 Oui 1 
| 7 7 Oui 1 
8 8 Oui 1 
a a Oui L 
10 10 Oui 1 
+ | .. With 99 more rows 
> 


S 


| … Ÿ . 
ou si nous avons beaucoup de critères nous poùvons faire usage de case_when() !: 


16 La nécessité de mettre le $ est un bug qui devrait être corrigé un jour futur... 
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8 File Edit View Misc Packages Windows Help - x 


> mytable +%>% 
+ select (NDeCommande, FacturePayee, Rabais)+%>% 
- mutate (FacturePayee New=case when(.$FacturePayee == "Oui" - 1, 
+ .SFacturePayee == "Non" - 2)) 
# A tibble: 109 x 4 
NDeCommande FacturePayee Rabais FacturePayee New 


<int> <fctr> <fctr> <db1> 
1 1 Oui 1.50% 1 
2 2 Oui 0.00% 1 
3 3 Oui 0.00% 1 
3 = Oui 0.00% 1 
5 5 Oui 1.50% 1 
6 6 Oui 0.00% 1 
7 7 Oui 0.00% 1 
8 8 Oui 0.00% 1 
3 3 Oui 0.00% 1 
10 10 Oui 0.00% 1 
# ... with 99 more rows 
> | 

ou encore plus subtil avec le fichier suivant: 


2) ahooSPY_DPLYR.csv - Notepad . nl 


File Edit Format View Help 


"Date" ;"Open";"High";"Low";"Close";"Volume";"Adj.Close" 
"44";2010-10-29;118.28;118.72;118.07;118.49;144305500;110.71 
"45";2010-10-28;119.06;119.11;117.83;118.4;168576000; 110.62 
"46";2010-10-27;117.89;118.51;117.26;118.38;190024000; 110.61 
"47";2010-10-26;118.1;118.84;117.87;118.72;158982900; 110.92 
"48";2010-10-25;119.14;119.76;118.61;118.7;151145700;110.9 
"49";2010-10-22;118.31;118.53;118;118.35;108212400; 110.58 
"50":;:2010-10-21;118.4;119.09;117.21;118.13;221585500;110.37 
"51";2010-10-20;116.94;118.44;116.87;117.87;200051800; 110.13 
"52";:2010-10-19;117.19;117.85;116.02;116.73;280604700; 109.06 
"53";2010-10-18;117.74;118.67;117.31;118.28;141204800;110.51 
"54";:2010-10-15;118.28;118.35;116.76;117.7;243705000; 109.97 
"55";:2010-10-14;117.81;118.01;116.72;117.46;217764300;109.75 
"56";2010-10-13;117.66;118.55;117.38;117.92;194347200;110.18 
"57";2010-10-12;116.27;117.35;115.65;117.01;182210000 ; 109.33 
"58";2010-10-11;116.72;116.97;116.25;116.65;103098300 ; 108.99 
"59";:2010-10-08;116.05;116.86;115.61;116.54;177760100; 108.89 
"60";2010-10-07;116.5;116.53;115.19;115.89;164860000 ; 108.28 
"61";2010-10-06;116.02;116.33;115.56;116.03;148626600; 108.41 
"62";2010-10-05;114.8;116.32;114.67;116.04;229634100;108.42 
"63";2010-10-04;114.37;114.85;113.18;113.75;166153200; 106.28 


Faire une moyenne mobile d'ordre 5 avec le package z00 et sa fonction rollmean( ) : 
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Sciences.ch 


R RGui (64-bit) - [R Console] = 


GR File Edit View Misc Packages Windows Help 


EAOECESCE 


library(zoo) 
mydata<-read.csv("C:/tmp/YahooSPY DPLYR.csv",header=T,sep=";") 
mytable<-tbl_ df (mydata) 
mytable<-separate (mytable,Date,c("y","m","d")) 
mytable %>% 
group _by(y) +5>*% 
arrange(y, d) #%>% 
mutate (MA.S = rollmean(x = Open, 5, align = "right", fill = NA)) 
Source: local data frame [4,472 x 10] 
Groups: y [18] 


++ VVYV V 


4 m d Open Hign Low Close Volume Adj.Close MA.S5 
<chr> <chr> <chr> <dbl> <dbl> <dbl> <db1l> <int> <db1> <db1l> 
L 1993 12 01 46.59 46.63 46.41 46.41 379200 32.09 NZ 
2 1993 12 01 46.78 47.00 46.78 46.97 36400 32.47 NA 
3 1993 10 01 45.88 46.22 45.81 46.16 22700 31.91 NZ 
4 1993 09 01 46.41 46.59 46.41 46.50 136500 31:95 NA 
5 1993 07 01 45.13 45.13 44.88 44.94 605700 30.88 46.158 
6 1993 06 01 45.38 45.81 45.31 45.66 28300 31.18 45.916 
7 1993 04 01 45.25 45.25 44.94 45.03 129500 30.75 45.610 
8 1993 03 01 44.56 44.56 44.22 44.28 66500 30.01 45.346 
9 1993 02 01 43.97 44.25 43.97 44.25 480500 29.99 44.858 
10 1993 12 02 46.50 46.56 46.41 46.53 352000 32.17 45.132 
ë % with 4,462 more rows 
> 


et il existe d'autres fonctions: 


AE 
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Sciences.ch 


dplyr lead 

Copier avec des valeurs décalées à 
gauche 

dplyr lag 

Copier avec des valeurs décalées à 
droite 

dplyr-dense_rank 

Ordonne sans sauts de rangs 
dplyrmin_rank 

Ordonne avec sauts de rangs 
dplyr:percent_rank 

Rangs de (min_rank) entre [0, 1]. 
dplyr:row_number 


Ordonne en affectant aux liens la 
première position. 


dplyr ntile 

Divise en n groupes. 

dplyr ‘between 

Les valeurs sont-elles entre a et b? 


| dplyr:cume_dist 


Distribution cumulée 
dplyr:cumall 

Cumul tant que vrai 
dplyr:cumany 
Cumul des que vrai 
dplyr-cummean 
Moyenne glissante 


cumsum 

Somme cumulée 
cummax 
Maximum cumulé 
cummin 
Minimum cumulé 
cumprod 

Produit cumulé 
pmax 

Maximum par élément 
pmin 


Minimum par élément 


Ce qui montre que nous sommes très proches de ce que font les PowerPivot dans 


Microsoft Excel: 


R RGuiï (64-bit) - [R Console] — 


R File Edit View Misc Packages Windows Help x 


> mytable +%>+% 

+ select (Article,Quantite,PrixParPiece) %>% 

+ group by(Article) +%>% 

+ summarise (mn amt=mean(Quantite)) %>% 

+ mutate (Tax=pmax (mn amt*0.08)) 

| # À tibble: 4 x 3 
Article mn _amt Tax 
<f£ctr> <db1> <db1> 


1 AST Intel 150 8.380952 0.6704762 
2 AST Intel 200 7.000000 0.5600000 
3 Compaq Presario 100 11.551724 0.9241379 
4 | IBM 500 5.518519 0.4414815 
> 


Avec la fonction transmute( ) on peut garder que la nouvelle variable comme le montre 
l'exemple suivant qui la compare avec mutate( ): 
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onsole] 


R File Edit View Misc Packages Windows Help _F x 


> mytable $>% mutate (PTAR=Quantite*PrixParPiece) 
# À tibble: 109 x 11 


NClient Activite NDeCommande DateDeCommande Article Quantite PrixParPiece Rabais PrixTotalAvecRabais FacturePayee PTAR 
<int> <fctr> <int> <£fctr> <fctr> <int> <int> <fctr> <db1> <fctr> <int> 
L 100 Assurances 1 03.01.2000 10:19 Compaq Presario 100 12 1650 1.50% 19503.00 Oui 19800 
2 123 Machines/Outils 2 03.01.2000 07:08 IBM 500 2 2299 0.00% 4598.00 Oui 4598 
3 109 Éducation 3 03.01.2000 14:35 AST Intel 150 5 2690 0.00% 13450.00 Oui 13450 
4 104 Éducation 4 03.01.2000 04:14 AST Intel 200 3 3190 0.00% 9570.00 Oui 9570 
5 117 Banques 5 04.01.2000 16:25 Compaq Presario 100 13 1650 1.50% 21128.25 Qui 21450 
6 103 Assurances 6 04.01.2000 11:01 AST Intel 150 2 2690 0.00% 5380.00 Oui 5380 
7 104 Éducation 7 04.01.2000 21:30 AST Intel 200 2 3190 0.00% 6380.00 Oui 6380 
8 111 Alimentaire 8 04.01.2000 02:20 IBM 500 4 2299 0.00% 9196.00 Oui 9196 
9 113 Construction 9 04.01.2000 23:06 Compaq Presario 100 4 1650 0.00% 6600.00 Oui 6600 
10 116 Pharmaceutique 10 04.01.2000 16:14 IBM 500 2 2299 0.00% 4598.00 Oui 4598 
# ... with 99 more rows 


> mytable $>$5 transmute (PTAR=Quantite*PrixParPiece) 
# À tibble: 109 x 1 
PTAR 
<int> 
19800 
4598 
13450 
9570 
21450 
5380 
6380 
9196 
6600 
0 4598 
. With 99 more rows 


V 4 hs 10 C0 -J Où Un 1 Gi ON + 


Pour choisir uniquement certaines lignes, nous utiliserons la fonction select( ) avec les 
opérateurs (<,>,==,<=,>=, !=, Hin%, is.na, lis.na, &, |, xor, any, all): 

RO 
| M RGuiï (64-bit) - [R Console] — = 


ÜR File Edit View Misc Packages Windows Help x 
ESCOISOS 


> filter (mytable,Article=="AST Intel 150",Quantite>10) 
# À tibble: 6 »x 12 


NClient Activite NDeCommande day month year Article Quantite PrixParPiece Rabais 
<int> <fctr> <int> <chr> <chr> <chr> <fctr> <int> <int> <fctr> 
1 104 Éducation 25 07 01 2000 AST Intel 150 12 2690 1.50% 
2 126 Machines/Outils 26 07 01 2000 AST Intel 150 24 2690 3.00% 
3 100 Assurances 50 13 01 2000 AST Intel 150 23 2690 1.50% 
4 109 Éducation 56 18 01 2000 AST Intel 150 21 2690 3.00% 
5 103 Assurances 70 19 01 2000 AST Intel 150 22 2690 1.50% 
6 123 Machines/Outils 75 20 01 2000 AST Intel 150 33 2690 4.00% 
+ [| With 2 more variables: PrixTotalAvecRabais <dbl1>, FacturePayee <fctr> 
> 


Il est aussi possible de faire des sélections automatiques de colonnes du type: 
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| R RGui (64-bit) - [R Console] = (m] X 
GR File Edit View Misc Packages Windows Help SE 


BROISOEINIE 


> mytable<-tbl_ df (mydata) 
| > select (mytable,contains("prix")) 
# A tibble: 109 x 2 
PrixParPiece PrixTotalAvecRabais 


| <int> <db1> 
[1 1650 19503.00 
2 2299 4598.00 
3 2690 13450.00 
| 4 3190 9570.00 
5 1650 21128.25 
[6 2690 5380.00 
[7 3190 6380.00 
| 8 2299 9196.00 
9 1650 6600.00 
|10 2299 4598.00 
|# ... with 99 more rows 
> | 
| L'4 
< > 


Bref voici que l'on a venant de la CheatSheet de dplyr: 


select(iris, contains(".")) 
Sélectionne les variables contenant la chaîne de caractères "," 


select(iris,ends_with("Length")) 

Sélectionne les variables se terminant par la chaîne de caractères "Length" 
select(iris, everything()) 

Sélectionne toutes les variables 

select(iris, matches(".t.")) 

Sélectionne toutes les variables qui correspondent à l’ expression régulière .t. 
select(iris, num_range("x", 1:5)) 

Sélectionne les variables nommées x1, x2, x3, x4, x5. 
select(iris,one_of{c{"Species", "Genus"))) 

Sélectionne les variables dans la liste de noms spécifiée 

select{iris, starts_with("Sepal")) 

Sélectionne les variables débutant par la chaîne de caractères "Sepal" 
select(iris, Sepal.Length:Petal.Width) 

Sélectionne toutes les variables de Sepal.Length à Petal.Width (incluses). 
select(iris, - Species) 

Sélectionne toutes les variables sauf Species. 
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Maintenant si le lecteur affiche toutes les données avec la fonction print.data.frame( ) il 
pourra voir qu'il y a par endroits des valeurs NA: 


R RGui (64-bit) - [R Console] — 0 x 


ŒR File Edit View Misc Packages Windows Help le AE 


ÉSOSOSIOE 


> mydata<-read.csv("C:/tmp/VentesDPLYR.csv",header=T,sep=";:") ei] 
> mytable<-tbl_df (mydata) 
> print.data.frame (mytable) 


NClient Activite NDeCommande DateDeCommande Article Quantite PrixParPiece Rabais PrixTotalAvecRabais FacturePayee 
1 100 Assurances 1 03.01.2000 10:19 Compaq Presario 100 12 1650 1.50% 19503.00 Oui 
2 123 Machines/Outils 2 03.01.2000 07:08 IBM 500 2 2299 0.00% 4598.00 Oui 
3 109 Éducation 3 03.01.2000 14:35 AST Intel 150 5 2690 0.00% 13450.00 Oui 
. 104 Éducation 4 03.01.2000 04:14 AST Intel 200 3 3190 0.00% 9570.00 Oui 
s 117 Banques 5 04.01.2000 16:25 Compaq Presario 100 13 1650 1.50% 21128.25 Oui 
6 103 Assurances 6 04.01.2000 11:01 AST Intel 150 2 2690 0.00% 5380.00 Oui 
4 104 Éducation 7 04.01.2000 21:30 AST Intel 200 2 3190 0.00% 6380.00 Oui 
8 111 Alimentaire 8 04.01.2000 02:20 IBM 500 Là 2299 0.00% 9196.00 Oui 
9 113 Construction 9 04.01.2000 23:06 Compaq Presario 100 4 1650 0.00% 6600.00 Oui 
10 116 Pharmaceutique 10 04.01.2000 16:14 IBM 500 2 2299 0.00% 4598.00 Oui 
11 110 Distribution 11 05.01.2000 14:21 AST Intel 200 6 3190 1.50% 18852.90 Oui 
12 112 Machines/Outils 12 05.01.2000 03:29 Compaq Presario 100 6 1650 1.50% 9751.50 Oui 
13 123 Machines/Outils 13 05.01.2000 16:22 IBM 500 6 2299 1.50% 13587.09 Oui 
14 113 Construction 14 05.01.2000 16:09 AST Intel 150 3 2690 0.00% 8070.00 Oui 
15 115 Distribution 15 05.01.2000 01:47 Compaq Presario 100 8 1650 1.50% 13002.00 Oui 
16 124 Éducation 16 05.01.2000 21:13 AST Intel 200 8 3190 1.50% 25137.20 Oui 
17 124 Éducation 17 05.01.2000 01:48 Compaq Presario 100 11 1650 1.50% 17877.75 Oui 
18 106 Construction 18 05.01.2000 14:16 AST Intel 200 11 3190 1.50% 34563.65 Oui 
19 101 Construction 19 05.01.2000 17:34 Compaq Presario 100 14 1650 1.50% 22753.50 Non 
20 116 Pharmaceutique 20 06.01.2000 23:05 IBM 500 7 2299 1.50% 15851.60 Non 
21 112 Machines/Outils 21 06.01.2000 12:40 AST Intel 150 6 2690 1.50% 15897.90 Oui 
22 125 Construction 22 06.01.2000 23:18 Compaq Presario 100 23 1650 3.00% 36811.50 Oui 
23 100 Assurances 23 06.01.2000 06:48 IBM 500 3 2299 0.00% 6897.00 Oui 
24 125 Construction 24 06.01.2000 10:16 AST Intel 200 2 3190 0.00% 6380.00 Oui 
25 104 Éducation 25 07.01.2000 15:12 AST Intel 150 12 2690 1.50% 31795.80 Oui 
26 126 Machines/Outils 26 07.01.2000 16:10 AST Intel 150 24 2690 3.00% 62623.20 Oui 
27 121 Pharmaceutique 27 07.01.2000 21:49 IBM 500 8 2299 1.50% 18116.12 Non 
28 114 Distribution 28 07.01.2000 14:28 AST Intel 200 9 3190 1.50% 28279.35 Qui 
29 103 Assurances 29 07.01.2000 07:31 Compaq Presario 100 6 1650 1.50% 9751.50 Oui 
30 125 Construction 30 07.01.2000 13:42 AST Intel 200 + 3190 0.00% 12760.00 Oui 
31 120 Banques 31 10.01.2000 15:59 AST Intel 150 2 2690 0.00% 5380.00 Oui 
32 111 Alimentaire 32 10.01.2000 08:57 Compaq Presario 100 16 1650 3.00% 25608.00 Oui 
33 118 Éducation 33 10.01.2000 23:32 IBM 500 3 2299 0.00% 6897.00 Oui 
34 127 Alimentaire 34 10.01.2000 21:31 IBM 500 Ÿ 2299 1.50% 15851.60 Oui 
35 101 Construction 35 11.01.2000 06:47 AST Intel 200 6 3190 1.50% 18852.90 Qui 
36 118 Éducation 36 11.01.2000 21:30 Compaq Presario 100 s 1650 0.00% 8250.00 Oui 


S1 nous souhaitons les éliminer quelles que soient les colonnes, nous pouvons toujours utiliser 
na.omit( ) avec dplyr: 


MR RGuï (64-bit) - [R Console] — el 
ŒR File Edit View Misc Packages Windows Help 6x 
> mytable<-mytable 4>% na.omit () Éd 
> print.data.frame (mytable) 

NClient Activite NDeCommande DateDeCommande Article Quantite PrixParPiece Rabais PrixTotalAvecRabais FacturePayee 
1 100 Assurances 1 03.01.2000 10:19 Compaq Presario 100 12 1650 1.50% 19503.00 Oui 
2 123 Machines/Outils 2 03.01.2000 07:08 IBM 500 2 2299 0.00% 4598.00 Oui 
3 109 Éducation 3 03.01.2000 14:35 AST Intel 150 5 2690 0.00% 13450.00 Oui 
4 104 Éducation 4 03.01.2000 04:14 AST Intel 200 3 3190 0.00% 9570.00 Oui 
5 117 Banques 5 04.01.2000 16:25 Compaq Presario 100 13 1650 1.50% 21128.25 Oui 
6 103 Assurances 6 04.01.2000 11:01 AST Intel 150 2 2690 0.00% 5380.00 Oui 
Là 104 Éducation 7 04.01.2000 21:30 AST Intel 200 2 3190 0.00% 6380.00 Oui 
8 111 Alimentaire 8 04.01.2000 02:20 IBM 500 4 2299 0.00% 9196.00 Oui 
9 113 Construction 9 04.01.2000 23:06 Compaq Presario 100 4 1650 0.00% 6600.00 Oui 
10 116 Pharmaceutique 10 04.01.2000 16:14 IBM 500 2 2299 0.00% 4598.00 Oui 
11 110 Distribution 11 05.01.2000 14:21 AST Intel 200 6 3190 1.50% 18852.90 Oui 
12 112 Machines/Outils 12 05.01.2000 03:29 Compaq Presario 100 6 1650 1.50% 9751.50 Oui 
13 123 Machines/Outils 13 05.01.2000 16:22 IBM 500 6 2299 1.50% 13587.09 Oui 
14 113 Construction 14 05.01.2000 16:09 AST Intel 150 3 2690 0.00% 8070.00 Oui 
15 115 Distribution 15 05.01.2000 01:47 Compaq Presario 100 8 1650 1.50% 13002.00 Oui 
16 124 Éducation 16 05.01.2000 21:13 AST Intel 200 8 3190 1.50% 25137.20 Oui 
17 124 Éducation 17 05.01.2000 01:48 Compaq Presario 100 11 1650 1.50% 17877.75 Oui 
18 106 Construction 18 05.01.2000 14:16 AST Intel 200 11 3190 1.50% 34563.65 Oui 
19 101 Construction 19 05.01.2000 17:34 Compaq Presario 100 14 1650 1.50% 22753.50 Non 
20 116 Pharmaceutique 20 06.01.2000 23:05 IBM 500 7 2299 1.50% 15851.60 Non 
21 112 Machines/Outils 21 06.01.2000 12:40 AST Intel 150 6 2690 1.50% 15897.90 Oui 
22 125 Construction 22 06.01.2000 23:18 Compaq Presario 100 23 1650 3.00% 36811.50 Oui 
23 100 Assurances 23 06.01.2000 06:48 IBM 500 3 2299 0.00% 6897.00 Oui 
24 125 Construction 24 06.01.2000 10:16 AST Intel 200 2 3190 0.00% 6380.00 Oui 
25 104 Éducation 25 07.01.2000 15:12 AST Intel 150 12 2690 1.50% 31795.80 Oui 
26 126 Machines/Outils 26 07.01.2000 16:10 AST Intel 150 24 2690 3.00% 62623.20 Oui 
et 121 Pharmaceutique 27 07.01.2000 21:49 IBM 500 8 2299 1.50% 18116.12 Non 
28 114 Distribution 28 07.01.2000 14:28 AST Intel 200 9 3190 1.50% 28279.35 Oui 
29 103 Assurances 29 07.01.2000 07:31 Compaq Presario 100 6 1650 1.50% 9751.50 Oui 
30 125 Construction 30 07.01.2000 13:42 AST Intel 200 4 3190 0.00% 12760.00 Oui 
31 120 Banques 31 10.01.2000 15:59 AST Intel 150 2 2690 0.00% 5380.00 Oui 
32 111 Alimentaire 32 10.01.2000 08:57 Compaq Presario 100 16 1650 3.00% 25608.00 Oui 
33 118 Éducation 33 10.01.2000 23:32 IBM 500 3 2299 0.00% 6897.00 Oui 
34 127 Alimentaire 34 10.01.2000 21:31 IBM 500 7 2299 1.50% 15851.60 Oui 
35 101 Construction 35 11.01.2000 06:47 AST Intel 200 6 3190 1.50% 18852.90 Oui 
36 118 Éducation 36 11.01.2000 21:30 Compaq Presario 100 5 1650 0.00% 8250.00 Oui 
37 119 Distribution 37 11.01.2000 03:25 AST Intel 200 23 3190 3.00% 71168.90 Non U 
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ou pour une seule colonne: 


UR RGui (64-bit) - [R Console] = X 


| 
| 
| 
| 


| File Edit View Misc Packages Windows Help He DE 


SÉEFECE | 


l> mydata<-read.csv("C:/tmp/VentesDPLYR.csv",header=T,sep=";") di 
|> mytable<-tbl_df (mydata) 

> filter (mytable, !is.na (NDeCommande) ) 

|# À tibble: 107 x 10 


| NClient Activite NDeCommande DateDeCommande Article Quantite 
| <int> <£fctr> <int> <£ctr> <£ctr> <int> 
|1 100 Assurances 1 03.01.2000 10:19 Compaq Presario 100 12 
|2 123 Machines/Outils 2 03.01.2000 07:08 IBM 500 2 
13 109 Éducation 3 03.01.2000 14:35 AST Intel 150 s 
|4 104 Éducation 4 03.01.2000 04:14 AST Intel 200 3 
5 227 Banques 5 04.01.2000 16:25 Compaq Presario 100 13 
|6 103 Assurances 6 04.01.2000 11:01 AST Intel 150 2 
|7 104 Éducation 7 04.01.2000 21:30 AST Intel 200 2 
|8 111 Alimentaire 8 04.01.2000 02:20 IBM 500 4 
[9 113 Construction 9 04.01.2000 23:06 Compaq Presario 100 4 
110 116 Pharmaceutique 10 04.01.2000 16:14 IBM 500 2 


|# ... with 97 more rows, and 4 more variables: PrixParPiece <int>, Rabais <fctr», 
| PrixTotalAvecRabais <dbl>, FacturePayee <fctr> 


Et si nous voulons remplacer par une certaine valeur dans une certaine colonne seule, nous 


avons: 

MR RGui (64-bit) - [R Console] — X 
ŒR File Edit View Misc Packages Windows Help 4 x 
> mydata<-read.csv("C:/tmp/VentesDELYR.csv",header=T,sep=";") Êl 
> mytable<-tbl_df (mydata) 
> mytable<-mytable #$>% 
+ mutate (NDeCommande=ifelse (is.na (NDeCommande) , 0, NDeCommande) ) 
> print.data.frame(mytable) 

NClient Activite NDeCommande DateDeCommande Article Quantite PrixParPiece Rabais PrixTotalAvecRabais FacturePayee 
1 100 Assurances 1 03.01.2000 10:19 Compaq Presario 100 12 1650 1.50% 19503.00 Oui 
2 123 Machines/Outils 2 03.01.2000 07:08 IBM 500 2 2299 0.00% 4598.00 Oui 
3 109 Éducation 3 03.01.2000 14:35 AST Intel 150 5 2690 0.00% 13450.00 Oui 
4 104 Éducation 4 03.01.2000 04:14 AST Intel 200 3 3190 0.00% 9570.00 Oui 
s 117 Banques 5 04.01.2000 16:25 Compaq Presario 100 13 1650 1.50% 21128.25 Oui 
6 103 Assurances 6 04.01.2000 11:01 AST Intel 150 2 2690 0.00% 5380.00 Oui 
7 104 Éducation 7 04.01.2000 21:30 AST Intel 200 2 3190 0.00% 6380.00 Oui 
8 111 Alimentaire 8 04.01.2000 02:20 IBM 500 4 2299 0.00% 9196.00 Oui 
9 113 Construction 9 04.01.2000 23:06 Compaq Presario 100 4 1650 0.00% 6600.00 Oui 
10 116 Pharmaceutique 10 04.01.2000 16:14 IBM 500 2 2299 0.00% 4598.00 Oui 
11 110 Distribution 11 05.01.2000 14:21 AST Intel 200 6 3190 1.50% 18852.90 Oui 
12 112 Machines/Outils 12 05.01.2000 03:29 Compaq Presario 100 6 1650 1.50% 9751.50 Oui 
13 123 Machines/Outils 13 05.01.2000 16:22 IBM 500 6 2299 1.50% 13587.09 Oui 
14 113 Construction 14 05.01.2000 16:09 AST Intel 150 3 2690 0.00% 8070.00 Oui 
15 115 Distribution 15 05.01.2000 01:47 Compaq Presario 100 8 1650 1.50% 13002.00 Oui 
16 124 Éducation 16 05.01.2000 21:13 AST Intel 200 8 3190 1.50% 25137.20 Oui 
17 124 Éducation 17 05.01.2000 01:48 Compaq Presario 100 11 1650 1.50% 17877.75 Oui 
18 106 Construction 18 05.01.2000 14:16 AST Intel 200 11 3190 1.50% 34563.65 Oui 
19 101 Construction 19 05.01.2000 17:34 Compaq Presario 100 14 1650 1.50% 22753.50 Non 
20 116 Pharmaceutique 20 06.01.2000 23:05 IBM 500 7 2299 1.50% 15851.60 Non 
21 112 Machines/Outils 21 06.01.2000 12:40 AST Intel 150 6 2690 1.50% 15897.90 Oui 
22 125 Construction 22 06.01.2000 23:18 Compaq Presario 100 23 1650 3.00% 36811.50 Oui 
23 100 Assurances 23 06.01.2000 06:48 IBM 500 3 2299 0.00% 6897.00 Oui 
24 125 Construction 24 06.01.2000 10:16 AST Intel 200 2 3190 0.00% 6380.00 Oui 
25 104 Éducation 25 07.01.2000 15:12 AST Intel 150 12 2690 1.50% 31795.80 Oui 

v 


Pour supprimer les doublons avec la fonction distinct( ): 
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Sciences.ch 


| MR RGui (64-bit) - [R Console] _ 
| R File Edit View Misc Packages Windows Help 


ESOSOSINE | 


|> distinct (mytable) 
|# À tibble: 109 x 10 


X 


- 5 XX 


NClient Activite NDeCommande DateDeCommande Article Quantite 
| <int> <fctr> <int> <fctr> <£fctr> <int> 
|1 100 Assurances 1 03.01.2000 10:19 Compaq Presario 100 12 
|2 123 Machines/Outils 2 03.01.2000 07:08 IBM 500 2 
|3 109 Éducation 3 03.01.2000 14:35 AST Intel 150 5 
| 4 104 Éducation 4 03.01.2000 04:14 AST Intel 200 3 
5 117 Banques 5 04.01.2000 16:25 Compaq Presario 100 13 
16 103 Assurances 6 04.01.2000 11:01 AST Intel 150 2 
|7 104 Éducation 7 04.01.2000 21:30 AST Intel 200 2 
|8 111 Alimentaire 8 04.01.2000 02:20 IBM 500 4 
9 113 Construction 9 04.01.2000 23:06 Compaq Presario 100 4 
10 116 Pharmaceutique 10 04.01.2000 16:14 IBM 500 2 
# ... with 99 more rows, and 4 more variables: PrixParPiece <int>, Rabais <fctr>, 
+ PrixTotalAvecRabais <dbl>, FacturePayee <fctr> 
1> 
| 
| 
Ou pour des colonnes à choix: 

GR RGui (64-bit) - [R Console] — X 
GR File Edit View Misc Packages Windows Help - FX 


> distinct (mytable, NClient, Article) 
# A tibble: 74 x 2 


NClient Article 
<int> <fctr> 
1 100 Compaq Presario 100 
2 123 IBM 500 
3 109 AST Intel 150 
4 104 AST Intel 200 
5 117 Compaq Presario 100 
6 103 AST Intel 150 
7 111 IBM 500 
8 113 Compaq Presario 100 
9 116 IBM 500 
10 110 AST Intel 200 
= a with 64 more rows 
> 


Enfin, nous pouvons avec la fonction summarise( ) faire des statistiques de base: 


R Statistical Software 


648/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 
] 


@R RGuiï (64-bit) - [R Console] 


GR File Edit View Misc Packages Windows Help = 


EROISOES 


> mytable<-tbl_ df (mydata) 
> summarise (mytable,avgQuantity=mean (Quantite)) 
# À tibble: 1 *x 1 
avgQuantity 
<db1> 
1 8.110092 
|> summarise (mytable,avgQuantity=mean (Quantite),avgPrix=-mean(PrixTotalAvecRabais)) 
# À tibble: 1 x 2 
avgQuantity avgPrix 
<db1> <db1> 
4 | 8.110092 18784.54 
> 


et pour appliquer une fonction identique sur tous les vecteurs on utiliser summarise_each( ): 


| M RGui (64-bit) - [R Console] 
| File Edit View Misc Packages Windows Help = 


GÉGsECeE | 


> summarise each(mytable,funs(n())) 
# À tibble: 1 x 10 
NClient Activite NDeCommande DateDeCommande Article Quantite PrixParPiece Rabais 
<int> <int> <int> <int> <int> <int> <int> <int> 
1 109 109 109 109 109 109 109 109 
# ... with 2 more variables: PrixTotalAvecRabais <int>, FacturePayee <int> 


> | 


A summarise( ) nous pouvons passer des fonctions particulières: 
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[ 


| R RGui (64-bit) - [R Console] ne 


| R File Edit View Misc Packages Windows Help D 


SEE | 


> summarise (mytable,avgQuantity=first (Quantite),avgPrix=last (PrixTotalAvecRabais)) 
# À tibble: 1 x 2 
avgQuantity avgPrix 
<int> <db1> 
1 12 5380 
| 


Pour ceux qui font des sondages ou du bootstrapping signalons encore la fonction 
sample_n() pour faire un échantillonnage sans remise: 


| R RGuiï (64-bit) - [R Console] 


R File Edit View Misc Packages Windows Help - sx 


BI B]s le) els) 


|> mytable<-tbl_ df (mydata) 
|> sample n(mytable,s) 
|# À tibble: 5 x 10 


NClient Activite NDeCommande DateDeCommande Article Quantite PrixParPiece 
<int> <fctr> <int> <fctr> <fctr> <int> <int> 

1 121 Pharmaceutique 83 24.01.2000 13:16 AST Intel 200 4 3190 
2 115 Distribution 15 05.01.2000 01:47 Compaq Presario 100 8 1650 
|3 101 Construction 100 28.01.2000 07:58 Compaq Presario 100 5 1650 
5 103 Assurances 29 07.01.2000 07:31 Compaq Presario 100 6 1650 
5 110 Distribution 57 18.01.2000 18:56 AST Intel 200 7 3190 


# ... with 3 more variables: Rabais <fctr>, PrixTotalAvecRabais <dbl>, FacturePayee <fctr> 


et pour le tirage avec remise (bootstrap): 
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| MR RGuï (64-bit) - [R Console] = 


| File Edit View Misc Packages Windows Help - 6 x 


[sl 


> sample n(mytable,5,replace=T) 
|# À tibble: 5 x 10 


NClient Activite NDeCommande DateDeCommande Article Quantite 
<int> <fctr> <int> <fctr> <f£ctr> <int> 

1 127 Alimentaire 93 27.01.2000 23:29 AST Intel 200 8 
12 114 Distribution 92 27.01.2000 11:36 Compaq Presario 100 5 
13 112 Machines/Outils 88 26.01.2000 07:38 AST Intel 200 2 
4 121 Pharmaceutique 83 24.01.2000 13:16 AST Intel 200 4 
{5 100 Assurances 1 03.01.2000 10:19 Compaq Presario 100 12 
1# ++. With 4 more variables: PrixParPiece <int>, Rabais <fctr>, PrixTotalAvecRabais <dbl», 
+ | FacturePayee <fctr> 
1> 


Voyons maintenant un exemple que ceux qui font des tableaux croisés dynamiques dans 
Microsoft Excel connaissent bien: 


O 


| MR RGui (64-bit) - [R Console] L 


ŒR File Edit View Misc Packages Windows Help Sr 


EC [S] 


> library(tidyr) 
> mydata<-read.csv("C:/tmp/VentesDPLYR.csv",header=T,sep=";") 
> mytable<-tbl_df (mydata) 
> mytable<-separate (mytable, DateDeCommande,c("y","m","d")) 
Warning message: 
Too many values at 109 locations: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 
> remplacement <- function(y){ 
+ 1s <- unique(y) 
for(i in 1s){ 
specyear <- which(i == y) 
firstyear <- min(specyear) 
y{specyear{firstyear!'=specyear]]="" 
} 
return(y) 


mytable <- mytable %>% 

select (m,d,Quantite)+>% 

group_by(d,m) 5># 

summarise (Average value = mean (Quantite))%>% 

mutate(newyear = remplacement (d)) 

as.data.frame (mytable) [,c("newyear","m","Average value")] 

newyear m Average value 

2000 01 8.120879 

9.800000 
9.000000 

2001 01 6.428571 
6 
9 


+ 
+ 
+ 
+ 
+ 
+ 
+ } 
> 
+ 
+ 
- 
+ 
> 


-000000 
-000000 


VO OU U& NN ++ 
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Maintenant voyons un sujet considéré parfois comme le plus important: créer des liaisons 
entre données (dans la même veine que ce que fait Microsoft Access, PowerPivot, 
FileMarker, 4D, SQL Server, Oracle, etc.). 


Donc nous considérons le même jeu de données qu'avant, mais maintenant nous rajoutons: 


® RGui (64-bit) - [R Console] su [] 


GR File Edit View Misc Packages Windows Help - EF x 


ÉBSOISOSIOIE 


|> mydataMain<-read.csv("C:/tmp/VentesDPLYR.csv",header=T,sep=";") 
> mydataSecondary<-read.csv("C:/tmp/BonusDPLYR.csv",header=T,sep=",") 
> mydataSecondary 

Status Client Bonus 


1 Bon 100 10.00% 
2 Mauvais 101 5.00% 
3 Mauvais 102 9.00% 
4 Bon 103 4.00% 
5 Bon 105 1.00% 
6 Mauvais 106 8.00% 
7 Bon 107 7.00% 
8 Bon 108 1.00% 
9 Mauvais 109 8.00% 
10 Mauvais 110 9.00% 
11 Mauvais 111 1.00% 
12 Bon 112 10.00% 
13 Bon 114 2.00% 


14 Mauvais 115 8.00% 
15 Mauvais 116 3.00% 


16 Mauvais 117 7.00% 
17 Bon 119 9.00% 
18 Bon 120 6.00% 
19 Mauvais 121 8.00% 
20 Bon 122 4.00% 


21 Mauvais 123 6.00% 
22 Mauvais 124 10.00% 


23 Bon 125 7.00% 
24 Bon 126 8.00% 
25 Mauvais 127 6.00% 
26 Bon 128 6.00% 


et nous utilisons la fonction left_join( ): 
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R RGui (64-bit) - [R Console] L : 


GR File Edit View Misc Packages Windows Help SE: 


> head(select (left _join(mydataMain,mydataSecondary,by=c("NClient"="Client")),NClient,Activite,Article,Bonus)) 
NClient Activite Article Bonus 


1 100 Assurances Compaq Presario 100 10.00% 

2 123 Machines/Outils IBM 500 6.00% 

3 109 Éducation AST Intel 150 8.00% 

4 104 Éducation AST Intel 200 <NA> 

5 117 Banques Compaq Presario 100 7.00% 

6 103 Assurances AST Intel 150 4.00% 

>| 

On peut bien "évidemment" faire un inner_join() 7: 
GR RGui (64-bit) - [R Console] = (n 


GR File Edit View Misc Packages Windows Help EF x 


SAUT eIC 


> head(select (inner join(mydataMain,mydataSecondary,by=c("NClient"="Client")),NClient,Activite,Article,Bonus)) 
NClient Activite Article Bonus 


1 100 Assurances Compaq Presario 100 10.00% 
2 123 Machines/Outils IBM 500 6.00% 
3 109 Éducation AST Intel 150 8.00% 
4 117 Banques Compaq Presario 100 7.00% 
5 103 Assurances AST Intel 150 4.00% 
6 | 111 Alimentaire IBM 500 1.00% 
> 


et bien évidemment un full_join() #: 


17 Ne rapporte que les lignes pour lesquels il y a des éléments des deux côtés! 
18 Rapport toutes les lignes de deux tables même celles qui n'ont pas forcément de correspondance dans l'une ou 
dans l'autre! 
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R RGui (64-bit) - [R Console] — Ü 


OR File Edit 


View Misc Packages Windows Help SE: 


> tail(select (full join(mydataMain,mydataSecondary,by=c("NClient"="Client")),NClient,Activite,Article,Bonus)) 


NClient 
105 117 
106 108 
107 102 
108 118 
109 119 
110 128 


Activite Article Bonus 
Banques AST Intel 150 7.00% 
Pharmaceutique Compaq Presario 100 1.00% 
Machines/Outils AST Intel 200 9.00% 
Éducation IBM 500 <NA> 
Éducation AST Intel 150 9.00% 

<NA> <NA> 6.00% 


Sinon pour ajouter des données d'un data frame à un autre data frame comme les deux ci- 
dessous à la suite l'un de l'autre: 


“ 


NClTient;Activite; NDeCommande ; DateDeCommande;Article;Quantite;PrixParPiece;Ral « 
100; Assurances ; 1:03.01.2000 10: 19; Compaq Presario 100; 12; 1650; 1.50%;19503;Ou 1 
123; ‘Machines/Outi1s: 2:03.01.2000 Ô7: 08:1BM 500:2;2299;0. 00%; 4598: oui 
109:Éducation:;3;03. Ô1. 2000 14:35; AST Intel 150;5;2690;0.00%; 13450: Oui 

104 :Éducation;4;:03.01.2000 O4:14:AST Intel 200;3; 3190; 0.00%; 9570; Qui 


104 ; Éducation;7;04.01. 2000 21: 30; AST Intel 200;2;3190; Ô. O0; SEL Oui 

111; ‘Alimentaire: 8;,04.01.2000 O2: 20: IBM 500;4; 2299: 0. 00%: 9196; Ou 

113; Construction; 9; 04.01.2000 23: 06; Compaq Presario 100;4;1650; 0. 00%; 6600 ; Ou” 
116; Pharmaceutique: 10;:04.01.2000 16:14;IBM 500;2;,2299;0. 00%; 4598 : Oui 
110;Distribution; 11; 05.01.2000 14: 21; AST Intel 200; 6; 3190: 1.50%; 18852. 9;Oui 
112:Machines/outi1s:12:05.01.2000 03:29; Compaq Presario 100:6;:1650;1.50%;975: 
123;Machines/Outils;13;05.01.2000 16:22; IBM 500,6;2299;1. 50%: 13587. 09; Oui 
113;Construction;14;05.01.2000 16:09; AST Intel 150; 3; 2690: 0. 00%; 8070; Oui 
115;Distribution;15;:05.01.2000 01:47;Compaq Presario 100; 8; 1650;1. 50%: 13002; 
124; Éducation;16;05.01.2000 21:13; AST Intel 200;:8;3190;1. SÛ%: 25137. 2; Oui 

124; Éducation;17;05.01.2000 01:48; Compaq Presario 100; 11: 1650: 1.50%; 17877.75 + 


« | | È 
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Eichier Edition Format Affichage 2 


NClient:; Activite:NDeCommande;DateDeCommande;Article:Quantite;:PrixParPiece: Rats 
113;Construction;43;12.01. 2000 09: 33; IBM 500: 6;2299;1.50%; 13587. 09; oui 
127;Alimentaire; 44; 12.01.2000 20: dl: AST Intel 200; 2:3190; Ô. 00%; 6380; Oui 

100; Assurances; 45; 12.01.2000 17: 05; AST Intel 200; 4: 3190; Ô. 00%; 12760: Oui 

103; Éducation; 46; 13.01.2000 11: 12; AST Intel 150; 1; 2690: Ô. O0; 2690: Non 

113; Construction: 47;13.01.2000 02:28;IBM 500;11; 2299: 1.50%; 24909. 665; oui 
114;Distribution;48;:13.01.2000 03:13;Compaq Presario 100;:8;:1650;1. 50%: 13002;t 
122;Distribution;49;13.01.2000 14:28; AST Intel 200;7; 3190: {. 50%: 21995. 05 ;Oui 
100; Assurances; 50; 13.01.2000 11: 02; AST Intel 150; 13; 2690; 1. 50%; 34445 .45; Oui 
119; Distribution: 51; 14.01.2000 O8: 33; IBM 500;2; 2299: 0. 00%;4598: Oui 

102; ‘Machines/outi1s: 52;14.01.2000 02:22; : Compaq Presario 100;5; 1650: 0.00%; 8251 
112;Machines/Outils;53;17.01.2000 23:03;AST Intel 200;3; 3190; Ô. 00%: 9570: Oui 
117;Banques;54;17. 01.2000 12: 43;1IBM 500;5;,2299; 0.00%; 11495; Oui 

103; Assurances;55;18.01.2000 03:13;IBM 500: 7: 2299: 1: 50%: 15851. 605 ;oui 

109; Éducation; 56; 18.01.2000 16: 51: AST Intel 150; 21: 2690; 3.00%; 54795. 3;Oui 
110: Distribution: 57:18.01.2000 18:56; AST Intel 200: rd 3190: l. SÛ%; 21995.05;oui 
127;Alimentaire; 58; 18.01.2000 20: 20; Compaq Presario 100; 71650; 1, 50%; 11376.7! 
105;Banques;59; 18.01.2000 04: 05;IBM 500;9;2299;1.505%; 20380. 635;Oui + 


« | T ] 0 


nous utiliserons la fonction bind_rows ): 


R RGuiï (64-bit) - [R Console] = [] 


| R File Edit View Misc Packages Windows Help = EX 


BBSOISCSIOIE 


> mydata 02<-read.csv("C:/tmp/Ventes DPLYR 02.csv",header=T,sep=";") 8 
|> bind rows(mytable 01,mytable 02) 
# À tibble: 109 x 10 
NClient Activite NDeCommande DateDeCommande Article 
<int> <fctr> <int> <chr> <fctr> 
1 100 Assurances 1 03.01.2000 10:19 Compaq Presario 100 
2 123 Machines/Outils 2 03.01.2000 07:08 IBM 500 
3 109 Éducation 3 03.01.2000 14:35 AST Intel 150 
4 104 Éducation 4 03.01.2000 04:14 AST Intel 200 
5 117 Banques 5 04.01.2000 16:25 Compaq Presario 100 
6 103 Assurances 6 04.01.2000 11:01 AST Intel 150 
7 104 Éducation 7 04.01.2000 21:30 AST Intel 200 
8 111 Alimentaire 8 04.01.2000 02:20 IBM 500 
9 113 Construction 9 04.01.2000 23:06 Compaq Presario 100 
| 10 116 Pharmaceutique 10 04.01.2000 16:14 IBM 500 
# ... with 99 more rows, and 5 more variables: Quantite <int», 
+ PrixParPiece <int>, Rabais <chr>, PrixTotalAvecRabais <dbl>, 
+ FacturePayee <fctr> 
Warning messages: 
1: In bind rows (x, .id) : Unequal factor levels: coercing to character 
“|” bind rows (x, .id) : Unequal factor levels: coercing to character 
> 
v 
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Et maintenant considérons les deux fichiers suivants: 


») Salaires_Evolution_01.csv - Notepad — [] 
File Edit Format View Help 


id;genre;salaire_1980;salaire_1981;salaire_1982 
1,0; 5000; 5500 ;6008 
2;1; 2000 ; 2200; 3300 
3;0;3000 ; 2000 ; 1000 


4 Salaires_Evolution_02.csv - Notepad au (n] 


File Edit Format View Help 


salaire _1983;salaire_1984;salaire_1985 
8000 ;9500 ; 10000 

6000 ;7200;8300 

7000 ; 9000 ;9500 


et nous utilisons la fonction bind_cols( ) pour mettre les données les unes à la suite des 
autres: 


BR RGui (64-bit) - [R Console] — CO 
File Edit View Misc Packages Windows Help & x 


> mydata 01<-read.csv("C:/tmp/Salaires Evolution 01.csv",header=T,sep=";") 
> mydata 02<-read.csv("C:/tmp/Salaires Evolution 02.csv",header=T,sep=";") 
> bind cols (mydata 01,mydata 02) 
id genre salaire 1980 salaire 1981 salaire 1982 salaire 1983 salaire 1984 salaire 1985 


ES | e) 5000 5500 6000 8000 9500 10000 
&. à 1 2000 2200 3300 6000 7200 8300 
3 3 (e) 3000 2000 1000 7000 9000 9500 
> | 


Pour ce qui est des fonctions suivantes de dplyr: 


e _union( ) (fusion de deux jeux de données) 


e _intersect( ) (éléments communs de deux jeux de données) 
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e _setdiff( ) (éléments différents de deux jeux de données) 


nous ne ferons pas d'exemple ni ne les utiliseront ici car nous les considérerons comme encore 
non entièrement fonctionnels et satisfaisant à utiliser par rapport à d'autres méthodes! 


Maintenant voyons la fonction fill( ) du package tidyr suite à un challenge relativement à une 
comparaison avec Power Query qui est disponible dans Microsoft Excel ou Microsoft Power 
BI. 


Considérons le jeu de données suivant (on devine évidemment les futurs problèmes): 


R 
R File Edit View Misc Packages Windows Help 


ESOISESINIE 


> library("tidyr") 
> (d£f <- data.frame (Month = c(1:12,1:12), Year = c(2000, rep(NA, 11),2001,rep(NA,11)))) 
Month Year 


1 1 2000 
2 rl NA 
3 3 NA 
4 4 NA 
5 5 NA 
6 6 NA 
7 7 NA 
8 8 NA 
9 a NA 
10 10 NA 
11 11 NA 
12 12 NA 
13 1 2001 
14 2 NA 
15 3 NA 
16 4 NA 
17 5 NA 

8 6 NA 
19 7 NA 
20 8 NA 
21 9 NA 
22 10 NA 
23 LT NA 
24 12 NA 


Et donc on applique la fonction fill( ) pour obtenir: 
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Sciences.ch 


R: it 


fR File Edit 


> d£ 5>% 

Month 
1 1 
2 2 
3 3 
- - 
5 S 
6 6 
7 7 
8 8 
9 9 
10 10 
LA 11 
12 12 
13 1 
14 2 
15 3 
16 4 
17 5 
18 6 
19 7 
20 8 
21 = | 
22 10 
23 11 
24 12 
> | 


[F 


View Misc Packages 


fill(Year) 
Year 
2000 
2000 
2000 
2000 
2000 
2000 
2000 
2000 
2000 
2000 
2000 
2000 
2001 
2001 
2001 
2001 
2001 
2001 
2001 
2001 
2001 
2001 
2001 
2001 


CO 

NS 
: Ni . A s 

Pour garder tout les colonnes qui commencentÿar une certaine chaîne de caractères: 


Windows 


(a 
Help = 


Fi 


x 


R Statistical Software 


658/3133 


Vincent ISOZ, Daname KOLANI 


Sciences.ch 


VV UE & DH 


V OU & © D H 


GR File Edit View Misc 


R RGui (64-bit) - [R Console] 


Packages 


Windows Help 


(mydata <- data.frame( ABC 1 = 


ABC_1 
0.7133016 
0.1007690 
0.950304 
0.1218178 
0.2196566 
mydata <-— 
mydata 

ABC_1 
0.7133016 
0.1007690 
0.950304 
0.1218178 
0.2196566 


ABC 2 = 
XYZ_1 = 
XYZ 2 = 
ABC _2 
0.9130878 
0.9458531 
0.2791562 
0.1234711 
0.7971605 


mydata %5>% select(starts with("ABC")) 


ABC _2 
0.9130878 
0.9458531 
0.2791562 
0.1234711 
0.7971605 


runif(5), 
runif(5), 
runif(5))) 

XYZ 1 
0.7442772 
0.9159742 
0.9945982 
0.9423607 
0.4861354 


runif(5), 


XYZ_2 
0.2834595 
0.2515457 
0.5032552 
0.4969662 
0.3184458 


Enfin, pour ceux qui aiment les Cheatsheet, voici la dernière en date de dplyr: 
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Sciences.ch 


Data Transformation Manipulate Variables 


with dplyr Cheat Sheet 


Estudio 


dplyr function work with pipes and cupect tidy data. In tidy data 


(TE: 


=ach variables Each observation or 
nEsowncolumn case !51n 15 0mn row 


ee 2 


eue appie surnienma y furetions 
colLmre to case a rewtasle. 
Smra"y “uncuans 2abC vector 25 
mout and rot. 2nc wa uc (2cc back) 


sus, summarlse( 4ata, 

= Compute ble of summories. ‘iso 
summerise (). 
summanse(mioncs av = mean(rpql} 


-! caunté wt=NIN son =TAIST} 


Count number nf row in earh gro p defined 


by the artablss in … Also tally(). 
cuurifns, Speures) 
Variations 


- summarise_allf) Apoiy funs =: every column. 
+ summarise atf)-Apply uns Lu sil vus. 
+ summarise_if{} - Spply tns to all cos ot cne tvpe. 


Use group_byi} tc crested a 'RrOUpPES" copy ot a able. cplyr 
7 


lu-clicre will ma ipu j r 
Neon ere WU p" sebatalely arc Vers 


mtcars > 
group byleyii %z0 


£ummarisc{avg = mcan(mpg)} 


group_by{datz,…,2c@d = HALLE) 
Returns cop, ot ble groupec by … 
SMs< group_byinis, Spccics) 


“ungrouple ) 
2curs ungrouped copy of table. 
2ngroup{q_ins) 


PS En Dati boue ah PS à do LCL D Ph > a ann ae ten, à RG ART D » pan Gravure 
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Extract Cases 


Row fu” tions rem z cubzet ci rover 25 a ncw ble. Ur aartant 
Uiat ads in for nun-slandaig evalualion encly cde 


En JUN Niterti22...) 
= Batrat mé that meer loges critena Also 
fleer_{i Mterins, Sopoi.Lengtt > 7 


distincl{uala, … huop_all - FALSE) 
Semnose rs aath diilrate valiies 4ls 
distinct_(). dsnincrints, Spezies) 


sample_frac{ttl, sec - 2, replace - FALSE, 
wepht= Nil, env parent ame() 
Ra dou ly select fscbun tros. 
sample frucdiris, 05, repluce — TRUE, 


sample n(ill, size, replace - FALSE 
we=ippt= Nil, env parent ame()) 
Ra dont ly select sise iuws. 
sample ins, 10, replace - TRUE) 


slice( data, ….} 
Select ruas b, passion. Alswslice 
sixcefiris, 10-151 


top nix 7, wé) 
Select ann ner tip rennes (by 2rouis 1 
yuupe. das) cup ndirés, 3, Sevulbitirt 


Lonral ans beoléan n0eratess ta nse dm fret) 
cs isnal) Kinfe [l xort) 
= LAN] ! & 

2er basc::logic 5° d ?Comparison for help 


Arrange Cases 
=, arrange( da, _) 
+ Crder rose y values ot 3 column ‘low ko higr), 
=. use with desc{} te 0er rem sig to lou. 
arrangeimEcars, pa} 
arranzeÿmtcars, descimpall 


Add Cases 
num add rowlcala… bevte-NULL 
LE "2 4 aFnr-Niii) 


nn Add oi ur 0e rue Lu a Labs. 
odd_rowijtaithtul, éruptions - 4, watting -1) 


Extract Variables 


Cclumn funcions rem z set of columnz 25 a now ta 5e, Use z 
sa iant Lial eus ie for non-slendard evalualion encly cde 


sen ,e selecti data. 
Extract columns y names. Alsc select_IK] 
salectiins, Sepal eñgth, pentes, 


Use these belpere with select(}, 
= 2 smlmchiois sante Ait Sepoit) 
containgrr ah} num_range(prix marge) 1,02 MIE CN 
ends withimatcr] ane of...) ts, Species 
matches{rr a::h} strs_with{matchi 


Make New Variables 


Tee sou y vectorieed fune tions L. 

colums. ecrizec fre take cor Metrorired ñ 

es out ard rectum Cct=15 0 th fumetian 

same lcngth a outp.1 (sce bec, , 
} 


= ,08 mutatei Jala, 
- Cor pute new cslumeis 
muratefrtonrs, pr = 1 MN) 


transmute( za, ) 
Cor pute new clumnist drap others 
Wransmutolmeco"s, gpm = LME 


mutate alli ill, fure, 
Apaly funste every calin 15e vit 
funs{). mutatc_alibiathu funstlog(, 
les2(.1!! 


mutate atf._il, culs, Tu s, .) 
Apaly uns te speot c col_mns. Uss with 
funs() varsi) ane th=he pe tunchnns for 
suleulfi 
mutote_atifris, wors{ -Scecies), tunstloq(.N) 


mutate if{ LL ciedicsis, uns 1 
Anal funs ta allcalmns nfons type Use 
with funi}. 
mutule 1firis, is sarrerk, luusfiogt.;) 


add_column( dar, before = 
NULL, -stter = NULL) 
Ado new cclumos 
od_columnimicors new = 1:32, 


rename{dats …. } 
Renare ralimns 


renamiré, Length = Szpal. Length 
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Combine Tables 


to use with mutate() 


mutate() and transmute() apply vectorized 
functions to columns to create new columns. 
Vectorized functions take vectors as input and 
retum vectors of the same length as output. 


- = 
Vectorized E 
function : 


Offsets 
dplyr:lag() - Offset elements by 1 
dplyr:lead() - Offset elements by -1 


Cumulative Aggregates 
dplyr:cumall() - Cumulative all() 
dplyr:cumany() - Cumulative any() 

cummax() - Cumulative max) 
dplyr-cummean() - Cumulative mean() 
cummin() - Cumulative min() 
cumprod() - Cumulative prod(} 
cumsum() - Cumulative sum) 


Rankings 
dplyr:cume_dist() - Proportion of all values <= 
dplyr-dense_rank() - rank with ties = min, no 

gaps 
dplyr:min_rank() - rank with ties = min 
dplyr:ntile() - bins into n bins 
dplyr:percent_rank() - min_rank scaled to [0,1] 
dplyr:row_number() - rank with ties = "first" 


Math 
+,-,",1,8,%1%, %% - arithmetic ops 
Log{), log2(), log10() -logs 


<,<,>,>=, !=,==- logical comparisons 


Misc 
dplyr'between() -x>- left &x<- right 
dplyr:case_when() - multi-case if_else() 
dplyr::coalesce() - first non-NA values by 
element across a set of vectors 
dplyr:if_else() - element-wise if() + else() 
dplyr:na_if() - replace specific values with NA 
pmax() -element-wise max{) 
pmin() -element-wise min(} 
dplyr:recode() - Vectorized switch) 
dplyrrecode_factor() - Vectorized switch() for 
factors 


to use with summarise() 


summarise() applies summary functions to 
columns to create a new table. Summary 
functions take vectors as input and return single 
values as output. 


Tr : 


Counts 
dplyr:n()- number of values/rows 
dplyr:n_distinct() - # of uniques 

sum(!is.na()) - # ofnon-NAS 
Location 


mean() - mean, also mean(!is.na()) 
median() - median 


Logicals 


mean() - Proportion of TRUE's 
sum() - # of TRUE'S 


Position/Order 
dplyr:first() - first value 


dplyr:last() - last value 
dplyr:nth() - value in nth location of vector 


Rank 
quantile() - nth quantile 
min()- minimum value 
max) - maximum value 


Spread 
IQR() - Inter-Quartile Range 
mad) - mean absolute deviation 
sd() - standard deviation 
var()- variance 


Row names 


Tidy data does not use rownames, which store 
a variable outside of the columns. To work with 
the rownames, first move them into a column. 


rownames_to_column() 
Move row names into col. 
a<rownames_to_column(iris, 
var="C") 
column_to_rownames() 
Move col in row names. 
column_to_rownames(a, 
var="C") 
Also has_rownames(), remove_rownames{) 


. 


CI 
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Combine Variables 


Use bind_cols() to paste tables beside each other 
astheyare. 
bind_cols(...) 
Returns tables placed side by 
side as a single table. 
BE SURE THAT ROWS ALIGN. 


Use a "Mutating Join" to join one table to columns 
from another, matching values with the rows that 
they correspond to. Each join retains a different 
combination of values from the tables. 


DRE left_join(x, y, by= NULL, 
copy=FALSE, suffix=c{"x"*y")…) 
Join matching values from y to x 


right_join(x, y, by = NULL, copy = 
FALSE, suffix=c{x"y").... 
Join matching values from xto y. 


inner_join(x, y, by = NULL, copy = 
FALSE, suffx=c{ x" y),..) 
Join data. Retain only rows with 
matches. 


full_join(x, y, by = NULL, 

copy-FALSE, suffix=c{'x""y"),..) 
Join data. Retain all values, all 
TOWS. 


specifythe column(s) to match 
3n NA NA on. 


left_join(x, y, by ="A") 


Dos Use by= c{"col1", "col2") to 
bu en 
e v 


51 Use a named vector, by= 
c{"col1" = "col2"), to match on 
columns with different names in 
each data set. 


left_join(x, y, by= c{"C" ="D")) 


FATA Use suffix to specify suffix to give 

to duplicate column names. 

ME left_join(x, y, by=cl"C"="D"), 
suffix = c("1", "2")) 


a! 
b 
e 


Learn more with browseVignettes{package = c{"dplyr, “tibble”}) + dplyr U5.0+ tibble 1.2.0 + Updated 2017-01 


Combine Cases 


Use bind_rows{) to paste tables below each other as 
they are. 


CEE bind_rows{.…., id = NULL) 

we Returstables one ontop ofthe other 
as a single table. Set id to a column 
name to add a column ofthe original 


table names (as pictured) 
ENT  intersect{x, y...) 
CIM Rowsthat appearin bothxanûz. 
CNE Rows that appear in x but not z. 


union(x, y, …) © 


. 

+ Rows that appear in x orz. (Duplicates 
CHAR removed). union_all() retains 
aimé duplicates. 


Use setequal() to test whether two data sets contain 
the exact same rows (in any order). 


Extract Rows 


Use a "Filtering Join" to filter one table against the 
rows of another. 


EEK  semi_join(x y, by= NULL, …) 
bu 2 Return rows of x that have a match in y. 
USEFUL TO SEE WHAT WILL BE JOINED. 


EYES anti_join(x, y, by= NULL, ..) 

_—— Return rows of x that do not have a 
match in y. USEFUL TO SEE WHAT WILL 
NOT BE JOINED. 


S 
Ÿ 


R 
Figure 33 Cheatsheet dplyr 
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Package data.table 


Voyons maintenant quelques classiques de Data.Table avec à chaque fois son équivalent en 
Dplyr (cela ne fait pas de mal de répéter ce dernier). 


D'abord, nous chargeons les éléments nécessaires: 
R 


R File Edit View Misc Packages W 


> library(data.table) 
> library(dplyr) 


ndows Help 


> df_data<-read.csv("C:/tmp/Ventes.csv",header=T,sep=";") 


Remarque: Pour importer de gros jeux de données, nous travaillerons plutôt avec la fonction 
fread( ) de data.table (voir page 2313) plutôt que read.csv() du package base! 


Voici d'abord comment nous transformons un dataframe en objet dplyr (rappel): 


Lo 
Là 
NI 
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MR RGui (64-bit) - [R Console] X 
ŒR File Edit View Misc Packages Windows Help EF x 

ñ 

> dplyr_data<-tbl_ df(df data) 
> head(dplyr data) 
# À tibble: 6 x 10 

NClient Activite NDeCommande DateDeCommande Article Quantite 

<int> <fctr> <int> <fctr> <fctr> <int> 

1 100 Assurances 1 03.01.2000 10:19 Compaq Presario 100 2 
2 123 Machines/Outils 2 03.01.2000 07:08 IBM 500 2 
3 109 Éducation 3 03.01.2000 14:35 AST Intel 150 5 
4 104 Éducation 4 03.03.2000 04:14 AST Intel 200 3 
5 117 Banques 5 04.01.2000 16:25 Compaq Presario 100 13 
6 103 Assurances 6 04.01.2000 11:01 AST Intel 150 2 
# ... with 4 more variables: PrixParPiece <int>, Rabais <fctr», 
+ PrixTotalAvecRabais <dbl>, FacturePayee <fctr> 

> as.data.frame(dplyr data) 

| NClient Activite NDeCommande DateDeCommande Article 
z 100 Assurances 1 03.01.2000 10:19 Compaq Presario 100 
2 123 Machines/Outils 2 03.01.2000 07:08 IBM 500 
3 109 Éducation 3 03.01.2000 14:35 AST Intel 150 
4 104 Éducation 4 03.03.2000 04:14 AST Intel 200 
5 117 Banques 5 04.01.2000 16:25 Compaq Presario 100 
6 103 Assurances 6 04.01.2000 11:01 AST Intel 150 
7 104 Éducation 7 04.03.2000 21:30 AST Intel 200 

|8 FIL Alimentaire 8 04.01.2000 02:20 IBM 500 

[9 113 Construction 9 04.02.2000 23:06 Compaq Presario 100 

110 116 Pharmaceutique 10 04.01.2000 16:14 IBM 500 
11 110 Distribution 11 05.01.2000 14:2 AST Intel 200 

[12 112 Machines/Outils 2 05.01.2000 03:29 Compaq Presario 100 

[13 123 Machines/Outils 13 05.01.2000 16:22 IBM 500 
14 113 Construction 14 05.01.2000 16:09 AST Intel 150 

115 115 Distribution 15 05.02.2000 01:47 Compaq Presario 100 

116 124 Éducation 16 05.03.2000 21:13 AST Intel 200 
17 124 Éducation 17 05.01.2000 01:48 Compaq Presario 100 

|18 106 Construction 18 05.01.2000 14:16 AST Intel 200 

119 101 Construction 19 05.01.2000 17:34 Compaq Presario 100 
20 116 Pharmaceutique 20 06.02.2000 23:05 IBM 500 
21 112 Machines/Outils 21 06.01.2000 12:40 AST Intel 150 

[22 125 Construction 22 06.03.2000 23:18 Compaq Presario 100 

| 23 100 Assurances 23 06.01.2000 06:48 IBM 500 & 
< > 


et enfin en objet data.table avec la fonction... data.table( ) : 
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R RGui (64-bit) - [R Console] — X 
R File Edit View Misc Packages Windows Help a - 
La) 
> dt_data<-data.table(df_ data) 
> dt_data 
NClient Activite NDeCommande DateDeCommande Article Quantite 
s à 100 Assurances 1 03.01.2000 10:19 Compaq Presario 100 12 
2: 123 Machines/Outils 2 03.01.2000 07:08 IBM 500 2 
3: 109 Éducation 3 03.01.2000 14:35 AST Intel 150 5 
4: 104 Éducation 4 03.03.2000 04:14 AST Intel 200 3 
5e 117 Banques 5 04.01.2000 16:25 Compaq Presario 100 13 
105: 117 Banques 105 28.01.2000 03:24 AST Intel 150 3 
106: 108 Pharmaceutique 106 31.01.2001 06:32 Compaq Presario 100 15 
107: 102 Machines/Outils NA 31.01.2000 17:32 AST Intel 200 4 
108: 118 Éducation NA 31.01.2000 09:42 IBM 500 3 
109: 119 Éducation 109 31.01.2000 17:39 AST Intel 150 2 
PrixParPiece Rabais PrixTotalAvecRabais FacturePayee 
1: 1650 1.50% 19503.00 Oui 
2: 2299 0.00% 4598.00 Oui 
3: 2690 0.00% 13450.00 Oui 
4: 3190 0.00% 9570.00 Oui 
LE 1650 1.50% 21128.25 Oui 
105: 2690 0.00% 8070.00 Non 
106: 1650 1.50% 24378.75 Non 
107: 3190 0.00% 12760.00 Non 
108: 2299 0.00% 6897.00 Non 
109: 2690 0.00% 5380.00 Non 
> as.data.frame(dt_ data) 
NClient Activite NDeCommande DateDeCommande Article Quantite 
1 100 Assurances 1 03.01.2000 10:19 Compaq Presario 100 12 
2 123 Machines/Outils 2 03.01.2000 07:08 IBM 500 2 
3 109 Éducation 3 03.01.2000 14:35 AST Intel 150 5 
4 104 Éducation 4 03.03.2000 04:14 AST Intel 200 3 
5 117 Banques 5 04.01.2000 16:25 Compaq Presario 100 13 
6 103 Assurances 6 04.01.2000 11:01 AST Intel 150 2 
! 104 Éducation 7 04.03.2000 21:30 AST Intel 200 2 
8 111 Alimentaire 8 04.01.2000 02:20 IBM 500 4 
9 113 Construction 9 04.02.2000 23:06 Compaq Presario 100 4 
10 116 Pharmaceutique 10 04.01.2000 16:14 IBM 500 2 Ÿ 


Voyons maintenant les différentes façons d'avoir un résumé d'un objet dplyr (rappel): 
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R RGui (64-bit) - [R Console] _ 
R File Edit View Misc Packages Windows Help - 8x 
> summary(dplyr data) cs 

NClient Activite NDeCommande DateDeCommande 
Min. :100.0 Construction :21 Min. : 1.00 03.01.2000 07:08: 1 
ist Qu.:105.0 Éducation :19 ist Qu.: 27.50 03.01.2000 10:19: 1 
Median :113.0 Machines/Outils:18 Median : 54.00 03.01.2000 14:35: 1 
Mean :112.8 Distribution 5:13 Mean : 54.02 03.03.2000 04:14: 1 
3rd Qu.:120.0 Pharmaceutique :12 3rd Qu.: 80.50 04.01.2000 02:20: 21 
Max. :127.0 Assurances :10 Max. :109.00 04.01.2000 11:01: 1 
(Other) :16 NA's :2 (Other) :103 
Article Quantite PrixParPiece Rabais PrixTotalAvecRabais 
AST Intel 150 :2 Min. : 1.00 Min. :1650 0.00%:46 Min. : 2690 
AST Intel 200 :32 1st Qu.: 4.00 ist Qu.:1650 1.50%:52 ist Qu.: 9196 
Compaq Presario 100:29 Median : 6.00 Median :2299 3.00%: 9 Median :13587 
IBM 500 :27 Mean : 8.11 Mean :2463 4.00%: 2 Mean :18785 
3rd Qu.:11.00 3rd Qu.:3190 3rd Qu.:22754 
Max. :33.00 Max. :3190 Max. :85219 
FacturePayee 
Non:48 
Oui:61 
> str(dplyr data) 
Classes ‘tbl_ df’, ‘tbl’ and 'data.frame': 109 obs. of 10 variables: 
$ NClient : int 100 123 109 104 117 103 104 111 113 116 ... 
$ Activite : Factor w/ 8 levels "Alimentaire",..: 2766326148... 
$ NDeCommande : int 12345678 9 10 ..… 
$ DateDeCommande : Factor w/ 109 levels "03.01.2000 07:08",..: 2 1 3 4 8 6 10 5 9 7 ... 
$ Article : Factor w/ 4 levels "AST Intel 150",..: 3 4 12312 4 3 4 ... 
$ Quantite : int 122531322442... 
$ PrixParPiece : int 1650 2299 2690 3190 1650 2690 3190 2299 1650 2299 ... 
$ Rabais : Factor w/ 4 levels "0.00%",°1.50%",..: 2111211111... 
$ PrixTotalAvecRabais: num 19503 4598 13450 9570 21128 ... 
$ FacturePayee : Factor w/ 2 levels "Non","Oui*": 2222222222 ... 

> glimpse (dplyr_ data) 

Observations: 109 
Variables: 10 
$ NClient <int> 100, 123, 109, 104, 117, 103, 104, 111, 113, 116, 110, 112, 123, ... 
$ Activite <fctr> Assurances, Machines/Outils, Éducation, Éducation, Banques, Assu... 
$ NDeCommande <int> 1, 2, 3, 4, S, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19... 
$ DateDeCommande <£fctr> 03.01.2000 10:19, 03.01.2000 07:08, 03.01.2000 14:35, 03.03.2000... | 


et avec data.table (la fonction glimpse() étant spécifique à dplyr!): 
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Vincent ISOZ, Daname KOLANI Sciences.ch 
| MR RGui (64-bit) - [R Console] _ 
GR File Edit View Misc Packages Windows Help x 


> summary(dt_data) 
NClient 


Min. :100.0 
1st Qu.:105.0 
Median :113.0 
Mean :112.8 
3rd Qu.:120.0 
Max. :127.0 


Quantite 
Min. : 1.00 
1st Qu.: 4.00 
Median : 6.00 
Mean : 8.11 
3rd Qu.:11.00 
Max. :33.00 


> str(dt_ data) 
Classes 


‘data.table’ and 'data.frame': 


Activite NDeCommande DateDeCommande 

Construction 5:21 Min. 5 1.00 03.01.2000 07:08: 1 AST Intel 150 
Éducation :19 ist Qu.: 27.50 03.01.2000 10:19: 1 AST Intel 200 
Machines/Outils:18 Median : 54.00 03.01.2000 14:35: 1 
Distribution 513 Mean : 54.02 03.03.2000 04:14: 1 IBM 500 
Pharmaceutique :12 3rd Qu.: 80.50 04.01.2000 02:20: 21 
Assurances :10 Max. :109.00 04.01.2000 11:01: 1 

(Other) :16 NA's 22 (Other) :103 

PrixParPiece Rabais PrixTotalAvecRabais FacturePayee 
Min. :1650 0.00%:46 Min. : 2690 Non:48 

1st Qu.:1650 1.50%:52 1st Qu.: 9196 Oui:61 
Median 299 3.00%: 9 Median :13587 
Mean 463 4.00%: 2 Mean :18785 

3rd Qu.:3190 3rd Qu.:22754 
Max. :3190 Max. :85219 


109 obs. of 10 variables: 


$ NClient : int 100 123 109 104 117 103 104 111 113 116 ... 

$ Activite : Factor w/ 8 levels "Alimentaire",..: 2766326148... 

$ NDeCommande : int 12345678 9 10 ... 

$ DateDeCommande : Factor w/ 109 levels "03.01.2000 07:08",..: 2 1 3 4 8 6 10 5 9 7 
$ Article : Factor w/ 4 levels "AST Intel 150",..: 3412312434... 
$ Quantite : int 122531322442... 

$ PrixParPiece : int 1650 2299 2690 3190 1650 2690 3190 2299 1650 2299 ... 

$ Rabais : Factor w/ 4 levels "0.00%","1.50%",..: 2111211111... 
$ PrixTotalAvecRabais: num 19503 4598 13450 9570 21128 ... 

$ FacturePayee : Factor w/ 2 levels "Non","Oui": 2222222222... 
de “".internal.selfref")=<externalptr> 
> 


Article 
:21 
:32 
Compaq Presario 100:29 
5:27 


Ou extraire quelques lignes avec dplyr (rappel): 
R 
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Vincent ISOZ, Daname KOLANI Sciences.ch 


| MR RGui (64-bit) - [R Console] = 
R File Edit View Misc Packages Windows Help x 
> slice(dplyr data, 3:10) 
# À tibble: 8 x 10 
NClient Activite NDeCommande DateDeCommande Article Quantite PrixParPiece Rabais 
<int> <fctr> <int> <£fctr> <fctr> <int> <int> <fctr> 
1 109 Éducation 3 03.01.2000 14:35 AST Intel 150 5 2690 0.00% 
2 104 Éducation 4 03.03.2000 04:14 AST Intel 200 3 3190 0.00% 
3 117 Banques 5 04.01.2000 16:25 Compaq Presario 100 13 1650 1.50% 
4 103 Assurances 6 04.01.2000 11:01 AST Intel 150 2 2690 0.00% 
5 104 Éducation 7 04.03.2000 21:30 AST Intel 200 2 3190 0.00% 
6 111 Alimentaire 8 04.01.2000 02:20 IBM 500 4 2299 0.00% 
ri 113 Construction 9 04.02.2000 23:06 Compaq Presario 100 4 1650 0.00% 
le 116 Pharmaceutique 10 04.01.2000 16:14 IBM 500 2 2299 0.00% 
# ... with 2 more variables: PrixTotalAvecRabais <dbl>, FacturePayee <fctr> 
> slice(dplyr data, 3:n{)) 
# À tibble: 107 x 10 
NClient Activite NDeCommande DateDeCommande Article Quantite PrixParPiece Rabais 
<int> <fctr> <int> <fctr> <fctr> <int> <int> <fctr> 
1 109 Éducation 3 03.01.2000 14:35 AST Intel 150 5 2690 0.00% 
2 104 Éducation 4 03.03.2000 04:14 AST Intel 200 3 3190 0.00% 
3 117 Banques 5 04.01.2000 16:25 Compaq Presario 100 13 1650 1.50% 
4 103 Assurances 6 04.01.2000 11:01 AST Intel 150 2 2690 0.00% 
5 104 Éducation 7 04.03.2000 30 AST Intel 200 2 3190 0.00% 
6 111 Alimentaire 8 04.01.2000 {e) IBM 500 4 2299 0.00% 
7 113 Construction 9 04.02.2000 06 Compaq Presario 100 4 1650 0.00% 
8 116 Pharmaceutique 10 04.01.2000 16:14 IBM 500 2 2299 0.00% 
9 110 Distribution 11 05.01.2000 14:21 AST Intel 200 6 3190 1.50% 
10 112 Machines/Outils 12 05.01.2000 03:29 Compaq Presario 100 6 1650 1.50% 
# ... with 97 more rows, and 2 more variables: PrixTotalAvecRabais <dbl>, FacturePayee <fctr> 
> | 
et avec data.table: ss 
Ÿ 
MR RGui (64-bit) - [R Console] = 
R File Edit View Misc Packages Windows Help x 


> dt_data{[3:10,] 


NClient Activite NDeCommande DateDeCommande Article Quantite PrixParPiece Rabais 
I: 109 Éducation 3 03.01.2000 14:35 AST Intel 150 s 2690 0.00% 
2: 104 Éducation 4 03.03.2000 04:14 AST Intel 200 3 3190 0.00% 
3: 217 Banques 5 04.01.2000 16:25 Compaq Presario 100 13 1650 1.50% 
4: 103 Assurances 6 04.01.2000 11:01 AST Intel 150 2 2690 0.00% 
ss 104 Éducation 7 04.03.2000 21:30 AST Intel 200 2 3190 0.00% 
6: 111 Alimentaire 8 04.01.2000 02:20 IBM 500 4 2299 0.00% 
Ts 223 Construction 9 04.02.2000 23:06 Compaq Presario 100 4 1650 0.00% 
8: 116 Pharmaceutique 10 04.01.2000 16:14 IBM 500 2 2299 0.00% 

PrixTotalAvecRabais FacturePayee 

13450.00 Oui 

9570.00 Oui 

21128.25 Oui 

5380.00 Oui 

6380.00 Oui 

: 9196.00 Oui 

7: 6600.00 Oui 

: 4598.00 Oui 


On sélectionne ou retire seulement quelques colonnes d'abord avec dplyr (pour rappel): 
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Vincent ISOZ, Daname KOLANI Sciences.ch 
MR RGui (64-bit) - [R Console] — 
R File Edit View Misc Packages Windows Help PE (EE: 


G | 


> select(dplyr data,Activite,NClient) 


# À tibble: 109 x 2 
Activite NClient 
<fctr> <int> 
& Assurances 100 
2 Machines/Outils 123 
3 Éducation 109 
4 Éducation 104 
S Banques 117 
| 6 Assurances 103 
7. Education 104 
8 Alimentaire 111 
9 Construction 113 
0 Pharmaceutique 116 


|1 
# ... with 99 more rows 


> select (dplyr data,-NClient,-Activite) 


# À tibble: 109 x 8 
NDeCommande DateDeCommande Article Quantite PrixParPiece Rabais PrixTotalAvecRabais 
<int> <fctr> <fctr> <int> <int> <fctr> <db1> 
1 1 03.01.2000 10:19 Compaq Presario 100 12 1650 1.50% 19503.00 
2 2 03.01.2000 07:08 IBM 500 2 2299 0.00% 4598.00 
3 3 03.01.2000 14:35 AST Intel 150 5 2690 0.00% 13450.00 
4 4 03.03.2000 04:14 AST Intel 200 3 3190 0.00% 9570.00 
5 5 04.01.2000 16:25 Compaq Presario 100 13 1650 1.50% 21128.25 
6 6 04.01.2000 11:01 AST Intel 150 2 26930 0.00% 5380.00 
7 7 04.03.2000 21:30 AST Intel 200 2 3190 0.00% 6380.00 
8 8 04.01.2000 02:20 IBM 500 4 2299 0.00% 9196.00 
9 9 04.02.2000 23:06 Compaq Presario 100 4 1650 0.00% 6600.00 
10 10 04.01.2000 16:14 IBM 500 2 2299 0.00% 4598.00 
# ... with 99 more rows, and 1 more variables: FacturePayee <fctr> 
>| 
ensuite avec data.table: 
X 
MR RGui (64-bit) - [R Console] — 
R File Edit View Misc Packages Windows Help .  -X 


| 


La] 
> dt_data{,.(Activite,NClient)] 
Activite NClient 


1: Assurances 100 
2: Machines/Outils 123 
3: Éducation 109 
4: Éducation 104 
5: Banques 117 
105: Banques 117 
| 106: Pharmaceutique 108 
107: Machines/Outils 102 
108: Éducation 118 
[ARR Éducation 119 
> dt_data[,c("Activite","NClient") :=NULL] 
> dt_data 
NDeCommande DateDeCommande Article Quantite PrixParPiece Rabais PrixTotalAvecRabais 
1: 1 03.01.2000 10:19 Compaq Presario 100 12 1650 1.50% 19503.00 
2: 2 03.01.2000 07:08 IBM 500 2 2299 0.00% 4598.00 
3: 3 03.01.2000 14:35 AST Intel 150 5 2690 0.00% 13450.00 
4: 4 03.03.2000 04:14 AST Intel 200 3 3190 0.00% 9570.00 
5: 5 04.01.2000 16:25 Compaq Presario 100 13 1650 1.50% 21128.25 
105: 105 28.01.2000 03:24 AST Intel 150 3 26930 0.00% 8070.00 
106: 106 31.01.2001 06:32 Compaq Presario 100 15 1650 1.50% 24378.75 
107: NA 31.01.2000 17:32 AST Intel 200 4 3190 0.00% 12760.00 
108: NA 31.01.2000 09:42 IBM 500 3 2299 0.00% 6897.00 
109: 109 31.01.2000 17:39 AST Intel 150 2 2690 0.00% 5380.00 
FacturePayee 
1: Oui 
2: Oui 
3: Oui 
l : Oui 
v 
Avant de poursuivre on réinitialise l'objet data.table: 
R Statistical Software 668/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


R RGui (64-bit) - [R Console] — O 


MR File Edit View Misc Packages Windows Help 0 


SFEREC@E 


[> dt _data<-data.table(df data) 
> | 


Nous poursuivons maintenant avec un tri simple avec quelques colonnes seulement avec dplyr 
(pour rappel): 


R RGuiï (64-bit) - [R Console] me 


GR File Edit View Misc Packages Windows Help x 


> select (dplyr data,NClient,Article) %>% 
+ arrange (desc(NClient),Article) 
# À tibble: 109 x 2 
NClient Article 

<int> <fctr> 

127 AST Intel 200 

7 AST Intel 200 
7 Compaq Presario 100 
7 IBM 500 
6 AST Intel 150 
6 
5 
5 
5 


Compaq Presario 100 
AST Intel 200 

AST Intel 200 
Compaq Presario 100 
IBM 500 


© © -J on Un 4 WW Là ++ 
bi bé bé bé bi bi bi bi 


hi 
o 
bn 
1) 
on 


# ... with 99 more rows 


et son équivalent avec data.table: 
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@R RGui (64-bit) - [R Console] — 


GR File Edit View Misc Packages Windows Help - EF x 


EÉBOISOESIOIE | 


> dt_datal{order (NClient,decreasing = T),.(NClient,Article) ] 


NClient Article 

Es 127 IBM 500 

2: 127 AST Intel 200 

3: 127 Compaq Presario 100 

4: 127 AST Intel 200 

| . 126 AST Intel 150 
105: 101 Compaq Presario 100 

| 106: 100 Compaq Presario 100 
107: 100 IBM 500 
| 108: 100 AST Intel 200 
109: 100 AST Intel 150 


Maintenant un rappel de groupement en dplyr: 
KO 
@R RGui (64-bit) - [R Console] — 


ŒR File Edit View Misc Packages Windows Help EX 


> dplyr data $>* 
+ group by(Article) %>% 
+ summarise (Moyenne=mean (Quantite)) %>% 
+ arrange (Moyenne) 
# À tibble: 4 x 2 
Article Moyenne 
<fctr> <db1> 
IBM 500 5.518519 
AST Intel 200 7.000000 
AST Intel 150 8.380952 
Compaq Presario 100 11.551724 


V 4 OO 13 + 


et son équivalent en data.table: 
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R RGui (64-bit) - [R Console] — 


GR File Edit View Misc Packages Windows Help SR 


BROISOEINIE | 


> dt_data{,.(Quantite.Moyenne=mean (Quantite)),by=Article] 
Article Quantite.Moyenne 


1: Compaq Presario 100 11.551724 
2: IBM 500 5.518519 
3: AST Intel 150 8.380952 
+ AST Intel 200 7.000000 
> 


Pour renommer une colonne avec dplyr (rappel): 


R RGui (64-bit) - [R Console] _ 


ŒR File Edit View Misc Packages Windows Help 6 x 


| 


La] 
> rename(dplyr data, NumeroClient = NClient) 
# À tibble: 109 x 10 


NumeroClient Activite NDeCommande DateDeCommande Article Quantite 

<int> <£fctr> <int> <£fctr> <£fctr> <int> 

1 100 Assurances 1 03.01.2000 10:19 Compaq Presario 100 12 

2 123 Machines/Outils 2 03.01.2000 07:08 IBM 500 2 

3 109 Éducation 3 03.01.2000 14:35 AST Intel 150 5 

4 104 Éducation 4 03.03.2000 04:14 AST Intel 200 3 

5 117 Banques 5 04.01.2000 16:25 Compaq Presario 100 13 

6 103 Assurances 6 04.01.2000 11:01 AST Intel 150 2 

7 104 Éducation 7 04.03.2000 21:30 AST Intel 200 2 

8 111 Alimentaire 8 04.01.2000 02:20 IBM 500 4 

g 113 Construction 9 04.02.2000 23:06 Compaq Presario 100 4 

[10 116 Pharmaceutique 10 04.01.2000 16:14 IBM 500  - 
# ... with 99 more rows, and 4 more variables: PrixParPiece <int>, Rabais <fctr>, 

|# PrixTotalAvecRabais <dbl>, FacturePayee <fctr> 


et son équivalent en data.table: 


R Statistical Software 671/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


MR RGui (64-bit) - [R Console] L X 
ŒR File Edit View Misc Packages Windows Help IN 
ñ 
> setnames(dt data, old = "NClient", new = "NumeroClient") 
> dt_data 
NumeroClient Activite NDeCommande DateDeCommande Article Quantite 
15 100 Assurances 1 03.01.2000 10:19 Compaq Presario 100 12 
r 4 123 Machines/Outils 2 03.01.2000 07:08 IBM 500 2 
3: 109 Éducation 3 03.01.2000 14:35 AST Intel 150 5 
4: 104 Éducation 4 03.03.2000 04:14 AST Intel 200 3 
S: 117 Banques 5 04.01.2000 16:25 Compaq Presario 100 18 
105: 117 Banques 105 28.01.2000 03:24 AST Intel 150 3 
106: 108 Pharmaceutique 106 31.01.2001 06:32 Compaq Presario 100 15 
107: 102 Machines/Outils NA 31.01.2000 17:32 AST Intel 200 4 
108: 118 Éducation NA 31.01.2000 09:42 IBM 500 3 
|109: 119 Éducation 109 31.01.2000 17:39 AST Intel 150 2 
PrixParPiece Rabais PrixTotalAvecRabais FacturePayee 
| h: 1650 1.50% 19503.00 Oui 
v 
Avant de poursuivre on réinitialise l'objet data.table: 
R RGui (64-bit) - [R Console] — X 
R File Edit View Misc Packages Windows Help D: 


ESOBCSEIE | 


[> dt _data<-data.table(df data) 
> | 


Changer le typage d'une colonne avec dplyr (rappel): 


R RGui (64-bit) - [R Console] = 


ŒR File Edit View Misc Packages Windows Help = FX 
SEE | 
ñ 


> dplyr_ data $>*$ 
+ mutate (NClient = as.character (NClient)) 
# À tibble: 109 x 10 


NClient Activite NDeCommande DateDeCommande Article Quantite 
<chr> <fctr> <int> <fctr> <fctr> <int> 

1 100 Assurances 1 03.01.2000 10:19 Compaq Presario 100 12 
2 123 Machines/Outils 2 03.01.2000 07:08 IBM 500 2 
3 109 Éducation 3 03.01.2000 14:35 AST Intel 150 5 
4 104 Éducation 4 03.03.2000 04:14 AST Intel 200 3 
5 117 Banques 5 04.01.2000 16:25 Compaq Presario 100 13 
6 103 Assurances 6 04.01.2000 11:01 AST Intel 150 2 
7 104 Éducation 7 04.03.2000 21:30 AST Intel 200 2 
8 111 Alimentaire 8 04.01.2000 02:20 IBM 500 4 
| 9 113 Construction 9 04.02.2000 23:06 Compaq Presario 100 4 
10 116 Pharmaceutique 10 04.01.2000 16:14 IBM 500 2 


14 Les with 99 more rows, and 4 more variables: PrixParPiece <int>, Rabais <fctr>, 


et son équivalent avec data.table: 
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| MR RGui (64-bit) - [R Console] — O 


| R File Edit View Misc Packages Windows Help x 


> dtnew <- dt_data{, NumeroClient:=as.character (NumeroClient)] 
> str(dtnew) 
Classes ‘data.table’ and "data.frame': 109 obs. of 10 variables: 


$ NumeroClient : chr 100" *123* "109" *104" ... 

$ Activite : Factor w/ 8 levels "Alimentaire",..: 2766326148 ... 

$ NDeCommande : int 1234567 9 9 10 ... 

$ DateDeCommande : Factor w/ 109 levels "03.01.2000 07:08",..: 2 1 3 4 8 6 10 5 9 7 ... 
$ Article : Factor w/ 4 levels "AST Intel 150",..: 3 412312 4 3 4 ... 
$ Quantite : int 122531322442 .:;:- 

$ PrixParPiece : int 1650 2299 2690 3190 1650 2690 3190 2299 1650 2299 ... 

$ Rabais : Factor w/ 4 levels "0.00%","1.50%",..: 2111211111... 
$ PrixTotalAvecRabais: num 19503 4598 13450 9570 21128 

$ FacturePayee : Factor w/ 2 levels “Non","Oui": 2222222222... 

- attr(*, ".internal.selfref")=<externalptr> 


Maintenant une création d'une colonne avec une statistique et un lag avec dplyr (rappel): 


ŒR File Edit View Misc Packages Windows Help EX 


| M RGui (64-bit) - [R Console] = O 
> dplyr data $5>% 

+ group _by(Article) #5>% 

+ summarise (Moyenne .Quantite=mean(Quantite)) 424% 

+ mutate (Difference=Moyenne.Quantite-lag (Moyenne .Quantite)) 

# À tibble: 4 x 3 


Article Moyenne.Quantite Difference 


<fctr> <db1> <db1> 
1 AST Intel 150 8.380952 Na 
2 AST Intel 200 7.000000 -1.380952 
3 Compaq Presario 100 11.551724 4.551724 
4 | IBM 500 5.518519 -6.033206 
> 


et le même avec data.table: 


R Statistical Software 673/3133 
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MR RGui (64-bit) - [R Console] — 


ŒR File Edit View Misc Packages Windows Help -_# x 


| 


> dt_data[order (Article),.(Moyenne.Quantite = mean (Quantite)),by=Article][,Difference:=Moyenne .Quantite-lag (Moyenne .Quantite)]1[] 
Article Moyenne.Quantite Difference 


1: AST Intel 150 8.380952 Na 
2: AST Intel 200 7.000000 -1.380952 
3: Compaq Presario 100 11.551724 4.551724 
"1 IBM 500 5.518519 -6.033206 
> 


Jointure gauche entre deux tables avec une seule clé de liaison avec dplyr (rappel): 


R RGui (64-bit) - [R Console] _ 

ŒR File Edit View Misc Packages Windows Help - FX 

> df_principal<-read.csv("c:/tmp/Ventes.csv",header=T,sep=";") É 

> df_secondaire<-read.csv("c:/tmp/Bonus.csv",header=T,sep=",") 

> select (left _join(df principal,df secondaire,by=c{("NClient"="Client")),NClient,Activite,Article,Bonus) 
NClient Activite Article Bonus 

L 100 Assurances Compaq Presario 100 10.00% 

2 123 Machines/Outils IBM 500 6.00% 

3 109 Éducation AST Intel 150 8.00% 

|4 104 Éducation AST Intel 200 <NA> 

[5 117 Banques Compaq Presario 100 7.00% 

L6 103 Assurances AST Intel 150 4.00% 

|7 104 Éducation AST Intel 200  <NA> 

| 8 111 Alimentaire IBM 500 1.00% 

|9 113 Construction Compaq Presario 100 <NA> 

| 10 116 Pharmaceutique IBM 500 3.00% 

|11 110 Distribution AST Intel 200 9.00% 

| 12 112 Machines/Outils Compaq Presario 100 10.00% 

13 123 Machines/Outils IBM 500 6.00% 

| 14 113 Construction AST Intel 150 <NA> 

|15 115 Distribution Compaq Presario 100 8.00% 

|16 124 Éducation AST Intel 200 10.00% 

hi 124 Éducation Compaq Presario 100 10.00% : 

< > 


La même chose avec data.table: 


R Statistical Software 674/3133 
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MR RGui (64-bit) - [R Console] — O 


ŒR File Edit View Misc Packages Windows Help 4x) 


> dt_principal<-data.table(df principal) 

> dt_secondaire<-data.table(df secondaire) 

> setkey(dt_principal,NClient) 

> setkey(dt_secondaire,Client) 

> merge(dt_principal,dt _secondaire,by.x="NClient",by.y="Client", all.x=TRUE)[,.(NClient,Activite,Article,Bonus)] 

NClient Activite Article Bonus 

Le 100 Assurances Compaq Presario 100 10.00% 
2: 100 Assurances IBM 500 10.00% 
3: 100 Assurances AST Intel 200 10.00% 
4 100 Assurances AST Intel 150 10.00% 
S= 101 Construction Compaq Presario 100 5.00% 

105: 126 Machines/Outils Compaq Presario 100 8.00% 

106: 127 Alimentaire IBM 500 6.00% 

107: 127 Alimentaire AST Intel 200 6.00% 

108: 127 Alimentaire Compaq Presario 100 6.00% 

108: 127 Alimentaire AST Intel 200 6.00% 


On exclut les lignes avec des valeurs NULL peut importe la colonne avec dplyr (rappel): 


MR RGui (64-bit) - [R C = ol 


ŒR File Edit View Misc Packages Windows Help | 4 x 


SITE) Tale) (el | 


> dplyr data $>% na.omit() 
# À tibble: 107 x 10 


NClient Activite NDeCommande DateDeCommande Article Quantite PrixParPiece Rabais 
<int> <£ctr> <int> <£ctr> <£ctr> <int> <int> <fctr> 

o 1, 100 Assurances 1 03.01.2000 10:19 Compaq Presario 100 12 1650 1.50% 
2 123 Machines/Outils 2 03.01.2000 07:08 IBM 500 2 2299 0.00% 
3 109 Éducation 3 03.01.2000 14:35 AST Intel 150 5 2690 0.00% 

| 4 104 Éducation 4 03.03.2000 04:14 AST Intel 200 3 3190 0.00% 
| 5 117 Banques 5 04.01.2000 16:25 Compaq Presario 100 13 1650 1.50% 
| 6 103 Assurances 6 04.01.2000 11:01 AST Intel 150 2 2690 0.00% 
| + 104 Éducation 7 04.03.2000 21:30 AST Intel 200 2 3190 0.00% 
8 111 Alimentaire 8 04.01.2000 02:20 IBM 500 4 2299 0.00% 

| 9 113 Construction 9 04.02.2000 23:06 Compaq Presario 100 4 1650 0.00% 
10 116 Pharmaceutique 10 04.01.2000 16:14 IBM 500 2 2299 0.00% 


|# ... With 97 more rows, and 2 more variables: PrixTotalAvecRabais <dbl>, FacturePayee <fctr> 


La même chose avec data.table: 
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MR RGui (64-bit) - [R Console] — im 
R File Edit View Misc Packages Windows Help ei EE 2 
> na.omit (dt_data) 
NumeroClient Activite NDeCommande DateDeCommande Article Quantite PrixParPiece 
1: 100 Assurances 1 03.01.2000 10:19 Compaq Presario 100 12 1650 
2: 123 Machines/Outils 2 03.01.2000 07:08 IBM 500 2 2299 
3: 109 Éducation 3 03.01.2000 14:35 AST Intel 150 5 2690 
4: 104 Éducation 4 03.03.2000 04:14 AST Intel 200 3 3190 
5: 117 Banques 5 04.01.2000 16:25 Compaq Presario 100 13 1650 
| 103: 106 Construction 103 28.01.2000 17:50 Compaq Presario 100 11 1650 
| 104: 115 Distribution 104 28.01.2000 11:04 IBM 500 3 2299 
| 105: 117 Banques 105 28.01.2000 03:24 AST Intel 150 3 2690 
106: 108 Pharmaceutique 106 31.01.2001 06:32 Compaq Presario 100 15 1650 
|107: 119 Éducation 109 31.01.2000 17:39 AST Intel 150 2 2690 
Rabais PrixTotalAvecRabais FacturePayee 
1: 1.50% 19503.00 Oui 
| 2: 0.00% 4598.00 Oui 
3: 0.00% 13450.00 Oui 
| 4: 0.00% 9570.00 Oui 
| 5: 1.50% 21128.25 Oui 
| v 
. : . : N 2 + 
On conserve que les lignes qui sont non-vides mais par rapport à une colonne précise avec 
diplyr (rappel): 
MR RGui (64-bit) - [R Console — O 
ŒR File Edit View Misc Packages Windows Help - 5 x 


SITE) Isle) (el | 


> subset (dplyr data, !is.na("PrixTotalAvecRabais")) 
+ À tibble: 109 x 10 


NClient Activite NDeCommande DateDeCommande Article Quantite PrixParPiece Rabais 
<int> <£ctr> <int> <£fctr> <£fctr> <int> <int> <fctr> 
1 100 Assurances 1 03.01.2000 10:19 Compaq Presario 100 12 1650 1.50% 
2 123 Machines/Outils 2 03.01.2000 07:08 IBM 500 2 2299 0.00% 
3 109 Éducation 3 03.01.2000 14:35 AST Intel 150 E 2690 0.00% 
4 104 Éducation 4 03.03.2000 04:14 AST Intel 200 3 3190 0.00% 
5 117 Banques 5 04.01.2000 16:25 Compaq Presario 100 13 1650 1.50% 
6 103 Assurances 6 04.01.2000 11:01 AST Intel 150 2 2690 0.00% 
7 104 Éducation 7 04.03.2000 21:30 AST Intel 200 2 3190 0.00% 
8 111 Alimentaire 8 04.01.2000 02:20 IBM 500 4 2299 0.00% 
9 113 Construction 9 04.02.2000 23:06 Compaq Presario 100 4 1650 0.00% 
10 116 Pharmaceutique 10 04.01.2000 16:14 IBM 500 2 2299 0.00% 
# ... with 99 more rows, and 2 more variables: PrixTotalAvecRabais <dbl>, FacturePayee <fctr> 


v 


La même chose avec data.table donne: 
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R RGuï (64-bit) - [R Console] — Ü 


R File Edit View Misc Packages Windows Help ee) EE) 2 


> na.omit (dt_data,"PrixTotalAvecRabais") 


NumeroClient Activite NDeCommande DateDeCommande Article Quantite PrixParPiece 

1: 100 Assurances 1 03.01.2000 10:19 Compaq Presario 100 12 1650 

2: 123 Machines/Outils 2 03.01.2000 07:08 IBM 500 2 2299 

3: 109 Éducation 3 03.01.2000 14:35 AST Intel 150 5 2690 

4: 104 Éducation 4 03.03.2000 04:14 AST Intel 200 3 3190 

5: 117 Banques 5 04.01.2000 16:25 Compaq Presario 100 13 1650 

| 105: 117 Banques 105 28.01.2000 03:24 AST Intel 150 3 2690 

| 106: 108 Pharmaceutique 106 31.01.2001 06:32 Compaq Presario 100 15 1650 

| 107: 102 Machines/Outils NA 31.01.2000 17:32 AST Intel 200 4 3190 

| 108: 118 Éducation NA 31.01.2000 09:42 IBM 500 3 2299 

| 109: 119 Éducation 109 31.01.2000 17:39 AST Intel 150 2 2690 
Rabais PrixTotalAvecRabais FacturePayee 
| 1: 1.50% 19503.00 Oui 
| 2: 0.00% 4598.00 Oui 
| 3: 0.00% 13450.00 Oui 
| 4: 0.00% 9570.00 Oui 
5: 1.50% 21128.25 Oui 


Uniquement les lignes avec la colonne NDeCommande ayant des Null ET avec la Quantite 
supérieure à zéro et on remplace les valeurs Null de la colonne NDeCommande par des 0 avec 


dplyr (rappel): 


R RGu - [R Console] = (m] 
pe File Edit View Misc Packages Windows Help -_ x 
@] | 
ñ“ 
> dplyr data +>+t 
|+ filter (is.na (NDeCommande) ,Quantite>0) 
# À tibble: 2 x 10 
NClient Activite NDeCommande DateDeCommande Article Quantite PrixParPiece Rabais 
<int> <fctr> <int> <fctr> <fctr> <int> <int> <fctr> 
1 102 Machines/Outils NA 31.01.2000 17:32 AST Intel 200 4 3190 0.00% 
2 118 Éducation NA 31.01.2000 09:42 IBM 500 3 2299 0.00% 
|# ... with 2 more variables: PrixTotalAvecRabais <dbl>, FacturePayee <fctr> 
|> dplyr_ data %>+ mutate (NDeCommande=ifelse (is.na (NDeCommande) ,0,NDeCommande) ) 
|# A tibble: 109 x 10 
| NClient Activite NDeCommande DateDeCommande Article Quantite PrixParPiece Rabais 
<int> <fctr> <db1> <£fctr> <fctr> <int> <int> <fctr> 
| & 100 Assurances 1 03.01.2000 10:19 Compaq Presario 100 12 1650 1.50% 
2 123 Machines/Outils 2 03.01.2000 07:08 IBM 500 2 2299 0.00% 
3 109 Éducation 3 03.01.2000 14:35 AST Intel 150 5 2690 0.00% 
| 4 104 Éducation 4 03.03.2000 04:14 AST Intel 200 s 3190 0.00% 
| 5 117 Banques 5 04.01.2000 16:25 Compaq Presario 100 13 1650 1.50% 
l'6 103 Assurances 6 04.01.2000 11:01 AST Intel 150 2 2690 0.00% 
| Ÿ 104 Éducation 7 04.03.2000 21:30 AST Intel 200 2 3190 0.00% 
| 8 111 Alimentaire 8 04.01.2000 02:20 IBM 500 4 2299 0.00% 
g 113 Construction 9 04.02.2000 23:06 Compaq Presario 100 4 1650 0.00% 
10 116 Pharmaceutique 10 04.01.2000 16:14 IBM 500 2 2299 0.00% à 


La même chose avec data.table: 
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MR RGui (64-bit) - [R Console] — O 


R File Edit View Misc Packages Windows Help FF x 


> dt_data{is.na (NDeCommande) & Quantite>0,] 


NumeroClient Activite NDeCommande DateDeCommande Article Quantite PrixParPiece Rabais 
1: 102 Machines/Outils NA 31.01.2000 17:32 AST Intel 200 4 3190 0.00% 
(25 118 Éducation NA 31.01.2000 09:42 IBM 500 3 2299 0.00% 
| PrixTotalAvecRabais FacturePayee 
|1z 12760 Non 
[23 6897 Non 
[> (— [{, NDeCommande :=ifelse (is.na (NDeCommande) ,0,NDeCommande) ] 
|> 


Pour fusionner deux jeux de données en dplyr (rappel): 


MR RGui (64-bit) - [R Console] _ « | 


R File Edit View Misc Packages Windows Help 5 x 


> df_partiel<-read.csv("c: /tmp/Ventes_O1 -.csv",header=T,sep=";") 
> df_partie2<-read.csv("c:/tmp/Ventes 02.csv",header=T,sep=";") 
> bind rows(df_partiel,df_ partie2) 


NClient Activite NDeCommande DateDeCommande Article Quantite PrixParPiece Rabais 
1 100 Assurances 1 03.01.2000 10:19 Compaq Presario 100 12 1650 1.50% 
2 123 Machines/Outils 2 03.01.2000 07:08 IBM 500 2 2299 0.00% 
3 109 Éducation 3 03.01.2000 14:35 AST Intel 150 5 2690 0.00% 
4 104 Éducation 4 03.01.2000 04:14 AST Intel 200 3 3190 0.00% 
5 117 Banques 5 04.01.2000 16:25 Compaq Presario 100 13 1650 1.50% 
6 103 Assurances 6 04.01.2000 11:01 AST Intel 150 2 2690 0.00% 
7 104 Éducation 7 04.01.2000 21:30 AST Intel 200 2 3190 0.00% 
v 
NS 
S 
12 L , 
Et l'équivalent en data.table: 
| MR RGui (64-bit) - [R Console] — 
R File Edit View Misc Packages Windows Help 5 x 
Sa | 
QE | 
La] 
> dt_partiel<-data.table(df partiel) 
> dt_partie2<-data.table(df _partie2) 
> merge(dt_partiel,dt_partie2,all=TRUE) 
NClient Activite NDeCommande DateDeCommande Article Quantite PrixParPiece Rabais 
Le 100 Assurances 1 03.01.2000 10:19 Compaq Presario 100 12 1650 1.50% 
| 2: 100 Assurances 23 06.01.2000 06:48 IBM 500 3 2299 0.00% 
| 3: 100 Assurances 45 12.01.2000 17:05 AST Intel 200 4 3190 0.00% 
| 100 Assurances 50 13.01.2000 11:02 AST Intel 150 13 2690 1.50% 
| S: 101 Construction 19 05.01.2000 17:34 Compaq Presario 100 14 1650 1.50% 
|105: 126 Machines/Outils 63 19.01.2000 03:24 Compaq Presario 100 12 1650 1.50% 
v 


Enfin une petite compilation sympa : 
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[ @ Rouet - [R Console] ( x | 
GR File Edit View Misc Packages Windows Help Le x 


library ("data.table") 


mydata<-fread("c:/tmp/Ventes.csv",header=T, sep=";") 

#*on renomme les colonnes (plus joli) 

colnames (mydata)<-c("Client","Secteur","NumCommande", "Date","Article","Quantite","PrixUnitaire", 
"Rabais","PrixTotal","FacturePayee") 

fvecteur avec toutes les colonnes de dates 

date _ cols <- c("Date") 

#on convertit les colonnes de dates en vraies dates... 

mydatal, (date cols) := lapply(.SD, function(x) as.Date(x,"%d.%m.%Y")), .SDcols = date cols] 


str (mydata) 
asses ‘data.table’ and 'data.frame': 109 obs. of 10 variables: 
Client : int 100 123 109 104 117 103 104 111 113 116 ... 
Secteur : chr "Assurances" "Machines/Outils" "Éducation" "Éducation" ... 
NumCommande : int 12 3 4 5 6 7 8 9 10 ... 
Date : Date, format: "2000-01-03" "2000-01-03" ... 
Article : chr "Compaq Presario 100" "IBM 500" "AST Intel 150" "AST Intel 200" ... 
Quantite “int 12 2 5-3 13 2 2 4 # 2. 
PrixUnitaire: int 1650 2299 2690 3190 1650 2690 3190 2299 1650 2299 ... 
Rabais SCORE, "1:9087 "0:00" "0:0087 "OLO0ET 3 
PrixTotal : num 19503 4598 13450 9570 21128 ... 
FacturePayee: chr “Oui” "Oui" "Oui" "Oui" ... 
attr(*, ".internal.selfref")=<externalptr> 
#on groupe 
mydata<-setDT(mydata) [, .(SommeQuantite = sum(Quantite)), by = .(yr = year(Date), mon = month(Date))] 
#on trie 
mydata<- mydatalorder(yr, mon)] 
#on ajoute une clé 
mydatal, ID := .I] 
*#on groupe les mois et années 
mydatal, AnneeMois:=(paste0(yr,"-", mon))] 
#on supprime deux colonnes non-désirées 
mydatal,c('yr','mon') := NULL] 
mydata 
SommeQuantite ID AnneeMois 
739 2000-1 
49 2000-2 
36 2000-3 
45 2001-1 
6 2001-3 
9 2001-4 


AVVVVVVEUVVVV NV 


Un n An An En in in An An 


NONMNINONONVONE NENONT NV 


Vo UT & & D EH 


a U1 & W ND H 


Enfin pour garder toutes les colonnes qui commencent par une certaine chaîne en dplyr 
(rappel): 
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Sciences.ch 


VV UE & DH 


V UE &W ND M 


R RGui (64-bit) - [R Console] 


ŒR File Edit View Misc Packages Windows Help 


(mydata <- data.frame( ABC 1 = runif(S), 


ABC_1 
0.7133016 
0.1007690 
0.9503049 
0.1218178 
0.2196566 
mydata <- 
mydata 

ABC_1 
0.7133016 
0.1007690 
0.9503049 
0.1218178 
0.2196566 


ABC 2 = runif(5), 
XYZ 1 = runif(5), 
XYZ _2 = runif(5))) 

ABC _2 XYZ_1 XYZ_2 
0.9130878 0.7442772 0.2834595 
0.9458531 0.9159742 0.2515457 
0.2791562 0.9945982 0.5032552 
0.1234711 0.9423607 0.4969662 
0.7971605 0.4861354 0.3184458 
mydata %5>% select(starts with("ABC")) 


ABC _2 
0.9130878 
0.9458531 
0.2791562 
0.1234711 
0.7971605 


Et l'équivalent en data.table: 
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Sciences.ch 


R RGui (64-bit) - [R Console] 0 | 
R File Edit View Misc Packages Windows Help UE: 
> (mydata <- data.frame( ABC 1 TüuniE£(5}; 
e ABC _2 = runif(5), 
_ XYZ _ 1 = runif(5), 
+ XYZ 2 = runif(5))) 

ABC _1 ABC 2 XYZ_1 XYZ _2 
1 0.9622228 0.4677923 0.5027498 0.6274777 
2 0.6340994 0.9081691 0.9836351 0.7416002 
3 0.1274334 0.5977433 0.3243860 0.5659668 
4 0.4230470 0.6317428 0.4813749 0.9807865 
5 0.9143169 0.8691583 0.3569871 0.5768127 
> mydatal, grep("ABC", names (mydata))] 

ABC 1 ABC 2 
1 0.9622228 0.4677923 
2 0.6340994 0.9081691 
3 0.1274334 0.5977433 
4 0.4230470 0.6317428 
5 0.9143169 0.8691583 
> | 
er S 


Enfin, voyons encore un autre exemple relativement courant, qui consiste à pivoter des 
données, et qui pose problème dans le monde Microsoft Excel et Microsoft Power BI, mais 
qui s'avère très facile avec R en utilisant les fonctions dcast( ), setDT( ) et rowid( ) du 
package data.table: 
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€ RGuïi (64-bit) - [R Console] 


ŒR File Edit View Misc Packages Windows Help 


> library("data.table") 
> df <- iris 
> nous voulons pivoter les noms des espèces relativement à la longuer de sépales 
> head({iris,10) 

Sepal.Length Sepal.Width Petal.Length Petal.Width Species 

5.1 3.5 1.4 0.2 setosa 

setosa 
setosa 
setosa 
setosa 
setosa 
setosa 
setosa 
setosa 
setosa 
+ Value.var = "Sepal.Length") 
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> dcast (setDT(d£f), rowid(Species)-Specie 
Species setosa versicolor virginica 

L: 5.1 6.3 
2: 
3: 
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Bingo! Opération réussie! 


Nous n'avons pas trouvé d'équivalent avec dplyr à ce jour! 
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Package libr 


Ce page de manipulationd de données plairera particulièrement à ceux qui viennent du monde 
SAS. 


Les quelques exemples que nous allons donner ci-dessous sont adaptés de la vignette du 
package libr disponible ici: 


https://cran.rstudio.com/web/packages/libr/vignettes/libr-datastep.html 


Commençons par un ajout de quelques colonnes à notre jeu de données habituel: 


R RGui (64-bit) - [R Console] Li 


R File Edit View Misc Packages Windows Help CURE 11 


> library("libr") 
> df<-read.csv("c:/tmp/VentesClean.csv",header=T, sep=";") 


> str(df) 

"data.frame': 109 obs. of 10 variables: 

$ NClient : int 100 123 109 104 117 103 104 111 113 116 ... 

$ Activite : chr "Assurances" "Machines/Outils" "Éducation" "Éducation" ... 
$ NDeCommande » Ant 12345 6 7 8 9 10 :.. 

$ DateDeCommande : chr "03.01.2000" "03.01.2000" "03.01.2000" "03.01.2000" ... 

$ Article : chr "Compaq Presario 100" "IBM 500" "AST Intel 150" "AST Intel 200" ... 
$ Quantite s: int 122531322442... 

$ PrixParPiece : int 1650 2299 2690 3190 1650 2690 3190 2299 1650 2299 ... 

$ Rabais 2 Chr "1:50" "0-00" "D:005" "D-001" …;; 

$ PrixTotalAvecRabais: num 19503 4598 13450 9570 21128 ... 

$ FacturePayee » Chr ‘“Onui® Qui” "Oui" "Oui" ;.. 


> df <- datastep(df,!{ 


ms 
- if (PrixTotalAvecRabais >= 15000) 

+ Remise <- "Oui" 

- else 

_ Remise <- "Non" 

rs 

S à DateExtraction <- "01.01.2003" 

s 

E if (Article == “IBM 500") 

- Taxe <- TRUE 

rs 

+ }) 

> str(df) 

‘data.frame': 109 obs. of 13 variables: 

$ NClient : int 100 123 109 104 117 103 104 111 113 116 ... 

$ Activite : chr "Assurances" "Machines/Outils" "Éducation" "Éducation" ... 
$ NDeCommande : int 12345678 9 10 ... 

$ DateDeCommande : chr "03.01.2000" "03.01.2000" "03.01.2000" "03.01.2000" ... 

$ Article : chr "Compaq Presario 100" "IBM 500" "AST Intel 150" "AST Intel 200" ... 
$ Quantite s'Ant 122 5413122842: 

$ PrixParPiece : int 1650 2299 2690 3190 1650 2690 3190 2299 1650 2299 ... 

$ Rabais : chr 1.50%" "0.00%" "0.00%" "0.00%" ... 

$ PrixTotalAvecRabais: num 19503 4598 13450 9570 21128 ... 

$ FacturePayee » cher ‘Oui "Oui" "Oui" "Oui" 

$ DateExtraction : chr "01.01.2003" "01.01.2003" "01.01.2003" "01.01.2003" ... 

$ Remise : chr "Oui" "Non" "Non" "Non" ... 

$ Taxe : logi NA TRUE NA NA NA NA ... 


v 


Etc. Pour plus d'infos sur le groupement et autres options, voir la documentation du package! 
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Exemple: Comparaison de data frames 


Nous allons voir ici un survol du package diffdf qui peut s'avérer très utile dans certaines 
situations (renvoi régulier de data frame par des clients externe/collègue d'un autre 
département avec modifications régulières). 


Ce qui va suivre est simplement un copier/coller traduit en français de la vignette disponible 
ici: 


https://cran.r-project.org/web/packages/diffdf/vignettes/diffdf-basic.html 


On va d'abord charger les données de l'exemple ainsi que le package: 


GR File Edit View Misc Packages Windows Help a x| 
CFUsEC SE | 


> mydata<-read.csv("c:/tmp/CompareDataframe.csv",header=T, sep=";") 


> mydata 

ID GROUP1 GROUP2 INTEGER BINARY DATE DATETIME CONTINUOUS CATEGORICAL LOGICAL CHARACTER 
| À 1 1 41 M 2003-06-22 2000-11-28 20:40:53 21.62687 c FALSE czNCZ58ZzIvM 
2 1 2 41 F 2016-12-03 1994-08-30 19:05:02 26.47256 c TRUE YithbnzPt6P3xRXmL1IFBw3z 
3 3 1 3 41 M 2016-05-08 1992-09-11 11:30:18 16.12255 A TRUE Wsixhy7Vp894V9b 
3 4 1 4 32 M 2015-06-02 2007-11-12 11:28:29 23.476854 c TRUE uatNHn9wSNV 
5 S 1 5 55 F 1986-04-15 1998-08-04 01:27:49 21.20108 A TRUE BPCEVZhU2xL6 
6 6 1 6 33 M 1994-05-25 2001-12-05 08:24:35 46.92355 A TRUE OiCTNtA£NCS 
E' A 7 1 7 40 F 2009-02-08 1986-11-02 18:13:03 28.21110 A TRUE g4YhliweUi 
8 8 1 8 44 F 2020-07-21 1998-08-22 05:23:24 27.65611 A FALSE 3QcjumCbGjgsg 
9 9 1 9 51 F 1967-05-25 2003-01-03 22:09:29 22.02877 c TRUE cMo8 7KmHAIO 
10 10 1 10 40 M 2044-03-11 1996-04-19 11:10:12 40.85163 B FALSE pvnxMdEPOFS 
ir 1 11 40 M 2001-02-02 2001-05-25 09:25:26 33.85712 A FALSE KDx7126vJZVqP 
12 12 1 12 45 F 2021-09-18 1999-12-25 02:20:59 36.37379 A FALSE Khe7410WgFTr 
13 13 1 13 48 M 2020-06-17 1978-12-06 07:43:56 31.94585 B TRUE IHMYSSB4w 
14 14 1 14 30 M 2035-11-26 1995-06-25 23:07:52 21.92185 € FALSE XHkT4wevVv£4Fs3daW 
15 15 1 15 44 F 2021-10-14 2001-04-04 11:19:43 31.78516 c FALSE Oged9XWMr 
16 16 2 1 39 M 2004-05-29 1995-09-05 08:49:41 15.64697 c FALSE S1VkcOidBLVRs 
11 33 2 2 35 F 2016-09-11 2005-12-01 06:46:44 15.68732 B FALSE NHUVASS 
18 18 2 3 40 F 1986-08-08 2000-03-12 12:47:12 41.36808 B TRUE tlvdirs38YxX 
19 19 2 4 50 F 1978-09-20 1992-12-24 14:24:30 30.54506 c TRUE v7wrPk2VASSLRISAaYO1L 
20 20 2 s 51 F 2006-03-05 2007-02-21 23:21:50 42.59986 B FALSE LN2Xnoo851If 
21 21 2 6 45 M 2031-01-25 1995-07-11 17:13:39 34.02535S B TRUE eaL93r8K7Np4GeVNv 
22 22 2 7 44 M 1998-08-26 2001-02-09 20:49:32 50.85575 B TRUE OgHM3RDaECPE 
23 23 2 8 42 M 2005-02-22 1999-03-30 08:12:24 23.52028 cC TRUE 0kQtaq6véntag 
24 24 2 s 34 M 2002-03-25 1997-07-12 12:26:53 31.01492 B FALSE w9BYbGGi0OUSSI 
25 25 2 10 37 F 2022-02-01 1994-09-13 10:38:53 34.136827 B TRUE Lxn56Eu 
26 26 2 11 37 M 1998-01-01 2012-12-02 21:49:49 39.23846 B TRUE ImcKOSKOKvA 
2721 2 12 44 F 2024-01-05 1998-04-06 04:42:27 48.79333 B TRUE AYZnijBM6 
28 28 2 13 47 F 2001-08-26 2000-09-25 22:43:09 43.25825 EN TRUE Z6AijFcIMwWSKIx 
29 29 2 14 ai F 1994-08-20 2007-05-20 12:17:27 37.41091 c TRUE SATSKW8M1P7h 
30 30 2 15 41 F 1951-11-22 2007-12-30 19:37:24 26.73231 c TRUE GcklrCCs 


R RGui (64-bit) - [R Console] _ = 


8 File Edit View Misc Packages Windows Help …_ EX 


> diffdf (mydata,mydata) 
[No issues were found! 
|> | 


Comparons les 2 data frames avec une colonne en moins: 
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R RGui (64-bit) - [R Console] = 


| ŒR File Edit View Misc Packages Windows Help ex 


> mydata2 <- mydata 

> mydata2 <- mydatal,-6] 

> diffdf(mydata ,; mydata2 , suppress warnings = T) 
|Differences found between the objects! 


À summary is given below. 


There are columns in BASE that are not in COMPARE !! 
All rows are shown in table below 


Avec différentes lignes: 


| a 
GR RGui (64-bit) - [R Console] — 


R File Edit View Misc Packages Windows Help a: 


A0 GE|OE 


> mydata2 <- mydata 

> mydata2 <- mydata2[1:(nrow(mydata2) - 2),] 

> diffdf(mydata, mydata2 , suppress warnings = T) 
Differences found between the objects! 


A summary is given below. 


| ; e 
There are rows in BASE that are not in COMPARE !! 
All rows are shown in table below 


Différentes valeurs: 
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R RGui (64-bit) - [R Console] = 


ŒR File Edit View Misc Packages Windows Help x 


> mydata2 <- mydata2 

> mydata2 [5,2] <- 6 

|> diffdf(mydata2, mydata, suppress warnings = T) 
Differences found between the objects! 


A summary is given below. 


There are columns in BASE and COMPARE with different classes !! 
All rows are shown in table below 


| There are rows Be COMPARE that are not in BASE !! 
| All rows are shown in table below 


On peut mettre en évidence les lignes qui ont aussi des différences avec la fonction 
diffdf_issuerows ) : 


| MR RGuï (64-bit) - [R Console] — 


ŒR File Edit View Misc Packages Windows Help 5 x 


EF EE 


> iris2 <- iris 
[> for (i in 1:3) iris2{[1i,i] <- 99 
| > diff <- diffdf( iris , iris2, suppress warnings = TRUE) 
> diffdf_issuerows( iris , diff) 
Sepal.Length Sepal.Width Petal.Length Petal.Width Species 
| 1 5.1 3.5 1.4 0.2 setosa 
2 4.9 3.0 1.4 0.2 setosa 
3 4.7 3-2 L:3 0.2 setosa 
> diffdf issuerows( iris2 , diff) 
Sepal.Length Sepal.Width Petal.Length Petal.Width Species 
| 1 99.0 3.5 1.4 0.2 setosa 
2 4.9 99.0 1.4 0.2 setosa 
, | 4.7 = Pr 99.0 0.2 setosa 
r À 
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11. Créer des diagrammes/graphiques (Data Viz) 


Nous allons dans ce chapitre voir seulement des diagrammes de ce qui est typiquement 
demandé pendant les études obligatoires (les graphiques allant au-delà seront vus dans les 
chapitres thématiques de chaque domaine de spécialisation). 


Voici d'abord une gallerie de tous les types de graphiques (205) existants à ce jour et faisables 
avec R et dont l'élaboration est présentée dans ce livre: 


LR *] e7 
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Je ne suis personnellement pas un fan de l'utilisation des graphiques en statistiques (on passe 
trop de temps à bricoler le design plutôt que de réfléchir à la robustesse du modèle ou de 
chercher pour de meilleurs modèles existants). Donc si jamais j'améliorerai les graphiques 
donnés ci-dessous en fonction des questions des participants et étudiants qui suivent mes 
Cours. 


Au niveau esthétique (du moins à l'écran!) vous verrez que sommes très loin de ce qu'un 
tableur comme Microsoft Excel 2007 ou ultérieur peut faire (ce qui mafîtrisent totalement 
Microsoft Excel me comprendront). De plus le comportement de R est simplement 
catastrophique lorsque l'utilisateur redimensionne la fenêtre contenant un graphique. 
Cependant, techniquement, R est plus puissant et plus flexible (dommage que Microsoft 
n'ajoute pas de nouveaux graphiques à Excel depuis ces 20 dernières années...). 


Avant de commencer ce chapitre, nous recommandons fortement au lecteur de visiter le site 
suivant: 


https://wWww.r-graph-gallery.com/ 


Pour commencer à faire des graphiques divers élémentaires nous allons essayer d'utiliser 
toujours dans la mesure du possible la même source de données, à savoir: 


Reese SR CR CO 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> setwd("C:/") 
> mydata=read.csv("Ventes.csv",header=T,sep=":") 


> mydata 

N..Client Activité N..de.Commande Date.de.commande Article Quantité Prix.par.pièce Rabais. Prix.total.avec.rabais Facture.payée 
L 100 Assurances 1 03.01.2000 Compaq Presario 100 12 1650 1.50% 19503 .00 Oui 
2 123 Machines/Outils 2 03.01.2000 IBM 500 2 2299 0.00% 4596.00 Oui 
3 109 Éducation 3 03.01.2000 AST Intel 150 5 2690 0.00% 13450.00 Oui 
4 104 Éducation 4 03.01.2000 AST Intel 200 3 3190 0.00% 9570.00 Oui 
S 117 Banques 5 04.01.2000 Compaq Presario 100 13 1650 1.50% 21128,25 Qui 
6 103 Assurances 6 04.01.2000 AST Intel 150 2 2690 0.00% 5380.00 Oui 
7 104 Éducation F 04.01.2000 AST Intel 200 2 3190 0.00% 6380.00 Oui 
8 LL Alimentaire E] 04.01.2000 IBM 500 4 2299 0.00% 9196.00 Qui 
9 113 Construction 9 04.01.2000 Compaq Presario 100 4 1650 0.00% 6600.00 Oui 
10 116 Pharmaceutique 10 04.01.2000 IBM 500 2 2299 0.00% 4598.00 Qui 
11 110 Distribution 11 05.01.2000 AST Intel 200 6 3190 1.50% 18852.90 Oui 
12 112 Machines/Outils 12 05.01.2000 Compaq Presario 100 6 1650 1:50% 9751.50 Qui 
13 123 Machines/Outils 13 05.01.2000 IBM 500 6 2299 1.50% 13587.09 Oui 
LT 113 Construction 14 05.01.2000 AST Intel 150 3 2690 0.00% 8070.00 Oui 
15 115 Distribution 15 05.01.2000 Compaq Presario 100 8 1650 1.50% 13002.00 Oui 
16 124 Éducation 16 05.01.2000 AST Intel 200 8 3190 1.50% 25137.20 Oui 
hr 124 Éducation Le 05.01.2000 Compaq Presario 100 LL 1650 1.50% 17877.75 Oui 
18 106 Construction 18 05.01.2000 AST Intel 200 11 3190 1.50% 34563.65 Oui 
19 101 Construction 19 05.01.2000 Compaq Presario 100 14 1650 1.50% 22753.50 Non 
20 116 Pharmaceutique 20 06.01.2000 IBM 500 7 2299 1.50% 15851.60 Non 
21 112 Machines/Outils 21 06.01.2000 AST Intel 150 6 2690 1.50% 15897.90 Oui 
2 125 Construction 22 06.01.2000 Compaq Presario 100 23 1650 3.00% 36811.50 Qui 
23 100 Assurances 23 06.01.2000 IBM 500 3 2299 0.00% 6897.00 Oui 
24 125 Construction 24 06.01.2000 AST Intel 200 2 3190 0.00% 6380.00 Oui 
25 104 Éducation 25 07.01.2000 AST Intel 150 12 2690 1.50% 31795.680 Oui 
26 126 Machines/Outils 26 07.01.2000 AST Intel 150 24 2690 3.00% 62623.20 Oui 
27 121 Pharmaceutique 27 07.01.2000 IBM 500 E] 2299 1.50% 18116.12 Non 
28 114 Distribution 26 07.01.2000 AST Intel 200 9 3190 1.50% 28279.35 Oui 


Dans le but d'effectuer quelques graphiques classiques de ce tableau mais que Microsoft 
Excel par exemple ne saurait pas effectuer sans un traitement préalable ou sans passer par un 
tableau croisé dynamique. 


S1 jamais comme couleurs dans les graphiques sont souvent utilisées, voici une image qui 
peut être utile qui donne seulement un échantillon des premières lettres de l'alphabet: 
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wihte #EFFEFF 255 255 255 
#FOPFSPF 


antquewhite 1 


6 antquewhi #CDCOBO 205 192 176 


#PF7FS0 255 127 


#Fr7725€ 255 114 


a ———— 


218 10€ 80 | 


139 62 47 
aquamanneé4 
#FOFFFF 240 255 255 
#FOFFFF 240 255 255 
#RUEREE 224 238 229 


255 248 220 | 
€4 comsilk1 #FFFSDC 255 248 220 
€5 comsilk2 #REESCD 238 232 205 
€6 comsik3 #CDCSB1 205 200 177 


18 beige #FSFSDC 245 245 220| 
10 bisque HFFEAC4 255 228 196 
| 20 bisquet #FFEGC4 255 228 196| 

#EEDSE7 238 213 183 
#CDB792 205 193 159 
#eB7DEB 139 125 107 


yann 


darkblue 


blanchedalmond 
blue 

blue 

blue 

blue3 


biue4 


#28008B 139 
#556B2P 

#822323 129 35 35 
#DEB697 222 194 115 
#FFD298 255 211 155 
#ERCS591 238 197 145 
ACDAATD 205 170 125 
#887355 129 115 85 


#FF8co0 
#FF7F00 


#76RE00 #68228B 


#EcDot #8B0000 
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Interfaces d'aide à la construction de graphiques (basés sur 
ggplot2) 


Avant de voir les quelques outils qui permettent de construire des graphiques à l'aide d'IDE, 
voici un petite cheat sheet bien utile sur ggplot2: 


ggplot2 aesthetics cheat sheet 


Use this table to find the right aesthetics for your geoms: 


Aesthetics that usually must be mapped to the data: use inside aes{) 
Aesthetics that can be mapped to the data: use in or outside aes{) 
Aesthetics that cannot be mapped to the data: use outside aes() 


e.g., ggplot(mpg, aes(x = class, y = displ)) + geom_col(aes(lill 


class), width 


‘) 


color linetype fil y xmMax ymax yend shape width angle bhjust label fontface 
group size alpha x xmin  ymin xend weight stroke height radius vjust familylineheight 
sea D 5 © D E ® @ @ area 
wr D8 mme" wm + bar 
bind M © © © D © @ @ bin2d 
boxplot 8-88 5 @ © ED EH Lu Lea boxplot 
col 1-85 IH © @ © —-@— col 
contour 1-58 DB @ @ Le) contour 
contour_filled BE D D D @ @ contour_filled 
count D 5 5 5 © 5 @ @ 5 8 count 
crossbar D 5 D D @ @ ce La crossbar 
cuve EE EE 5 |: @ © .e curve 
density 8 EE 5 D @ @ Le | density 
density 24 1-8 ® D @ @ density_2d 
dotplot 1 E-: 5 D @ @ Lo] dotplot 
erorbar 1-8 5-5 | À ] ce © errorbar 
errorbarh 13-80 5 .ee errorbarh 
freapoly 1 8 DB 6e freqpoly 
be S-9 © 8 5  @ @ ASS Qt ra pra hex 
histogram M @& & & @ 6 @ 6 <— EE | histogram 
jtter D 9-5 D D ES @ @ 5 9 jitter 
label © 56e 5-5 0 5 8 M isbel 
ine D EE BB : 6 © line 
ineranse D © 8 5 M © EE 0 © linerange 
map SE 8 & © © @ © sa d 
path 0-8 5-® DB @ @ path 
point 1-85 5-5 @ © S-S point 
pointrange 1-8 Gi 60556. pointrange 
polyzon EE 5 BE D D @ @ polygon 
quantile D © © @ Œ ce Ca] quantile 
raster [M BDœ60 raster 
ect D © © & © .00e rect 
ribbon D-S O5 5 & @ © 5 5 EE ribbon 
ne 8-8 8 ce rug 
segment 8-80 ce ee segment 
smooth DE ED D ES @ @ es 8 smooth 
spoke 5-8 &- 5 &-:. @ 0: 1 .e spoke 
sep D 8-8 SE: @ @ step 
tt BD: B. 060 5-9 650 8 5 EH tx 
tie D _3-5 D ES 6 0 ü tile 
violin IE @ El D D E @ © [os] violin 
group Size alpha x xmin  ymin xend weight stroke height radius vjust familylineheight 
color linetype fill ÿ xmax ymax yend Shape width angle hjust label fontiace 


© usually must be inside ses) D canbeinsideaes) <@ must be outside aes() 


idea and design: Christian Burkhart 
design advice: |da Aarnio 
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Package ""Mosaic" 


S1 vous êtes un utilisateur R Studio et ggplot2, vous allez probablement adorer le package 
mosaic et sa fonction mPlot() qui permet un peu à la façon de Microsoft Excel et Matlab, de 
personnaliser des graphiques avec un assistant, et d'en obtenir automatique le code équivalent: 


File Edit Code View Plots Session Build Debug Profile Tools Help 
0)-|Œ|æ - * Addins + 
Console mn) Environment History Connections 
> library("mosaic") 2 HT import Dataset - _# 
> mPlot(iris) 
choose a plot type # Global Environment + 
Functions 
1: 1-variable (histogram, density plot, etc.) f ti 
2: 2-variable (scatter, boxplot, etc.) qq unction O 
3: map 
selection: 2 
> 
Files Plots Packages Help Viewer 
= Æ Zoom | -23 Export - | © ri 
Manipulate » 
Show Expression 8 
Graphics System: | ggformula Fe 5 5 : 
. 
Type of plot: |scatter sé . 
. 
L] L 
Any variable (x): |SepalWidth + 7- T : 
ue 
Quant. variable (y} Sepallength . ë x . . 
E . . . 
Color: |none SA El . . 5 ô : EE . 
œ L] ) D | [2 
4 . CCE 
Facets: none bé m6- Oo LI n° L 
& L] L 
... 
o L] L] L] LEE] 
Model: none x . CRC 
.... 
L] L 
Key: |right sê é À 
L LEE 
5- e . . . 
Size (gg only}: |none " CE . 
LEE] L 
. 
log scales: |none Y r, CPR Ê 
.. . 
Flip coordinates 1 
2.0 2.5 3.0 
Sepal.Width 


À Project: (None) 


List » 


“&, Publish + 


40 45 


Une fois qu'on connait ce package, il n'y plus qu'à jouer avec l'engrenage visible dans le coin 
supérieur gauche du graphique et les options qui s'y trouvent!!! 


S1 jamais on pourrait dire que son son pseudo-équivalent en ligne est: 


https://shiny.gmw.rug.nl/ggplotgui/ 
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Package ‘'esquisse" 


Enfin sachez qu'il existe à ce jour un package nommé esquisse (existant depuis 2017) qui 
permet de construire (à l'aide de RShiny sur Mac, Linux ou Microsoft Windows) ses 
graphiques visuellement un peu comme dans Microsoft Excel et ce à l'aide de la fonction 
esquisse( ): 


BR File Edit View Misc Packages 


> library("esquisse") 
> esquisser(data=iris) 
Loading required package: shiny 


Windows Help 


Listening on http://127.0.0.1:6237 


Ce qui va lancer une interface RShiny, intitulée ggplof2 builder dans votre navigateur: 


B :27.0.0.1:6237 X + FA X 


« 88 © 127001 08 


# ggplot2 builder 


© eo ex Peta.Lengih 


% lhanca data 


A Labels & Title & < Plot options & Y Data = </> Export & code æ 


Avec un certain nombre d'options très intuitives: 
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B :270.0.1:6237 X | + FT X 


< BB © 127001 08 


# ggplot2 builder 


© © Sepal.Length À Sepal.Width À Petal.Length À Petal.Width 
Q Length ] DT Sepal.Width l : CD HN Petal.Width 
&) Auto Line 
L 1 
Ps . 
D . 
2 
e 
= Petal Width 
Bar Histogram + ee . © Le 005 
c e e :0 
= L2 LA L 
= . e. & e © :: 
d d Le e @ 2: 
© F ‘ e 2e ge » e:: 
Point Box \ e 2. EE TT ES : e ho” LAS Species 
2°2 se252° e a & ® setosa 
e e e © versicolor 
f 4 e H e F4 - : & e . His 
ft e 
e e e 
Violin Density ® e 
e 
5 6 7 8 
Sepal. Length 
D = 
sé +#& Plot options & Y Data « </> Export & code æ 


N'espérez toutefois pas, à ce jour (!), toutes les possibilités que l'on peut atteindre en écrivant 
le script soi-même. ..! Cependant il est intéressant de noter que cela permet de gagner 
beaucoup de temps puisqu'on a un bouton d'expoñt (génération) du script qui prémâche une 
grande partie du travail: È 


Copy to clipboard 
Code: 


ggplot(data = iris) + 
aes(}) + 
geom_blank(}) + 


theme _minimal() 


Q Insert code in script 


Export: 


£a) PNG [) PowerPoint 
<«/> Export & code & 
EE 
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Package ""Deducer" 


Un autre package aidant à la construction de graphique est le package Deducer avec son 
complément qui est la package DeducerExtras (il faut absolument installer ce dernier pour 
avoir accès aux options des graphiques). Cependant il fonction avec le runtime Java, doit il 
faudra que ce dernier soit installé sur votre machine... 


Une fois le package Deducer chargé, on lance l'interface Java à l'aide de la commande 
JGR(): 


Œ RGui (32-bit) - [R Console | : 


OR File Edit View Misc Packages Windows Help Deducer Data Analysis Plots IX 


> library("Deducer") 

Loading required package: ggplot2 
Loading required package: JGR 
Loading required package: rJava 
Loading required package: JavaGD 


| Please type JGR() to launch console. Platform specific launchers (.exe and .a$ 


Loading required package: car 
| Loading required package: carData 
| Loading required package: MASS 


| Deducer has been loaded from within the Windows Rgui. 
| For the best experience, you are encouraged tS 
downloaded from: http://jgr.markushelbig.org/ 


| > JGR() 


SET "PATH=C:\Users\Vincent Isoz\Documents\R\win-library\3.S\rJavaljri\i386;c:S | 
| SET "R_HOME=C:/PROGRA-1/R/R-3.5.1" 
| SET "R_ARCH=/i386" 
| SET "R_LIBS=C:/Users/Vincent Isoz/Documents/R/win-library/3.5;C:/Program FileS | 
SET "R_LIBS USER=C:\Users\Vincent Isoz\Documents/R/win-library/3.5" 

* he Files (x86)\Java\jre1.8.0 181/bin/java.exe" -cp "C:\Users\Vincent$ 
> 


Ce qui ouvrira à l'écran: 
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LA Conso 


File Edit Workspace Packages & Data Window Help 


… dE hu vLFr © 


R version 3.5.1 (2018-07-02) -- "Feather Spray” 
Copyright (C) 2018 The R Foundation for Statistical Computing 
Platform: i386-w64-mingw32/i386 (32-bit) 


R is free software and comes with ABSOLUTELY NO WARRANTY. 
You are welcome to redistribute it under certain conditions. 


Type 'license()' or ‘'licence()' for distribution details. 


R is a collaborative project with many contributors. 
Type ‘'contributors()' for more information and 
*“citation()'" on how to cite R or R packages in publications. 


Type 'demo()' for some demos, ‘'help()' for on-line help, or 
‘“help.start()' for an HTML browser interface to help. 
Type ‘'q()' to quit R. 


[1] "Sat Oct 06 21:37:43 2016" 

> 

Loading required package: JGR 
Loading required package: rJava 
Loading required package: JavaGD 
starting httpd help server ... done 
> 


| 


Ensuite, on charge le package DeducerExtras (en ayant pris soin de l'installer auparavant 
évidemment...) ce qui aura pour effet d'ajoutersde nouveaux menus à la console comme 


visible ci-dessous: 


@ Console = (a 
File Edit Workspace Datal Analysis Plots Extras [Packages & Data Window Help 
) (y Au vLF © à 


- = TSZ=DITT 


R is free software and comes with ABSOLUTELY NO WARRANTY. 
You are welcome to redistribute it under certain conditions. 
Type 'license()' or ‘'licence()' for distribution details. 


R is a collaborative project with many contributors. 
Type "contributors()'" for more information and 
“citation()' on how to cite R or R packages in publications. 


Type "demo()' for some demos, 'help()' for on-line help, or 
‘“help.start()' for an HIML browser interface to help. 
Type 'q()' to quit R. 


[1] "Sat Oct 06 21:37:43 2018" 

> 

Loading required package: JGR 
Loading required package: rJava 
Loading required package: JavaGD 
starting httpd help server ... done 
> library("DeducerExtras") 
Loading required package: Deducer 
Loading required package: ggplot2 
Loading required package: car 
Loading required package: carData 
Loading required package: MASS 
Loading required package: irr 
Loading required package: lpSolve 
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Ensuite on charge un jeu de données comme par exemple (pour faire original...) le jeu iris: 


@ Console = Ü 


File Edit Workspace Data Analysis Plots Extras Packages & Date Window Help 
[ A c + 
J VE he vUrF © na 


R is free software and comes with ABSOLUTELY NO WARRANTY. 
You are welcome to redistribute it under certain conditions. 
Type 'license()' or 'licence()' for distribution details. 


R is à collaborative project with many contributors. 
Type 'contributors()' for more information and 
‘“citation()' on how to cite R or R packages in publications. 


Type ‘'demo()' for some demos, 'help()' for on-line help, or 
‘“help.start()' for an HTML browser interface to help. 
Type ‘q()' to quit R. 


[1] "Sat Oct 06 21:45:37 2018" 

> 

Loading required package: JGR 
Loading required package: rJava 
Loading required package: JavaGD 
starting httpd help server ... done 
> library("DeducerExtras") 

Loading required package: Deducer 
Loading required package: ggplot2 
Loading required package: car 
Loading required package: carData 
Loading required package: MASS 
Loading required package: irr 
Loading required package: lpSolve 

> data(iris) 

> v 


Et on va dans le menu Plots/Plot Builder: 


File Edit Workspace Data Analysis Plots Extras Packages & Date Window Help 


du «+ RE é + 
Import Temflate 


R is free software and comes with Open Plot 
You are welcome to redistribute i À 

| | Quick > 
Type 'license()' or 'licence()' f 


ns. 


Interactive > 


R is a collaborative project with 
Type 'contributors()' for more information and 


Ce qui va ouvrir: 
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[$&) Plot Builde = [] 
File Tools Window 
| Templates Geometric Elements Statistics Scales Facets Coordinates Other 
| /\ LA La. : 
VAN +4 
tempiese 
rs pad Penn del mnt sis sun mean 
bar density | dotplot | dotplot D 
LÉ > 
Components 
Drag a component from above 
Select a plot type: 
L f 
a 
np Hengiste template Rerngisse 
histogram bar mean scatter 
grouped grouped histogram pal La Ce] 
dotplot line 2d 
© | Run Reset Cancel 


Et ensuite y'a plus qu'à... 


Pour information cette interface génère aussi le code ggplot2 dans la console qui est en arrière 
plan!!!! 
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Pour ceux qui veulent en savoir plus sur ggplot?, ouvre le livre de Daname Kolani sur le sujet, 
voici un cheatsheet sur ce package qui le résume assez bien de manière non exhaustive: 


Les Graphiques 
avec ggplot2 


re 


ice mémo 


Estucis 


pu eine cod aque eue ma aise 
æechiques à pers” Sun méme pet nombre 
d'éteiner 2 uni jeu de dunes, 1e verbe de 
gramme ire Mes à qui repréanntent les paiare 
de donnees etur système de cocdonnsss. 


re aadtener Bou done, Lou urtrace 
ess table. du jeu de dit 2e ent Lau Je 

praprétés crrnâtiquen ds Est dan be, rein 
ex. 


er mreg 228 02 0 rent avec aapletl) 0 aplet(] 


apiotiesr, 7 eh robe nf rase mas gare pret} 
Sénè un 27229 2.2 complet à par” 224donnéce du 
En at den pare dan sathätiques parndr an mures 
+ gg de mn nm par aentnen era re ailes 
ras T°s RME ali 

Initial ere ceenpléter en pra dos 
calque. \n'yarezde. psrcétar mairces 


ec tref pes Ve vont yée vue gpl! 


Dr ajuube 511 salu ue a un gran tique eve, Lite 
Enetier grom_*Ù eu star_*{) Chacur gérer 
un go, un ensemble Se 2ncpreres euthét cie 
el ur chsque valeur. 


Rheirile De dei Lt Vue 


Rasanel" plot.pag”, width — :, herghnt- 2} 
fauvegarce ces l'espece de tresal le dernier grep que 
affichre chants ait listes lol" de Jimi ue G 49. Le 
type fe fehler généré dépent diner de 
Ters2z.on de vom de h: 1er rdiquée. 


Most D> sincen: Sapedsr DUREE 


Creer calque srnrirriq senée den nr rainn 

res qui modifient l'a: rage Ces 
venales utlisent la smtaxe commune: nor. 
Les Husrdhius ve v8L el veu vi Quribinent chusvus ur val 
un spam peur nodules en eaique, nor racmple 
stat Einigecen-"bar® rene s geom bar(stez-" bin”| 


Listes | 
1 atat_ dont {anal - level. 1, 
gevim "poly gun ‘1 100) 


«vale Jnieésimadd. -2 2 mie 30) péciciactiatth 
al te. Ode aire aidé 
DETTES ECTS 

El ut rent 

2 stat denmylaqunes Kenei gants an) 

tn |-seut cond. amies 


Fe 2e bnaaiDins 7 su,@r0c T2U2) 
SAM se Leone 
Le dus mea 251 
Sa Le one 
D de den ad te 


DETTE TEE 


de = JE 0220 
DEEE) 


TE EE] 
ETES 

C2 value # de- dÙ 
arr 122,2, 000, 7, rat | 24e 
Le aretendens bine35 one nd 
nr ie 

2 nt immar Pd{aaree me, none m0 tn ma 
TM ue 


2-stat bosplotlecer LE, 

My] der. 700258. DD. DAFT. 
a -shelrsemilglanul-: mie amants ace tend] 
sel dernite. te. avant 2 ie eme. 


Eau sed =) 
AN ere 
D Que quart deg ant ane AO LE PTT she ny Ag 
rade "1 
4 AUNÈE. Ls. 

de mdbérielinse "ant, 
[ras FLE, are = 088) 
CORNE rs 
Dee. dat_nnetinniant ve 3°), pénttil 


Fnmene muni, manne 7) 


3 Vaiissies 


Cassaitæ 


ninans en ee PSE en, 


14 at aummaryitn she mean à booït 
Le mat uniquEi] 


Continue 


a gupt lime, es try 
à pram_areai stat — "bin" 


à peur doute lt 
D Xp, Fr eee 
= eur reupuiyl: 
Ba ent 
b+xe2m frecohaest cer 2ov.il 


n-fram_hetagreminimmeir"h 1} 
Praha cu, 1, Ermtypes, Lee we + 
h 1 gram Riragrnr ! nnslye nent À 


Discrète 
ve poor, estlll) 
L + geuum var () 
4 nalstrs. ler HI lirelypee, see vasuhil 


lang, af 


rifertinin ao 
Libte-pram_polyrene 2e in -gmin)| 
à valpha re ar À note, ne 


= gui fever romnio ae fu ie, ur rermiitoy 


de prnm_pathi moon nié 
iirejoir="rourd’, . rerisreli 

ste. cols, lnetype, 2œe 

à + peut ribbuntsecyminuwnenuy $0C, 
ymrunemp y NÉIh 

jen, in, nan ralrr fl linnryne, 


2 gupustioesle ei 


lung y — Lab) 
Spen segmentisez! 
ong Cezs long, 
— late! stat) 
à ser, y, pri fes, pitar, Mirlippe nie 


sram_rretiocahemin — ang vrrin bot 
eme Inn drirn | kg 

yrranelezi Sets lat 

ne, man, an. ymun, s:2ha, ccler fl 
linetype, 22e 


2 tt a atratemans It be, ne LMP. code mens - Pa au 47e) mon 


Echelles (Scales 
Les + Dead + our ts ele Sont sir Uu à ictte 
Doudou Se 
us mlauee Bot moe le ten, ajtade urre url 


LIRE TROT IEEE CECENCYRTTEE ET TUCONTE 
At: 2er vec tUZ parametres ere ques 
alta, color, | L Gretpe, ape alee 
scalc_*_condmucus(i échelle cerzss 
scnle * discrete) échelle dre 
sesle_"_identils}) echelle ver Le 


Fineememer nor dilen ele et 
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Exemple 103.: Diagrammes à textes 
R 3.2.1 


Les diagrammes de types textes sont les diagrammes les plus simples et les plus brutes que 
l'on puisse probablement concevoir. Pour voir de quoi 1l s'agit nous allons travailler avec le 
jeu suivant: 


R RGui {64-bit) - [R Console] = 0 
R fie Edit View Misc Packages Windows Help 6 


> mydata<-read.csv("c:/tmp/CountriesGNI.csv",header=T,sep=";");mydata 


iso3 country continent population GNI 
1 ABW Aruba North America 108 (a) 
2 AFG Afghanistan Asia 34385 410 
3 2GO Angola Africa 19082 3960 
4 ALE Albania Europe 3205 3960 
5 ÀRE United Arab Emirates Asia 7512 0 
6 A1RG irgentina South America 40412 8620 
7 ÀRM Armenia Asia 3092 320R 
8 À5n American Samoa Oceania 68 (a) 
9 ATG Antigua and Barbuda North America 88 13280 
10 AUS Australia Oceania 22299 46200 
11 AUT Austria Europe 8390 47030 
12 ÀAZE Azerbaijan Asia 9054 5330 
13 BDI Burundi Africa 8382 170 
14 BEL Belgium Europe 10896 45840 
15 BEN Benin Africa 8850 780 
16 BF Burkina Faso Africa 16468 550 
17 BGD Bangladesh Asia 148692 700 
18 BGR Bulgaria Europe 7534 6280 
19 BHR Bahrain Âsia 1262 0 
20 BHS Bahamas North ämerica 343 22240 
An à BIH Bosnia and Herzegovina Europe 3760 4770 
22 BLR Belarus Europe 9490 5950 
23 BLZ Belize North ämerica 345 3810 
24 BMU Bermuda North ämerica 65 (a) 
25 BOL Bolivia South America 9929 1810 
26 BRài Brazil South imerica 194946 9390 
27 BRB Barbados North America 274 (a) 


D'abord, nous allons structurer cela sous forme d'arbre en construisant une colonne 
concaténée: 
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R Roi t6a-b ti - IR Lcuçole 
R File Ed View Misc Fackages Windows Help 


SAONE 


Sciences.ch 


> mydataSpatkScring <- paste("vorld", mydata$concinent, mydataicounccy, sep = "/") 


> Wydara 
isc3 

1 AEU 
à AFG 
3 41GQ 
4 ALE 
5 ARE 
5 AFG 
7 AFIN 
El LE 
a ATC 
iv AUS 
11 AUT 
2 AZE 
13 BDI 
14 BEL 
15 DEN 
16 BF 
17 3GD 
18 3CR 
19 BER 
20 DES 
21 BIE 
22 ÎLE 
23 817 
Z4 SEU 
25 BOL 
26 3Fà 
27 DRE 
28 BRN 
29 DIN 
30 BK 
31 CaF 
32 CAN 
83 CHE 
34 CEL 
35 CHEN 
16 Ciy 
37 CHF 
35 coc 
39 COL 
40 CO 
41 CFYV 
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country 

Aruba 

Afghanistan 
Angola 

Libania 

United àrak Emirates 
Argentina 
lrmenia 

Arerican Saroa 
Antigua and Barbuda 
Australia 

Auarria 
Azerbaijan 
Durundi 

Belgium 

Eenin 

Burkina Faan 
Esangliadesh 
Bulgaria 

Bahrain 

Dahauras 

Bosnia sand Herzegovina 
Belarus 

Belize 

Becruda 

Bolivia 

Brazil 

Barbados 

Brunei Derusealam 
Lrutan 

Bot smana 

Ceutral Atrican Fepublic 
Canada 
Sxitzerland 

Chile 

China 

Core d'ivoire 
Cameroon 

Congo 

Colcwbia 

Comoros 

Cape Verde 


contivent population GNI path$tring 
Nortk America 1UE (] vorid/North imerica/2Aruba 
ain 34388 410 amor 1d/Bsia/ àfghaniatan 
Africa 1AUëZ 3560 korid/Atrica/ingola 
Europe 3205 3960 vorld/Europe/ Albania 

àäsia 7512 ] wvorid/Asia/United àrak Emirates Fr 
Soutk America 40412 G€20 verld/Southk America/dirgencina 
äsia 3092 3200 vor id/Asis/ Armenia 
Oceania LE Ù vorid/Oceania/iverican Savon 
North America 8E 13280 vorlid/Norch America/Antiqua and Barbuda 
Oceania 222955 45200 vor ic/Oceanuia/Australia 
Eurone 8390 47030 vorld/Furope/ Austria 
asia 9054 5330 vor ld/Asia/Azerbaijan 
Africa 93€2 170 vorid/africa/Durundi 
Europe 108Sé 45840 vorld/Europe/Belqgium 
Africa QUEU  7E0 vorid/Atrica/Eenin 
Africa 16468 ss vorld/Africa/Burkina Faso 
isia 143552 +00 worid/isia/Eangladesh 
Euroye 7534 65260 vorld/Europe/Buloar ia 
asia 1262 ] vor lé/Asis/Bahkrain 
Nortk America 343 22240 worid/North America/Dakavas 
Europe 3760 4770 mor ld/Evrope/Bosnia and Herzegovina 
Europe 3480 3550 vorld/Europe/Delarus 
North Eimerica 348 3810 #morid/North America/Belise 
Nortk America €s e] vorid/North Americs/5Secruda 
Soutk America 9929 1610 vorid/South Amsricc/Bolivia 
South America 194946 9350 woclid/$outh äverica/Bcazil 
Nortk America 274 e) vorid/North America/Darkados 
Asia 35ç a rarlid/Asis/Brunei Darussalam 
Asia 726 1070 vor 1d/As1s/Dhutan 
Africa 2007 4740 “orld/Africs/Botsmana 
Atrica 4au1 470 voric/itrica/Central Atrican Republic 
North America 34126 413220 vorld/North imerica/Canada 
Europe 782é 71520 «or 1d/Eurupe/Svitzer land 
Soutk America 17114 10120 vorld/Touth Aimerica/Chile 
Asia 1338300 4270 mor id/Asia/China 
Africa 19798 1160 vorld/Africa/Cote d'Ivoire 
Africa 19555 1200 wor 1d/Africs/Cameroon 
Atrica 40435 2240 vor 1/ A£r1ca/ Congo 
Soutk America 46295 5510 vorlis/South Americs/Colonmhbia 
Aîrica 735 750 vorld/äifrica/Comorus 
Africa 4S6 3270 vor1id/Afrisa/Cape Verde 
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Ensuite avec la fonction as.Node() du package data.tree nous construisons un arbre: 


R RGuiï (64-bit) - [R Console] — O x 
R File Edit View Misc Packages Windows Help ALE: 


BOSS) 


> library(data.tree) 
> n<-as.Node (mydata!{,]) 
>n 
levelName 
world 
!--North America | 


d 
à 


--Antiqua and Barbuda 


ù 
; 


Belize 

—-Bermuda | 
—-Barbados 

--Canada 

--Costa Rica 

--Cuba 

--Curacao 

--Cayman Islands 
—-Dominica 
--Dominican Republic 
--Grenada 
—-Greenland 
--Guatemala 
--Honduras 

—-Haiti 

--Jamaica 

--Saint Kitts and Nevis 
—-Saint Lucia 
--Saint Martin 
--Mexico 

—-Nicaragua 


--Puerto Rico 
-—-El Salvador 
--Sint Maarten (Dutch part) 
--Turks and Caicos Islands 
--Trinidad and Tobago 
--United States of America 
--Saint Vincent and the Grenadines 
--United States Virgin Islands 
Asia 

--Afghanistan 


: 
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Figure 35 Graphique d'arborescence textuelle 


Et nous allons limiter la taille de l'arbre en prenant une distance alphabétique: 
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R RGui {64-bit) - [R Console] 
R File Edit View Misc Packages Windows Help 


> printin, pruneMethod = "dist", limit = 20) 
leve 1Name 
world 
--North imerica 
--iruba 
--Antiqua and Barbuda 
;--Bahamas 
°--,.. 30 nodes w/ O0 sub 
——-Àsia 


--ifghanistan 


' 
--United irab Emirates 
°--,.. 45 nodes w/ O0 sub 

Africa 
--Angola 
--Burundi 
°--,.. 52 nodes w/ 0 

--Europe 
{--Alhbania 
|--Austria 
°--,.. 41 nodes w/ 0 

--South imerica 
--irgentina 
--Bolivia 
°--,.. 10 nodes w/ 0 

--Oceania 
--imerican Samoa 
!--iustralia 
°--,.. 16 nodes w/ 0 


Om mm mm mm mm mm mm mm mm mm mm em = = == = =— —— 


Nous pouvons directement accéder à un des nœuds: 


R RGui (64-bit) - [R Console] — 
E File Edit View Misc Packages Windows Help = EX 


ÉBROISCSINIE 


> n$Europe$Switzerland$population 
[1] 7826 
>| 


R 


On peut jouer à ajouter des statistiques (on reconnaîtra une structure assez ressemblante aux 
tableaux croisés dynamiques dans les tableurs): 
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Sciences.ch 


R RGui {64-biti - [R Console] 


> northäm <- n$'North ämerica' 


North imerica 
i--United States of America 


l 

l 
[a] 
œ 
D 
œ 
rex 
® 


-Bahamas 

—--Puerto Rico 
--Trinidad and Tobago 
-—-Antigua and Barbuda 
--Saint Kitts and Nevis 


1 
2 
3 
4 
5 
6 
7 
8 
9 


H 
H © 


--Grenada 
23 nodes w/ O sub 


Om mm mm mm mm mm mm mm 


v 

nr 
| 
Û 


mA elnameesmane lan rca anus er 


Ni 
197 
32 
20 
154 


Va 


R File Edit View Misc Packages Windows Help 


> northäm$Sort ("GNI", decreasing = TRUE) 
> print (northäm, "“iso3", "population", 
levelName iso3 population 


"GNI", limit = 12) 


Ni 
309349 
34126 
343 
3978 
1341 
88 

52 
113423 
3517 
104 
Ni 


GNI 
Ni 
47340 
43250 
22240 
15500 
15380 
13280 
11830 
8930 
6970 
6960 
Ni 


Nous pouvons aussi agréger des sous-totaux et trier les résultats: 
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R RGui (64-bitj - [R Console] — O X 
R File Edit View Misc Packages Windows Help 
ñ 
> n$Sort{attribute = "population", decreasing = TRUE, recursive = TRUE) 
> n$Do(function(x) Cumulate(x, "population", sum, "cumPop")) 
> printi(in, "population", "“cumPop", pruneMethod = "dist", limit = 20) 
levelName population cumPop 
1 world 6727766 6727766 
2 i--Asia 4089247 4089247 
3 8 --China 1338300 1338300 
4 : i--India 1224615 2562915 
5 ! --Indonesia 239870 2802785 
6 ! °--,.. 44 nodes w/ O0 sub NA NA 
+ i——-Africa 954502 5043749 
8 - --Nigeria 158423 158423 
9 : --Ethiopia 82950 241373 
10 ! °--,.. 52 nodes w/ 0 sub NA NA 
11 !--Europe 714837 5758586 
12 ; ;--Russian Federation 141750 141750 
13: ! | --Germany 81777 223527 
14 ! °--,,. 41 nodes w/ O0 sub NA NA 
15 :--North America 540446 6299032 
16 : i--United States of America 309349 309349 
17 :! :--Mexico 113423 422772 
18 ! °——-,.. 31 nodes w/ O0 sub NA NA 
19 ;--South America 392162 6691194 
20 ; i--Brazil 194946 194946 
8e : --Colombia 46295 241241 
22 ! °——-,.. 10 nodes w/ 0 sub NA NA 
23 ‘°--Oceania 36572 6727766 
24 i-—-Australia 22299 22299 


Sinon pour ce qui est d'afficher le résultat d'une analyse statistique en tant que texte dans une 
fenêtre graphique, nous renvoyons le lecteur à la page 378. 
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Exemple 104.: Contrôler la fenêtre graphique 
R 3.2.1 


Nous pouvons ouvrir aussi très rapidement une fenêtre toute vide avec la commande 
plot.new() (cette commande efface le graphique actif en cours!!!) 


R R Console 


> plot.newi{) 
> | 


Mais il existe une autre méthode beaucoup plus intéressant et que nous retrouvons dans des 
cas pratiques relativement complexes qui consistent à pouvoir ouvrir autant de fenêtre 
graphique que l'on désire avec un nom et une taille au choix: 


> windows (300,300,xpos=0,vypos=0,title="Graph 1") 
> windows (300,300,xpos=600,ypos=0,title="Graph 2") 


Ce qui donnera: 
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Fichier Edition Voir Misc Packages Fenêtres | Aide | 


ÉBOBGBIOIE 


et on ferme la fenêtre active: 


R RGuï (64-bit) - [R Console] — 0 x 
R File Edit View Misc Packages Windows Help - 5 x 


> dev.off()| 
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Voici un autre exemple: 


> windows (widch”4,height-S,citle”"Craph 1") 
> windows (widch=4,height=S, citle="Graph 2") 
> factivetion de la première fenêtre 
> dev.set (2) 
windows 

2 
> hist (runif(20,1000,3000)) 


Sciences.ch 


T7 ——} 
1000 1500 2000 2500 3000 


runif(20, 1000, 3000) 


R RGuï (64-bit) - [R Console] 
R File Edit View Misc Packages Windows Help 


ÉAOSGEIOIE 


> #fpour avoir la liste de toutes les fenêtres 
> dev.list() 
windows windows 
2 3 
> fon ferme toutes les fenêtres 


> SR 
> 
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S1 nous faisons un simple plot vide avec la fonction plot( ) : 


R R Console CIE 


> plot (NA,ylim=c(0,1),xlim=c(0,1),xlab="X",ylab="Y") 
>| 


1.0 


06 


0.4 


02 
1 


00 


00 02 04 06 0.8 


Au passage, le paramètre pour mettre les nombres de l'axe des ordonnées à l'horizontale est 
las: 


R R Console 


> plot (NA, ylim=c(0,1),xlim=c(0,1),xlab="X",ylab="Y",las=1) 


et si nous voulons la Zone de traçage mais sans les axes (remarquez au passage la méthode 
pour faire un retour à la ligne dans une légende quelconque en utilisant le \n): 
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> ploti(i:5,type="n",main="Polygon ShadowinTest",xlab="",wvlab="", axes=FALSE) 
> box) 


Polygon Shadow 
Test 


ou avec des axes dans un couleur plus claire que les axes: 


> | 
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Sciences.ch 


On peut choisir différentes mantières d'agencer les axes avec le paramètre bfy de la fonction 


plot( ) comme l'illustra la figure suivante: 


bty = "l" 


Index 


bty ="]" 


Index 


bty = "7" 


06 0.8 1.0 12 1.4 
Index 
bty = re 
Le] 
06 0.8 1.0 1.2 1.4 
Index 
bty = "0 
0.6 0.8 1.0 12 1.4 
Index 


Au niveau de la grille, nous avons avec la fonction grid ) : 
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> plot (NA, ylim=c(0,1) ,Xlinic (0,1),xlab="X",ylab="y") 
> grid() 


Figure 36 Graph avec option d'affichage de la grille 


OU: 


> plot (NA,ylim=c(0,1),xlim=c(0,1),xlab="X",ylab="Y") 
> grid(nx=NA,ny=10,col="grey",1lty=1,lwd=2) 
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Plots multiples dans une fenêtre graphique 
Il existe plusieurs manières de combiner des plots dans une fenêtre graphique. 


Voyons d'abord la méthode de base utilisant par et mfrow: 


attach(mtcars) 
par (mfrow=c(2,2)) 


plot (wt,mpg, main="Scatterplot of wt vs. mpg") 
plot (wt,disp, main="Scatterplot of wt vs disp") 
hist(wt, main="Histogram of wt") 
boxplot (wt, main="Boxplot of wt") 


RE 


Scatterplot of wt vs disp 


8 8 
l'el 
2 g 8 
= = 
& [=] 
[=] 
[a 
e 
8 
o = 
2 3 4 5 2 3 4 5 
wt wt 
Histogram of wt Boxplot of wt 
Le] L'e] 


Frequency 


Ou pour des configuratiosn plus exotiques: 
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x 


Œ À Console EE ES 
> layout (matrix(c(1,1,2,3), 2, 2, byrow = TRUE)) 
> plot(wt,disp, main="Scatterplot of wt vs disp") 
> hist(wt, main="Histogram of wt") 
> boxplot(wt, main="Boxplot of wt") 
> | 
| 
R° 2 EI ES 
Scatterplot of wt vs disp 

[=] 

= 

o 
& @ 
2 

[=] 

oQ 
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Et si nous chargeons le package patchwork, il y a une manière beaucoup plus ludique de gérer 
la disposition de graphiques (voir la vignette correspondant pour plusd'exemples: 
https://cran.r-project.org/web/packages/patchwork/vignettes/patchwork.html): 
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U RGui (64-bit) - [R Console] = LI 
GR File Edit View Misc Packages Windows Help TE 2 


library ("patchwork") 
library("ggplot2") 
pi <- ggplot (mtcars) + 
geom point (aes (mpg, disp)) + | 
ggtitle('Plot 1) 


p2 <- ggplot (mtcars) + 
geom_ boxplot (aes (gear, disp, group = gear)) + 
ggtitle('Plot 2') 


p3 <- ggplot (mtcars) + 
geom point (aes (hp, wt, colour = mpg)) + 
ggtitle('Plot 3) 


p4 <- ggplot (mtcars) + 
geom bar(aes(gear)) + 
facet wrap(-cyl) + 
ggtitle('Plot 4') 


(p1 | (p2 / p3 + labs(subtitle="Ceci va apparaître dans le dernier plot"))}) + 
plot_annotation(title = 'L\'histoire surprenant de mtcars') | 


MNVNNREMNVNV ENV EM V VV V 


Ce qui donne: 
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QU À Graphics: Device 2 
L'histoire surprenant de mtcars 


Plot 1 


4.0 
gear 


Plot 3 
Ceci va apparaître dans le dernier plot 
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Exemple 105.: Thèmes de couleurs des graphes de base de R 
R 3.6.1 


Nous verrons plus tard qu'il existe un package fameux pour les graphs qui se nomme ggplot2 
et qui possède des thèmes de couleurs que l'on peut définir de manière centralisée dans une 
entreprise ou université. 


Cependant les graphiques de base de R ont aussi des modèles de couleurs grâce au package 
basetheme et sa fonction basetheme( ). 


Voyons quelques exemples 


R RGui (64-bit) - [R Console] — C1 


GR File Edit View Misc Packages Windows Help _ FX 


V 


library ("basetheme") 


fpour enlever d'abord tout thème appliqué éventuellement avant 
basetheme (NULL) 


fmaintenant allons-y 

pairs(iris{,1:4], main="base", col=iris$Species) 

legend("top", legend=unique(irisS$Species), col=unique(iris$Species), 
pch=par("pch"), cex=0.8, horiz=TRUE, bty="n", inset=c(0,1), xpd=TRUE) 


basetheme ("clean") 

pairs(iris{,1:4], main="clean", col=irisSSpecies) 

legend("top", legend=-unique(iris$Species), col=unique(iris$Species), 
pch=par("pch"), cex=0.8, horiz=TRUE, bty="n", inset=c(0,1), xpd=TRUE) 


basetheme ("dark") 

pairs(iris{,1:4], main="dark", col=iris$Species) 

legend("top", legend=unique(iris$Species), col=unique(iris$Species), 
pch=par("pch"), cex=0.8, horiz=TRUE, bty="n", inset=c(0,1), xpd=TRUE) 


basetheme ("deepblue") 

pairs(iris{,1:4], main="deepblue",col=irisS$Species) 

legend("top", legend=unique(irisS$SSpecies), col=unique(iris$Species), 
pch=par("pch"), cex=0.8, horiz=TRUE, bty="n", inset=c(0,1), xpd=TRUE) 


basetheme ("minimal") 

pairs(iris[,1:4], main="minimal", col=iris$Species) 

legend("top", legend=unique (iris$Species), col=unique(iris$Species), 
pch=par("pch"), cex=0.8, horiz=TRUE, bty="n", inset=c(0,1), xpd=TRUE) 


basetheme ("void") 

pairs(iris(,1i:4], main="void", col=iris$Species) 

legend("top", legend=unique(iris$Species), col=unique(iris$Species), 

| pch=par("pch"), cex=0.8, horiz=TRUE, bty="n", inset=c(0,1), xpd=TRUE) 


VEANNVNVV ENV EN NN NN NN EN NN HN NV NN VV 


Ce qui donne dans l'ordre: 
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Sinon on peut créer ses propres thèmes comme l'illustre l'exemple suivant: 


- _ _ _ 


| MR RGui (64-bit) - [R Console] — (mn 


OR File Edit View Misc Packages Windows Help UE 


EE 


> pars <-— basetheme ("default") 

> parsSpalette <- c("black", grey.colors(8)) # numbered colors - shades of grey 
> pars$Sbg <- "white" # some colors 

> pars$fg <- "gray20" # some colors 

> pars$col <- "gray20" # some colors 

> pars$col.main <- "black" # some colors 

> pars$col.axis <- "gray20" # some colors 

> pars$col.lab <- "gray20" # some colors 

> pars$family <— "mono" # change font 

> pars$lab = ‘C(10;,10, 7) # more ticks on axes 

> pars$cex.axis <- 0.8 # smaller axis labels 

> pars$las <= T # always horizontal axis labels 
> pars$rect.border <- "black" # box around the plot 

> pars$rect.lwd <— 4 # ticker border 

> 

> #on charge le thème 

> basetheme (pars) 

> pairs(iris{,1:4], main="custom", col=iris$Species) 

> legend("top", legend=unique (iris$Species), col=unique(irisS$SSpecies), 

+ | pch=par("pch"), cex=0.8, horiz=TRUE, bty="n", inset=c(0,1), xpd=TRUE) 
> 


Ce qui donne: 
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QU KR Graphics: Device 2 (ACTIVE RES 
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Exemple 106.: Arbre phylogénétique (phylogrammes, 


cladogrammes) 
R 3.2.1 


Nous allons construire un arbre phylogénétique non radial basé sur une structure nwk 
(structure créée par le non moins fameux mathématicien Arthur Cayley pour rappel..….). 


Le fichier que nous allons utiliser est simplement avec une unité de distance euclidienne qui 
sera prise pour chaque nœud et chaque élément depuis l'extrémité: 


4 phylogenetic_tree.nwk - Notepad 


File Edit Format View Help 
((((Homo:2,Pongo:3):8,Macaca:18):30,Ateles:35):40,Galago:70); 


D'abord nous installons les packages nécessaires Çar geplot appartient à bioconductor et 
nécessite ggplot2: ® 


R RGui {64-bit} - [R Console] — (ma X 
R File Edit View Misc Packages Windows Help 


> library(ggplot2) 
> source{"http://bioconductor.org/hiocLite.R") 

Bioconductor version 3.2 (BiocInstaller 1.20.1), ?biocLite for help 
> biocLite("ggtree”) 

BioC mirror: http://bioconductor.org 

Using Bioconductor 3.2 (BiocInstaller 1.20.1), R 3.2.1 (2015-06-18). 
Installing package(s) ‘ggtree’ 


Après nous y allons avec un exemple: 
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> require (ggtree) 
> 
> mytree <- read.tree("c:/tmp/phylogenetic _tree.nwk");mytree 


Phylogenetic tree with 5 tips and 4 internal nodes. 


Tip labels: 
[1] "Homo" "Pongo" "Macaca" "Ateles" "Galago'" 


Rooted; includes branch lengths. 

> ggtree(mytree,aes(x, y),linetype="dotted", ladderize=TRUE) +geom point (aes(shape=isTip, color=isTip), size=3)+ 
+ geom text (aes(x=branch, label=label), size=3, color="purple", vijust=-0.3)+ theme tree2{) 

Warning message: 

és 4 rows containing missing values (geom text). 

> 


Ce qui donne un phylogramme: 


mnnmnsnssnsnsss 


Macaca 


PDPCPEPCEEEEEEEEEE 


Figure 37 Graph de type phylogramme 
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En rajoutant branch.length="'none" nous obtenons un cladogramme: 


> ggtree(mytree,aes(x, y),linetype="dotted", ladderize=TRUE,branch.length='none!)+ 
+ geom_ point (aes(shape=isTip, color=isTip), size=3)+ 

+ geom_ text (aes(x=branch, label=label), size=3, color="purple", vjust=-0.53)+ 

+ theme _tree2() 


Warning message: 
Removed 4 rows containing missing values (geom text). 
>| 


Ce qui donne: 


Figure 38 Graph de type cladogramme 


On peut faire un cladogramme circulaire aussi: 
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> ggtree(mytree,aes(x, y),linetype="dotted", ladderize=TRUE,branch.length=' none, layout="circular")+ 
+ geom point (aes(shape=isTip, color=isTip}, size=3)+ 

+ geom text (aes(x=branch, label=label), size=3, color="purple", vijust=-0.3) 

Warning message: 


Removed 4 rows containing missing values (geom text). 
>| 


Ce qui donne: 


Figure 39 Graph cladogramme circulaire 


ou une version plus sympa: 
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Sciences.ch 


R RGuiï (64-bit) - [R Console] 


GR File Edit View Misc Packages Windows Help 


library (dendextend) 

library(circlize) 

hc <- hclust(dist (datasets::mtcars)) 

dend <- as.dendrogram(hc) 

dend <- dend %>% 

color _ branches(k=4) %>% 

color_labels 

par (mar = rep(0,4)) 

circlize dendrogram(dend, labels track height = NA, dend track height = .4) 


VVNV#E+HNVNVVV OV 


qui donne (c'est joli!): 
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Figure 40 Graph dendrogramme circulaire 


Sinon de manière plus complète on a à l'aide du package phytools et sa fonction plotTree( ): 
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> darter.tree<-read.tree(file="c:/tmp/darter.tre") 

> plotTree (compute.brlen(darter.tree,power=0.5), 
fsize=0.5,type="fan",lwd=1,fsize=0.3, 
ftype="i") 


ë 
2 a, à £ EL. $ 
ASP ERA AR 
es Q LAN LL": RÉ 8 i ose 
GA CIS 
ÈS 7 
ê OPA 
ÈS Nes 
£ mes / RE NA 
Se np CN Cr CP 
Le 
RE à SE 
Dr N ETS s 
È RS \ en ue, Per) 
Les RE. 
Eee | LE en 
hou pm Le 
ess ET ant 
Pan pe pibe 
EmeosL ons DEP PE on api 
pret Pre aa e Phais 
ERet f à Sn 
rs gra we , C4 Stone, 
un SES 
Es srure de ES Free 
ÉRIC SSS 
CPE se /, ee 
rer es NS SES 
é. SR NS 


€ “ > es % 
GIE 
Pol RARES 
NS» des 


R Statistical Software 725/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Exemple 107.: Diagrammes vectoriels (dessiner des flèches et 


mettre du texte) 
R 3.0.2 


Bon là 1l n'y a pas grand chose à dire. C'est à usage principalement scolaire mais sinon sachez 
que c'est très utile de savoir dessiner des flèches et de mettre des textes sur de plots quels 
qu'ils soient avec la commande arrows( ) : 


R & Console NES 


[à 


> plot (NA,ylim=c(0,1),xlim=c(0,1),xlab="x",ylab="Yy") 
> arrows(0,0,0.5,0.75,col="red",lwd-3) 

- text (0.5, 0.75, adj=1,"A(0.5, 0.75)") 

- arrows(0.5,0.75,0.8,0.3,col="blue",lwd=3) 

> text (0.8, 0.3,"B(0.8, 0.3)") 

, # 


IR R Graphics: Device 2 (ACTIVE) =.) 


Figure 41 Graph avec vecteurs (et textes) 


Ou nous pouvons jouer avec différents styles de flèches: 
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e 


R R& Console =à)|be C&) 


plot (Ni,vlim=c(0,1),xlim=c(0,1),xlab="Xx",ylab="Y") 
arrovws (0,0,0.5,0.75,col="red", lud=3,code=1) 
arrows(0,0.2,0.8,0.5,col="blue", lud=3,code=2) 
arrows(0.6,0. 0.8,col="green", lud=3,code=3) 


es Use 
arrows(0.8,0.0,0.7,0.9,col="black", lwd=3,code=3 ,angle=90) 


VYNVNNNY 


TO 
> ns : Re 
Voyons un cas très souvent utilisé en probabilité des flèches (mais simplifié dans le cas 
présent): 
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e 


Sciences.ch 


R R Console s|s|x] 


> x<-seq(0.5,0.9,0.05j:x : 
[1] 0.50 0.55 0.60 0.65 0.70 0.75 0.80 0.85 0.90 
> y<-x"2 


> plot(v,x,las=1,type="b",lud=2,xlab="Puissance",vlab="Significati$ 
> segments(vy[1],0.7,0.5,0.7,lwd=2) 

> arrovws(0.5,0.7,0.5,x[1],lwd=2) 
li 


4 


Significatif 


0.6 0.7 


Puissance 


Figure 42 Graph avec fonction f(x) et ligne et flèches 


Nous pouvons faire des diagrammes vectoriels beaucoup plus beaux avec le package plot3D. 
Par exemple, d'abord avec les vecteurs sur un plan en utilisant la fonction arrows2D( ) : 
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MR RGui (64-bit) - [R Console] = ( 


ŒR File Edit View Misc Packages Windows Help = 


library("plot3D") 

fpoints de départs des 4 vecteurs 

x0 <-— c(0, 0, 0, 0) 

y0 <-— c(0, 0, 0, 0) 

#points d'arrivées des 4 vecteus 

xi <- c(0.89, -0.46, 0.99, 0.96) 

yi <- c(0.36, 0.88, 0.02, 0.06) 

cols <- c("#1B9E77", "#D95SF02", "#7570B3", "#E7296A") 


arrows2D(x0, y0, x1, yi, col = cols, 
lwd = 2, xlim = c(-1, 1), ylim = c(-1, 1)) 
# ajouter une ligne horizontale et verticale à c(0,0) 
abline(h =0, v = 0, lty = 2) 
# ajout d'un point en (0,0) 
points2D(x0, yO, add = TRUE, col="darkred", 
colkey = FALSE, pch = 19, cex = 1) 
# ajout de légendes aux vecteurs 
text2D(xl, yil, c("Sepal.L'", "Sepal.W", "Petal.L", "“Petal.W"), 
| colvar = x1”2, col = cols, add=TRUE, colkey = FALSE) 


ADR ARR AAALAA AAA A'AR AA 


Ce qui donne: 


fl 


MR Graphics: Device 2 (ACTIVE | |x 
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-0.5 


-1.0 


Nous verrons plus loin comment faire des diagrammes vectoriels en 3D (voir page 998). 
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Signalons qu'en installant le package plotrix il est possible à tout hasard... de faire des textes 
circulaires avec la commande arctext( ) : 


ff 
R R Console ERRES 


2 


> library(plotrix) 

> plot(0,xlim=c{(1,5),ylim=c(1,5S) ,main="Test of arctext",xlab="",vlab="", type="n") 
> arctext ("bendy like spaghetti",center=c{(3,3) ,col="blue") 

> arctext ("bendy like spaghetti”,center=c(3,3) ,radius=1.5,start=pi,cex=2) 

> arctext {"bendy like spaghetti",center=c(3,3) ,radius=0.5s, 

+ start=pi/2,stretch=1.2) 

> arctext {"bendy like spaghetti",center=c(3,3) ,radius-1.7,start=4tpi/3,cex=1.3, 
+ clockwise=FALSE) 

” 


Figure 43 Graph avec textes circulaires 


Concernant les textes voici également un cas très important en ingénierie et physique et qui 
est loin d'être trivial: 
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R RGui (64-bit) - [R Console] — 


GR File Edit View Misc Packages Windows Help SE - : 


#Définition de quelques variables 

mymean = 1.2345678 

mySE = 0.55555 

fCréer un plot vite 

plot (x = 0, y = 0, type = 'n') 

fCréer un label utilisant bquote() 

mylabel = bquote (Delta*italic(T) [max]-. (format (mymean,digits=3))*'"%+-%''4 
. (format (mySE, digits=2)) ‘degree C) 

fAjouter le texte à x=0, y=0 

text (x = 0, y = 0, labels = mylabe]l, font = 2, cex = 2) 


VYVNaNVNNVNVNVNNNV 


ce qui donne: 


Re Graphics: Device 2 (ACTIVE) se (x) 
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Figure 44 Graph avec texte et variables et symboles mathématiques 
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Exemple 108.: Mettre une image de fond 
R 3.0.2 


En entreprise on cherchera à avoir de multiples graphes dans une même fenêtre de R (voir 
plus loin) avec des gauges (speedomètres/tachymètres) pour montrer la performance d'un 
processus, d'un département ou d'une chaîne de production. Une idée simple est d'utiliser alors 
une image de fond comme-c1 après en utilisant la commande rasterImage() du package 
png. 


Par exemple sur la base de l'image suivante: 


Photos - Gauge.png 


a + 


Nous pouvons créer dans R: 


R Statistical Software 732/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


le 


VV ENNNVNNVNNVNV NN NV NN NN NN NV 


x 


R Console ES ER ES 
library("png") 

val<-0.22 

theta<-pi*(l-val) 

ima<-readPNG("C:/tmp/Gauge.png") 

plot (NA,vlim=c(0,1),xlim=c(0,1),xlab="",ylab="",axes=FALSE) 

lim<-par() 

rasterImage(ima, lim$usr[l] , lim$usr{(3], lim$usr{2], lim$usr(4]) 


text (0,0,"0%",cezx=2) 
text (0.95,0,"100%",cex=2) 


X_arrow_ start<-0.498 
y_arrow_start<-0.05 


radius_arrow<-0.7 


arrows(x arrow start,y_ arrow start,radius arrow“0.5cos(theta)+x arrow start, 
radius_ arrow*sin(theta)+0.05,col="red",lwd=3) 


text (0.5,-0.01,paste(val*100,"%"),cex=2) 
text (radius arrow*0.6*cos(theta)+x arrow start,radius arrow*sin(theta)+0.06,paste (val100,"#%"),cex=2) 


x 


Graphics: Device 2 (ACTIVE) [se |x| 


Figure 45 Graph avec image de fond 


Évidemment l'exemple a un potentiel d'amélioration considérable... 


Pour un exemple plus concret le lecteur pourra se rendre sur: 


http://gastonsanchez.com/blog/how-to/2013/01/10/Gauge-Chart-in-R.html 


où il pourra obtenir le résultat visible à la page suivante: 
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Exemple 109.: Dessiner des rectangles 
R 3.0.2 


Lors de la création de scripts vous créerez probablement vos propres graphiques. Dès lors, 
dans certains cas il est bien utile de savoir dessiner des rectangles. 


Voici un exemple pris de l'aide de R: 


€ 1] 


R & Console RES 
> plot(c(100, 200), ci300, 450), type= "n", xlab = "", ylab = "”) 3 
> rect (100, 300, 125, 350) # transparent 
> rect (100, 400, 125, 450, col = "green", border = "blue") # coloured 
> rect (115, 375, 150, 425, col = par("bg'"), border = "transparent”) 
> rect (150, 300, 175, 350, density = 10, border = "red”") 
> rect (150, 400, 175, 450, density = 30, col = "blue" ,angle = -30, border = "transparent") 
> legend(180, 450, legend = 1:4, fill = ciNA, "green", pari"fg"), "blue”), 
+ density = c(NA, NA, 10, 30), angle = c(NA, NA, 30, -30)) 
IR R Graphics: Device 2 (ACTIVE) =] 5f5S) ” 
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Figure 46Graph avec rectangles dessinés 
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Exemple 110.: Dessiner des cercles 
R 3.0.2 


Il faudra faire appel au package plotrix pour dessiner des cercles ou des disques avec la 
commande draw.circle( ) : 


r 


R R Console ER ES 


plot(i:5,seq(1,10,length=5),type="n",xlab="",vylab="" main="Test draw.circle") 
dravw.circle(2,4,c(1,0.66,0.33) ,border="purple", 
col=c{"#ffOo0ff","#£L77t1","#tfcctf"),lty=1,lud=1) 
drav.circle(2.5,8,0.6,border="red",lty=3,lud=3) 
drav.circle(4,3,0.7,border="green", lty=1, lud=1) 
drav.circle(3.5,7,0.8,border="blue",lty=2, lud=2) 


VMNNNM+HNVVY 


Test draw.circle 


Figure 47 Graph avec cercles et disques dessinés 


Libre à nous ensuite de mélanger rectangles/carrés et cercles sur de mêmes diagrammes: 
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> require(plotrix) 
> plot(c(-1, 1), c(-1,1), type = "n", asp=1) 
> rect( -.5, -.5, .5, .5) 
> drav.circlie( 0, 0, .5 ) 
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Diagrammes de Venn 


En bioinformatique nous avons régulièrement des vecteurs dont les composantes sont des 
séquençages. L'idée est de voir par exemple entre trois bactéries quels sont les dénominateurs 
communs au niveau des gènes. Nous pouvons alors typiquement représenter cela avec un 
diagramme de Venn. Comme il s'agit le plus souvent d'une représentation de cercles, j'ai jugé 
bon de le mettre ici. Petit couac cependant... 1l doit y avoir une méthode plus simple que ce 
qui est proposé ci-dessous... mais à chercher (n'hésitez pas à me dire si vous avez une astuce). 


Nous allons devoir d'abord utiliser le package Bioconductor qui n'est pas dans CRAN et une 
sous libraire qui se nomme limma: 


Edition Voir Misc Packages Fenêtres Aide Vignettes 


> source{"http://www.bioconductor.org/hiocLite.R"]) 

Bioconductor version 2.13 (Bioclinstaller 1.12.1), ?biocLite for help 

À never version of Bioconductor is available after installing a new version of 
R, ?BiocUpgrade for help 

> biocLite("limma") 

BioC mirror: http://bioconductor.org 


Using Bioconductor version 2.13 (BiocInstaller 1.12.1), R version 3.0.2. 

Installing packageis) !'liroma' 

Avis : package ‘limma’ is in use and will not be installed 

Message d'avis 

installed directory not writable, cannot update packages 'hboot', 'class', 
‘cluster', 'foreign', 'KernSmooth', 'lattice', 'MASS', 'Matrix', 'mgcv' 
'nlme', 'nnet', 'rpart', 'spatial', 'survival! 

> las 

> 


« 
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Ensuite, nous faisons quelques manipulations de nos ensembles qui servent d'exemples 


(exemple très scolaire dans le cas présent): 


R Fichier Edition Voir Misc Packages Fenétres Aide Vignettes 


# Jeux d'exemple 

set 1<-c (rar, ee, "pr, nor, re) 
setz2 <-c “le - rs vo, °F vor, dés dd : 
set3<-c las Le LA nÉ id” dd! 07 var, M") 


# Lettre uniques 
universe <- sort (unique(ciseti, set2, set3)));:universe 
[ 1] ra” rh LL "C 14 "D LA rF LL rçr M" Le Li re" rx ryr 


# On génère une matrice avec les ensembles en colonnes et les éléments en ligne 


Counts <- matrix(0O, nrow=length{iuniverse), ncol=3) 

# On remplit la matrice 

for (i in 1:length(universe)}) { 
Counts{i,1] <- universe[i] +in$ seti 
Counts[i,2] <- universe[i] %in* set2 
Counts[i,3] <- universe[i] $in* set3 


# On nomme les colonnes 
colnames (Counts) <- c("set1i","set2","set3");:Counts 
seti set2 sets 
[1;,] 1 0 
[2;] 
[3,] 
[4,] 
[5,1] 
C6,] 
[7,1 
[8,] 
[3,1 
[10,] 
[11,] 
> | 


00000hOMhM 
HOMROHHOORH 
HHOOHHOOQOOHH 
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Et ensuite il nous reste plus qu'à utiliser les commandes vennDiagram(}) et vennCounts( ) 
de la librairie limma pour arriver au résultat attendu: 


> # On spécifie les couleurs pour le diagramme de Venn 
> cols<-ci"Red", "Green", "Blue’) 

> vennDiagram(vennCounts (Counts), circle.col=cols) 

> | 


Figure 48 Graph de type diagramme de Venn 
Laborieux... 


Indiquons aussi le package venn qui avec la commande venn() permet d'obtenir des 
diagrammes de Venn plus que satisfaisant esthétiquement parlant: 
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> library("venn") 
> venn(5,ilab=T,zcolor="style") 
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À Console 


> library("venn') 
> venn(7,ilab=T,zcolor="style") 


@ R Graphics: Device 2 (ACTIVE) 


On a aussi sinon avec le package ggvenn et ça fonction ggvenn( ): 


R Statistical Software 742/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


genes <- paste ("gene",1:1000,sep="") 
x <- list 
À = sample (genes, 300), 
B = sample (genes, 525), 
C = sample (genes, 440), 
D = sample (genes, 350) 
) 
library("ggvenn") 
ggvenn ( 
X, 
fill color = c("#0073C2FF", "#EFCOOOFF", "#868686FF", "#CD534CFF"), 
stroke size = 0.5, set name size = 4 
) 


> 
> 
> 
1 + 
+ 
+ 
+ 
_ 
> 
> 
+ 
l+ 
+ 
+ 
> 


R Statistical Software 743/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Diagrammes UpSet 


Nous savons que les diagrammes de Venn ne sont pas ce qu'il y a de plus efficace à lire 
surtout lorsque leur nombre devient grand. Pour remédier à cela, un solution consiste à utiliser 
les diagrammes upset, disponible dans R à l'aide du package upset et de sa fonction upset( ). 


Voyons cela avec l'exemple inclus dans le package et en chargeant d'abord le jeu de données 
qui y est inclus: 


R 
Windows Help s x 
> #un manière alternative de lire des diagrammes de Venn croisés 
> library("UpSetR") 
> #on charge un jeu de données d'exemple fourni dans le package 
> movies <- read.csv(system.file("extdata", "movies.csv", package = "UpSetR"), 
+ header = T, sep = ";") 
> dim(movies) 
[1] 3883 21 
> head(movies,20) 
Name ReleaseDate Action Adventure Children Comedy Crime Documentary Drama Fantasy Noir Horror 

L Toy Story (1995) 1995 0 0 1 L 0 0 0 0 0 0 
2 Jumanji (1995) 1995 0 + 1 0 0 0 0 1 0 0 
3 Grumpier Old Men (1995) 1995 0 0 0 1 0 0 0 0 0 0 
4 Waiting to Exhale (1995) 1995 0 0 0 1 0 0 1 0 0 0 
5 Father of the Bride Part II (1995) 1995 0 0 0 1 0 0 0 0 0 0 
6 Heat (1995) 1995 + ( (9 0 a 0 0 0 0 (9 
7 Sabrina (1995) 1995 0 0 0 1 0 0 0 0 0 0 
8 Tom and Huck (1995) 1995 0 2 L 0 0 0 0 0 0 0 
J Sudden Death (1995) 1995 1 0 0 0 0 0 0 0 0 0 
10 GoldenEye (1995) 1995 Es 1 0 0 0 0 0 0 0 0 
11 American President, The (1995) 1995 0 0 0 1 0 0 1 0 0 0 
12 Dracula: Dead and Loving It (1995) 1995 0 0 0 1 0 0 0 0 0 1 
13 Balto (1995) 1995 ( 0 L 0 0 0 0 0 0 (9 
14 Nixon (1995) 1995 0 0 0 0 0 0 1 0 0 0 
15 Cutthroat Island (1995) 1995 É æ 0 0 0 0 0 0 0 0 
16 Casino (1995) 1995 0 0 0 0 0 0 + 0 0 0 
[27 Sense and Sensibility (1995) 1995 0 0 0 0 0 ( 1 te) 0 0 
18 Four Rooms (1995) 1995 0 0 0 0 0 0 0 0 0 0 
19 Ace Ventura: When Nature Calls (1995) 1995 0 0 0 1 0 0 0 0 0 0 
20 Money Train (1995) 1995 £ ( (9 0 0 0 0 0 0 (9 

Musical Mystery Romance SciFi Thriller War Western AvgRating Watches 
ai 0 0 0 0 0 0 0 4.15 2077 
2 0 0 0 0 0 0 0 3.20 701 
3 0 0 n Ê 0 0 0 0 3.02 478 
4 0 0 0 0 0 0 0 2.73 170 
[5 0 0 0 0 0 ) 0 3.01 296 
6 0 0 0 0 1 0 0 3.88 940 
[7 0 0 L 0 0 0 0 3.41 458 
8 0 0 0 0 0 0 0 3.01 68 
s 0 0 0 0 0 0 0 2.66 102 
10 0 0 0 0 sk 0 0 3.54 888 
11 0 0 z 0 0 0 0 3.79 1033 
12 0 0 0 0 0 0 0 2.36 160 
13 0 0 0 0 0 0 0 3-26 99 
14 0 0 0 0 0 0 0 3.54 453 
15 0 0 1 0 0 0 0 2-46 146 
16 0 0 0 0 EL 0 0 3,79 682 
1% 0 0 1 0 0 0 0 4.03 835 
18 0 0 0 0 A 0 0 3.34 257 
19 0 0 0 0 0 0 0 2.48 389 
#1 0 0 0 0 0 0 0 2.54 160 
> 


Et le graphique correspondant: 
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RE Conso ÉICIEZ 

> upset (movies, nsets 6, point.size = 3.5, line.size = 2, 

+ mainbar.y.label "Genre Intersections", sets.x.label = "Movies Per Genre", 
text.scale = c(1.3, 1.3, 1, 1, 2, 0.:75)) 


CS Tex 
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Exemple 111.: Dessiner des ellipses 
R 3.02 


Evidemment... Nous ne pouvons pas ne pas montrer comme dessiner des ellipses (pensez ne 
serait qu'à cause des fonctions bivariées Normales ou des copulas gaussiens). 


Pour cela, nous allons aussi devoir utiliser la package plotrix avec la commande 
draw.ellipse( ) : 


KR & Console EEE 
> require(plotrix) : 
> plot(c(0,10), c(0,10), type="n", main="test draw.ellipse") 

> draw.ellipse(5,5,2,4,border=1,angle=c(45), lty=3) 


KR & Graphics: Device 2 (ACTIVE) se Ex) 


, test draw.ellipse 


(0, 10) 


c{0, 10) 


Figure 49 Grap avec ellipses dessinées 


Plus sérieusement et scientifiquement avec des ellipses, nous avons aussi la fonction 
ellipseplot() du package elliplot qui fait des merveilles: 
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> library("elliplot") 

> ellipseplot(irisf(,c("Species","Sepal.Length")],irisf{,c("Species", "“Sepal.Width®)]}], 
+ dééliis (4,8), ylim-c(2,5),col=c("cyan", "orange", "magenta")}) 

> 


ë 
Li 
© 
Ë 
d 
LA 
> 
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Exemple 112.: Dessiner des polygones 
R 3.02 


Savoir dessiner des polygones est extrêmement important dans R car dans de nombreux cas 
pratiques nous remplissons des surfaces se trouvant en-dessous de la courbe d'une fonction 
(particulièrement dans les domaines des probabilités ou des statistiques géographiques où les 
territoires sont définis par des polygones). 


Voyons un exemple simple et trivial pour commencer: 


= 
R R Console s|e|Xx) 

> plot (NA,ylim=c(-1,1),xlim=c(-1,1),xleb="X",ylab="Y") 

> æabline(h=0,v=0,lty=11) 

> grid) 

> polyvaon(Cci0.5,-0.5,-0.5,0,5);,;c(0.5,0.,5,-0,5,-0,5) 

+ { col=rgb(1l, 0, 0,0.5), border=Na) 

> 


Re Graphics: Device 2 (ACTIVE) 


« 


Figure 50 Graph avec polygones dessinés 


Donc à partir de là on devine assez aisément la suite (ou voir les exemples dans l'aide de la 
commande polygon( ) ). Par exemple, si nous partons de: 
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setwd({"C:/") 
mydata<-read.csv{("VentesClean.csv",header=T,sep=";") 
plot (mydata$NCommande,mydata$Quantite) 

lines (mydata$NCommande,mydata$Quantite,col="red") 


mydata$Quantite 


mydata$NCommande 


setwd("C:/4"] 
mydata<-read.csv("VentesClean.csv",header=T,sep=";") 
plot imydata$fNCommande,mydata$Quantite) 
lines imydata$NCommande,mydata$Quantite,col="red"}) 
polygonimydatafNCommande,mydata$Quantite,col=rgbi1i, 0, 0,0.5), border=Ni) 
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Mais ce n'est évidemment pas le résultant que nous voulons! Il faut rajouter artificiellement 
des points au début et à la fin tel que: 


e a 


R & Console EE 


+ 


> setwd("C:/") 

> mydata<-read.csv("VentesClean.csv",header=T,sep=";:") 

> plot (mydata$NCommande,mydatafQuantite) 

> lines imydataf$fNCommande,mydata$Quantite,col="red") 

> x<-dim(mydata) [1] 

> polygon(c(O0,1:x,max(x)),c(0,mydata$Quantite,0),col=rgh(1, O0, 0,0.5), border=Ni) 
> 


15 20 25: aÛ 
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mydata$NCommande 


Figure 51 Graph de type aire (basé sur l'usage de polygones) 


Ou dans un autre style super important dans la pratique: 
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z.haut=c(0,cumsum(rnormin) )) 

z.bas= c(0,cumsumirnormin))) 
Xxx<-c(O:n,n:0) 

yy<-c(z.bas,rev(z.haut)) 

#araphique vide pour fixer les dimensions 
plotixx,yy,tyvpe="n",xlab="Time",ylab="Distance") 
#tracerle polygone 
polygon(xx,yy,col="gray",border="red") 
title{("Distance Between Brownian Motions") 


VENNN NN NNN Y 


Distance Between Brownian Motions 


Distance 


Figure 52 Graph d'intervalle (basé sur l'usage de polygones) 


Après, et toujours sur la même idée, on peut superposer plusieurs tracés de lignes remplies les 
unes par dessus les autres. 


Ou toujours dans les cas simples (nous reviendrons sur les distributions de probabilités plus 
loin): 
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6 


R R Console = Ce ES 


x<-seq(-3,3,0.01) 

y<-dnormix) 

plotix,y,type="1") 

#ce qu'on veut 
polygonicix[x<=-1],-1),C(v[x<=-1],v[x==-3]) ,col="red") 
#ce que cela donnerait sans ajouter une composante 
polygon(c(ix[x<=-1]) ,c(v[x<=-1]),col="blue") 


VOVIU NN + 


ES 


Ou encore pour représenter l'évolution d'un intervalle de confiance (dans le cas présent celui 
d'une proportion): 
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n=seq{(i, 100) 

p=0.2 

xi=p+qnormi(.95)#sqrtip*t(i-p)/n) 
x2=p+qnorm(.05)#sqrt(ipt(i-p)i/ni) 
plilotin,xi,type="l",vlim=c(0,1)) 
polygonicin,revin)),c(xi,revix2)),col="light blue" ,border=Ni) 
lines(n,xi,luwud=2,col="red") 

linesin,x2,lwd=2,col="red") 


VVVNNNVNMNNNV 


EL 


( 20 40 60 80 100 


Ou en étant plus exacte puisque ci-dessus nous avons utilisé l'approximation par une loi 
Normale: 
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R R Graphics: Device 2 (ACTIVE) s|Sg|x 


Re Corpele 


n=seqgq{(1,100) 

p=0.2 

yi=qhinom(.95,size=n,prob=p)/n 
yè=qhinom(.05S,size=n,prob=p)/n 
piotin,yi,type="1",vylim=c(0,1)) 
polygon(cin,revin)),c{vi,revi(y2)),col="blue",border=Nài) 
lines(n,yi,lwd=2,col="red") 

lines (n,y2, lwd=2,col="red") 


6 À EE À © 6 EE À : 


“ 


y1 


0 20 40 60 80 100 
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Exemple 113.: Diagrammes de matrices 
R 3.5.1 


Voici comment on peut faire un graph du contenu d'une matrice, ce qui est assez courant dans 
le domaine du traitement du signal mais aussi dans l'analyse visuelle des matrices de 
corrélations (même si nous verrons pour ces dernières des techniques plus adaptées) et 
commençons par le package lattice et la fonction levelplot( ) mais aussi la fonction de base 
colorRampPalette( ): 


F | 


@R Console EE 
> library("lattice") 
> fimatrice 10x10 avec loi normale centrée réduite 
> my matrix<-replicate(10, rnorm(10)) 
> colors<-colorRampPalette(c("blue","white","red")) (256) 
> levelplot (my matrix,col.regions=colors) 
> | 
GR R Graphics: Device 2 (ACTIVE) ER ES 
10 3 
2 
8 
1 
£c 6 
= 
2 
8 0 
4 
-1 
2 -2 
2 4 6 8 10 
row 


Figure 53 Graph de matrice (amplitudes de composantes) 


On peut le faire aussi en ggplot2 (nous avons exprès réduit la dimension de la matrice car cela 
permet de mieux comprendre ce que fait le package reshape) à l'aide du paramètre 
geom_tile( ): 
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R RGui (64-bit) - [R Console] _ X 


MR File Edit View Misc Packages Windows Help Slim 


GOSIOIE 


> library("ggplot2") 

> library("reshape2") 

> my matrix<-replicate(S, rnorm(S)) 
> (my matrix <- melt(my matrix)) 


Vari Var2 value 
1 5 À 1 0.11396292 
F- 2 1 1.58515916 
3 3 1 0.11555344 
_ 4 1 -1.25399904 
s 5 1 0.74186478 
6 1 2 -1.22290161 
7 2 2 -1.91889413 
8 3 2 -0.80993639 
9 4 2 -0.74467723 
10 S 2 -0.60750592 
11 1 3 1.60675957 
12 2 3 1.63559945 
13 3 3 0.72609110 
14 4 3 -1.27383493 
15 5 3 0.02314656 
16 1 4 0.48712123 
17 2 4 -0.13702750 
18 3 4 0.17174548 
19 4 4 -0.94479391 
20 5 4 -1.28762031 
21 5 A 5 1.40776574 
22 2 5 0.26737269 
23 3 5 -0.40839764 
24 4 5 0.32527122 
25 5 5 2.06248097 


> ggplot (my matrix, aes(x = Vari, y = Var2, fill = value)) + geom tile()+ 

+ scale fill gradient2(low = "blue", mid = "white", high = "red")+ 

+ scale y continuous (expand = c(0,0)) + scale x continuous (expand = c(0,0))+ 
+ theme (axis.title.x=element blank(),axis.title.y=element blank()) 
> 


E 
Ÿ 
Ce qui donne: 
EEE | 
M À Graphics: Device 2 (ACTIVE) CIE | 
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Sinon pour les matrices de corrélation, nous avons aussi la fonction corrplot() du package 


corrplot: 


R RGui (64-bit 
R File Edit 


> mydata<-read.csv("c:/tmp/VariationsTitres.csv",header=T, sep=";") 


View 


Misc Packages 


Windows Help 


> mydata 
Crédit.Lyonnais France.Télécom Lafarge Saint.Gobain Total.Fina.Elf 
À —0.017516 —0.328775 0.023053 0.003086 0.000615 
2 —0.198426 —0.020374 -0.104156 —-0.106509 —-0.093423 
3 0.122761 0.197863 0.103410 0.023046 0.057627 
4 —0.034988 0.063419 0.038501 0.054376 —0.086538 
+ —0.000267 0.018141 0.023415 0.040521 0.125614 
6 —0.002667 —0.172160 -0.060057 —-0.023602 0.015586 
7 0.021390 —0.180791 0.009128 0.084602 0.042971 
8 0.142932 0.153366 0.030151 0.042345 0.041789 
9 0.072148 —0.232346 0.027317 0.015608 —-0.049718 
10 —0.034822 —0.229599 0.037037 0.000000 —-0.007729 
LL —0.039398 —-0.545980 -0.075092 —0.043158 —0.014979 
12 —0.082719 0.558855 -0.110891 =0:329373 —-0.102798 
> cor (mydata) 
Crédit.Lyonnais France.Télécom Lafarge Saint.Gobain Total.Fina.Elf 
Crédit.Lyonnais 1.00000000 0.04780981 0.73338852 0.5370196 0.5929914 
France.Télécom 0.04780981 1.00000000 -0.03863644 —0:4997799 —0.1576209 
Lafarge 0.73338852 —0.03863644 1.00000000 0.7391915 0.5288331 
Saint.Gobain 0.53701959 —0.49977992 0.73919150 1.0000000 0.5917240 
Total.Fina.Elf 0.59299138 —-0.15762088 0.52883313 0.5917240 1.0000000 
>| 
Et finalement: si 
Ÿ 
F 
MR R Console ES IRCRSIESS 
> library("corrplot") 
> corrplot (cor (mydata)) 
> | 
L 
R R Graphics: Device 2 (ACTIVE) li=i ERE 
EL 5 
Lu — 
E © 5 ù 
Oo “D OQ [us 
# + © £ 
ss 2 (O) re 
= © si = 
3 = = ü 
td eu œ © 
Go LL [d] F 
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On peut faire plein d'autres choses avec le package corrplot dont voici un échantillon non 
exhaustif: 


Œ R Console ste x] 
> par(mfrow=c(4,2)) 
> corrplot (cor (mydata)) 
> corrplot (cor (mydata), method = "square") 
> corrplot (cor (mydata), method = "ellipse") 
> corrplot (cor (mydata), method = "number") 
> corrplot (cor (mydata), method = "pie") 
> corrplot (cor (mydata), type = "upper") 
> corrplot.mixed(cor (mydata)) 
>| 
U— — 
M R Graphics: Device 2 (ACTIVE) ste x] 
E 5 E 5 
S£, 3e Suis 
SES: FREE 
S SSs Es » $ £ ËE 
EREES RSR 
Crédit Lyonnais [En [1] 8 Créat Lyonnais M E 8 
L] 1] 
France Télécom @ e n France Télécom Æ FE 4 
2 2 
Lafarge & e e Lafarge E E E 
2 
Saint Goban @ @ @@ @ |: Saint Gobain [NN BL: 
lé C1] 
TotalFina£f |@ |: |@ @ QE: TotalFina et [I (EN RE: 
1 1 
53 3: F3 1: 
2S880E a io 
5 St s 3 $S ES 
RSRES SÉNBE 
Crédit Lyonnais 1 #02 F] Crédit Lyonnais | 4 0.730.540.59/ha 
6 
France Télécom Pa CT 4 France Télécom 1 -0.5 4 
2 
Lafarge #) |/#@ Lafarge 0.73) | 4 D.749.53 
2 2 
Saint Goban WP D: Saint Gobain 0.54.0.50.74 4 9.59]h4 
6 L] 
TotalFinaf @) |\@@/E2 Total Fina.Eif 9.59| : D.530.59| 4 |ba 
1 1 
E = = © = 
53 De 53 1e 
IE jiscs 
: 8 £ Z s ES 
RIRES RREES 
Crédit.Lyonnais CO db» F] Crédit. Lyonnais @ e © & F] 
France Télécom | F O 1 CE 4 France. Télécom & & n 
= 2 2 
Lafarge 2 1 62) Lafarge eo & 
2 12 
Saint.Gobain À Don nn) A Saint.Gobain e 4 
L] 1: 
Totalrnaei (D (BD@ 5 TotalFina.Eit QE: 
1 
1 
Crédit Lyonnais o oO e F] 
L] 
Le Télécom © 4 
2 
0.73 Later QD) @) [:] 
12 
0.54 | -0.5 | 0.74 HE | 4 
L] 
0.59 0.53 |0.59 BiFina/lse 
1 


On peut faire aussi une analyse descendante hiérarchique avec en même temps une carte de 
chaleur: 
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F 


M R Console El CRE 
> palette = colorRampPalette(c("green", "whit", "red")) (20) 


> heatmap(x = cor(mydata), col = palette, symm = TRUE) 
> | 


QU R Graphics: Device 2 (ACTIVE) oO | D |X 


L- 


France.Téléc 


Saint.Gobain 


Total.Fina.Elf 


Crédit.Lyonne 


Lafarge 


élécom 
Gobain 
Fina.Elf 
yonnais 
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Ou aussi la fonction ggpairs( ) package GGally: 
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Tes) 


UE Corte 


> library("GGally") 
mydata<-resd.csv("c:/tmp/VaristionsTitres.csv",header=T,sep=";") 
ggpairs (mydata) 


ES 


Crédit Lyonnais France Télécom Latarge Saint Gcbzin Total Zira.Elf 


ME Grarhics: Device 2 (ACTIVE 


6 EX 2 
FA 
2 
4° À Gorr Gafr Gorf Carr al 
L / ere 00478 0.722 0.527 0,502 3 
El 
JS enE 
06 . 
si 
03- JE 3 
L1 2 “ À 2 
due se à FA \ Cor Cort Cor = 
-0.093€ 0.5 0158 z 
RES à Sie Ï 4 
-03- 0 2 
3 
-06- = 
1.10 e . Ge 
si Mn im ER ji Carr Carr em 
JEU d K ar = 5 
_ NE 0.739 0:529 = 
-2.C5 L E . 
210-e . . 6 
01- . . 
00 ie! . .* 1 …. #. e à un 
° L2 . L] .* | 2 
01e ë $ Corr 5 
-02- 0592 - 
TRE 5 
LE - a FL 1 1 0 oi 
L2 L] L] L] 
210- Et 
4 
2.(5- . re . Ds . F *« \ È 
LU ue . di . au 
2.C0 + ‘ . 5 . .* 3 
45- Ê . . Ü m 
210% vi sh . < . . 2 


-02 -0.1 C.0 2: C6 -03 co 0.3 0.6-0.10 -0.5 0.09 005 0*‘0 03 -02 -01 O0  0.10.10-005 0C0 00€ 010 


R Statistical Software 760/3133 


Vincent ISOZ, Daname KOLANI 


Q R Consute 


library("=zGally") 

yycevel{[Lil,vline colur — “red”,vlire linslyps — 
errcrbar_ height = .25,exclude intercept = TRUE) 
ggpairs (mydata) 
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Exemple 114.: Diagrammes ‘'stem-and-leaf" 
R 3.4.1 


Nous partons du jeu de données suivant et utilisons la fonction native stem( ) : 


MR RGui (64-bit) - [R Console] = O 


ŒR File Edit View Misc Packages Windows Help = FX 


> iris$Petal.Length 


[1] 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 1.5 1.6 1.4 1.1 1.2 1.5 1.3 1.4 1.7 1.5 1.7 1.5 1.0 
[124] 1.7 1.9 1.6 1.6 1.5 1.4 1.6 1.6 1.5 1.5 1.4 1.5 1.2 1.3 1.4 1.3 1.5 1.3 1.3 1.3 1.6 1.9 1.4 
[147] 1.6 1.4 1.5 1.4 4.7 4.5 4.9 4.0 4.6 4.5 4.7 3.3 4.6 3.9 3.5 4.2 4.0 4.7 3.6 4.4 4.5 4.1 4.5 
[70] 3.9 4.8 4.0 4.9 4.7 4.3 4.4 4.8 5.0 4.5 3.5 3.8 3.7 3.9 5.1 4.5 4.5 4.7 4.4 4.1 4.0 4.4 4.6 
[93] 4.0 3.3 4.2 4.2 4.2 4.3 3.0 4.1 6.0 5.1 5.9 5.6 5.8 6.6 4.5 6.3 5.8 6.1 5.1 5.3 5.5 5.0 5.1 

[116] 5.3 5.5 6.7 6.9 5.0 5.7 4.9 6.7 4.9 5.7 6.0 4.8 4.9 5.6 5.8 6.1 6.4 5.6 5.1 5.6 6.1 5.6 5.5 
[1139] 4.8 5.4 5.6 5.1 5.1 5.9 5.7 5.2 5.0 5.2 5.4 5.1 


> plot.new() 

> tmp <- capture.output(stem(iris$Petal.Length)) 

> text( 0,1, paste(tmp, collapse='\n'), adj=c(0,1), family='mono" ) 
> 


pour obtenir: 


QU R Graphics: Device 2 (ACTIVE) EEE 


The decimal point is at the | 


012233333334444444444444 
55555555555556666666777799 


033 

55678999 
000001112222334444 
55555555666777717888899999 
000011111111223344 
55566666677788899 


on Oo & & Q DD) EH 


Figure 54 Graph de type stem-and-leafs 
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Exemple 115.: Diagrammes "strips" 
R 3.0.2 


Une famille de diagramme parfois by sympathique et facilement lisible par le plus grand 
nombre en utilisant la commande stripchart( ) : 


R à Console 


> setwd{"C:/") 
> mydata<-read.csv{("VentesClean.csv",header=T,sep=";:") 
> stripchart (mydata$Quantite,main="Stripchart Quantités") 


Stripchart Quantités 


OOO0O0O0O0OO0O0OO0OO0UD O0 OOC0D 


On peut ajouter un bruit pour voir la grossièrement la densité avec l'attribut jitter du 
paramètre method: 


R R Console 


F2 


> setwd("C:/") 

> mydata<-read.csv("VentesClean.csv",header=T,sep=";") 

> stripchart (mydata$Quantite,main="Stripchart Quantités",method="jitter") 
> 


Stripchart Quantités 


Figure 55 Graph de type stripchart 
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On peut faire des graphiques jitter plus perfectionnés bien évidemment, typiquement: 


R À Console RER EX 


data (ToothGrowth) 
head (ToothGrowth}) 
len supp 
VC 
VC 
VC 
VC 
VC 
VC 
ToothGrowth$dose <- as.factor (ToothGrowthS$dose) 
library("ggplot2") 
ggplot (ToothGrowth, aes(x=dose, y=len)) + 
geom_jitter(position=position jitter(0.2), color="red") 
# Change stripchart colors by groups 
p<-ggplot (ToothGrowth, aes(x=dose, y=len, color=dose)) + 
geom_ jitter (position=position jitter(0.2)) 
P 


QU R Graphics: Device 2 (ACTIVE) 


VMVEVVEVV VOUS N EH 
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Exemples 116.: Diagrammes X-Y et à lignes 
R 3.0.2 


Commençons donc par le plus simple des graphiques à points plot() imaginable avec une 
petite couleur de fond différente du blanc (comme cela on apprend deux petites choses d'un 
coup): 


R & Console 


> op<-par (bg="grey") 
> plotirunif(10) ,main="Variable aléatoire uniforme") 


R R Graphics: Device 2 (ACTIVE) 


Figure 56 Graph X-Y à points 


Avec la commande polygon() associée à locator() nous pouvons laisser l'utilisateur 
cliquer de façon interactive dans le graphique pour créer un polygone: 
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> plot(runif(10),main="Variable aléatoire uniforme") 
> polygon(locator (5))l 
> 


Variable aléatoire uniforme 


Ou encore avec la commande native locator( ) seule en cliquant ensuite à différents endroits 
SN 
du graphe: x 


_R Console 


> plotirunif(10)j,main="Variable aléatoire uniforme") 
> locatori) 


Variable aléatoire uniforme 


— 
=] 
— 
— 
— 
= 
ZT 
— 
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Et ensuite si nous arrêtons le "cliquage" par un clic droit: 


| R Console 


> plotirunif(10),main="Variable aléatoire uniforme") 
> locatori() 


| Arrèter 


[=] 
— 
— 
= 
= 
= 
— 


inuer 


Nous obtenons alors les coordonnées des points sur lesquels nous avons cliqués: 


> plotirunif(10),main="Variable aléatoire uniforme") 
> locator ()| 

$x 

[1] 2.840473 4.968972 6.022250 


$y 
[1] 1.0014480 0.6092308 0.1518226 


> | 


Ou encore dans les classiques scolaires de la petite école (attention! pour ploter toute fonction 
algébrique dans le plan reportez vous à l'exemple de la page 309): 
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R Console 


> plot(sin,xlim=c(-pi,pi)) 
>| 


À R Console 


plot(sin,xlim=c(-pi,pi)j ,type="h") 
abline(h=0, v=0, lity="11") 
gridi() 


4 


À 4 


Figure 57 Graph de type stem (à tiges") 
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Sinon dans le même genre on a le cas classique en traitement du signal (ici 1l s'agit d'une 
convolution discrète): 


QR Console 


library("signal") 
£<-c(3,2,1) 
g<-c(2,1,3) 
conv(f,g) 
EAT-G FIiS T-3 
plot(conv(f,g),col = "blue", pch = 16) 
par (new=TRUE) 
plot(conv(f,g), type="h") 
grid() 


Lan.) 
>» 

— 
> 
[es 
Le] 
o 


Figure 58 Graph de type stem (avec disques aux sommets) 


et avec la fonction native matplot( ) : 
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> x <- seq(-5, 5, length=300) 

> y <- cbind(sin(x), cos(x), tan(x)) 
> matplot(x,y,type="l",ylim=c(-10,10)) 
> | 


Revenons à des points: 
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R R Console 
setwd("C:/") 


mydata<-read.csv("VentesClean.csv",header=T,sep=":") 
pilot (mydata$Quantite) 


[=] 
[np] 
LO 
La 
[=] 
Ci 
le 
— 


mydata$Quantite 
10 


5 


On peut s'amuser à les relier par des droites (puisque l'index correspond dans le cas présent 
aussi à l'ordre des commandes) en utilisant une technique combinant plot() et lines( ) : 
Ÿ 
À R Console 
setwd("C:/") 
mydata<-read.csv("VentesClean.csv"”,header=T,sep=";:") 


plot (mydata$fNCommande,mydata$fQuantite) 
lines (mydata$NCommande,mydata$Quantite,col="red") 


œ 
2 
= 
= 
G 
| 
G 
ES 
pu 
& 
] 
D 
>= 
= 


mydata$NCommande 


Figure 59 Graph X-Y à points et lignes 
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Nous avons aussi (on ajoute un titre, des points différentes pour chaque type d'articles, des 
couleurs en fonction du numéro de client et des légendes) en utilisant la commande 
vertical.image.legend() du package agfig: 


library(agqfig) 

mydata<-read.csv("C:/VentesClean.csv",header=T,sep=";:") 

plot imydata$NCommande,mydata$Quantite,pch=as.integer (mydataf$irticle), 
col=rainbow(30) [mydata$NClient-100],xlab="N Commande",ylab="Quantité",main="Ventes") 


lines (mydata$fNCommande,mydatafQuantite,col="grey") 

v<-as.character (unique imydata$ärticle)) 
legendi"topleft",v,pch=c{i1:lengthiunique (imydatafärticle))j),cex=0.7) 
vertical.image.legend(col=rainbow(30), zlim=c(100,130)) 


CÉNNNVENNN 


Ce qui donne: 


Ventes 


Compaq Presario 100 
IBM 500 

&ST Intel 150 
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D 
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È£ 
[es 
) 
== 
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N Commande 


Ou pour revenir à un cas plus simple en ajoutant une ligne de rég linéaire avec la commande 
abline( ) : 
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RR& Console 


> setwud{"C:/") 

> mydata<-read.csv("VentesClean.csv",header=T,sep=";") 
> plot (mydataf$Quantite,mydata$PrixTotalivecRabais) 

> fit<-lmimydata$PrixTotalivecRabais-mydata$Quantite) 
> ablinel(fit) 
> 


mydata$PrixT otalAvecR abais 
20000 40000 60000 80000 


15 20 


mydata$Quantite 


ou encore: se 
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fr o 


R & Console =D )|RCB EX 


… 


> setwd{"C:/") 
> mydata<-read.csv("VentesClean.csv",header=T,sep=";") 
> parimfrow=c(2,2)) 
> plotias.Date (mydata$DateDeCommande,"$sd.%m.$Y") ,mydata$NCommande,xlab="Dates",ylab="Quantité...",type="1") 
> plotias.Date (mydatafDateDeCommande,"#d.$m.%%"),mydata$NCommande,xlab="Dates",ylab="Quantité...",type="b") 
> plot(as.Date (mydata$DateDeCommande,"#d.%m.%Y"),mydata$NCommande,xlab="Dates",ylab="Quantité...",type="o") 
> plot(as.Date (mydata$DateDeCommande,"#d.%m.%Y"),mydata$NCommande,xlab="Dates",ylab="Quantité...",type="h") 
> 
LE 

g 2 

= = 

œ œ 

3 = 

G G 

janv. 03 janv. 17 janv. 31 janv. 03 janv. 17 janv. 31 
Dates Dates 
o in [=] 
[=] : [=] 

Sd Oo — g 

Ë © Ë © 

S + a + 

GS S GS Ss 

janv. 03 janv. 17 janv. 31 janv. 03 janv. 17 janv. 31 
Dates Dates 
CO 
SN 
S 


ou considérons encore l'exemple suivant préseñtant le paramètre /ry: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


setwd{i"C:/") 

par (mfrow=c(2,2)) 

plot (as.Date (mydata$DateDeCommande,"%d.$m.$Y"),mydata$NCommande,xlab="Dates" 
;Ylab="Quantité...",type="1",lty=1) 

plot (as.Date (mydata$DateDeCommande, "$d.%m.$1") ,mydata$NCommande,xlab="Dates" 
;Ylab="Quantité...",type="1",lty=2) 

plot(as.Date (mydata$DateDeCommande, "$d.%m.$v"),mydata$NCommande,xlab="Dates" 
; Ylab="Quantité...",type="1l",lty=3) 

plot ias.Date (mydata$DateDeCommande,'"$d.%m.$v"),mydata$NCommande,xlab="Dates" 
,Vlab="Quantité...",type="l",lty=4) 


- 
> 
> 
+ 
> 
& 
> 
+ 
> 
+ 
> 


qui donne: 
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R Fichier Historique Redimensionnement Fenêtres 


Quantité. 


Quantité. 
20 40 60 60 100 


O0 20 40 60 60 100 


( 


janv. 03 janv. 10 janv. 17 janv. 24 janv. 31 janv. 03 janv. 10 janv. 17 janv. 24 janv. 31 


Dates Dates 


Quantité... 
Quantité. 


O0 20 40 60 60 100 
O0 20 40 60 60 100 


janv. 03 janv. 10 janv. 17 janv. 24 janv. 31 janv. 03 janv. 10 janv. 17 janv. 24 janv. 31 


Dates Dates 


et ainsi de suite (il y a plus d'une quarantaine de types de traits). 


Un cas classique pour montrer la convergence des estimateurs (loi des grands nombres) lors 
de simulations de Monte-Carlo et une application intéressant de abline() pour créer de 
simples lignes: 
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R R Console s|e|x| 


n=50000 

x=rnormin,0,1) 

y=cumsum(x)/(1:n) 

plotiy, type="l",vlim=c(-0.04,0.04)) 
abline (h=0) 


VMVNVNNVVY 


10000 20000 30000 40000 50000 


Index 


ou pour jouer avec la convergence à l'aide du package ConvergenceConcepts et les 
commandes generate( ) et law.plot2d ) : 
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R R Console 


library(ConvergenceConcepts) 
#n'hésitez pas à jouer avec mu et sigma 
rau=0 
sigma=1i 
rand<-functionin) {cumsum(rnormin,rmu,sigma))/(i:in)} 
data<-generate (randomgen=rand,nmax=1000,M=100) $data 
#comparaison par rapport à loi normale centrée réduite 
law.plot2d(idata) 
$ID 
[AT re 67 
$env Convergence in law? 
<environment: OxO00000000150608e0% 


attr(,"class") 
[11] "tkvin" 
> | 


F (tj and F, ft) 
00 02 04 06 08 


ou toujours avec ce même package voir l'évolution de la convergence en 3D mais avec la 
commande law.plot3d( ) : 
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€ n 
R R Console sex] 


> library(ConvergenceConcepts) 

> #n'hésitez pas à jouer avec mu et sigma 

> mu=0 

> sigma=i 

> rand<-function(n) {cumsum(rnormin,mu,sioma))/(il:in)} 
> data<-generate (randomgen=rand,nmax=10,M=100) $data 
> 
> 
> 


#comparaison par rapport à loi normale centrée réduite 
law.plot35d(data,pnorm) 


Avec la commande plot() , nous pouvons aussi avoir une représentation sympathique dont 
données /ris que nous avons utilisé dans le cours théorique pour décortiquer les 
développements mathématiques de l'analyse en composantes principales et en associant en 
plus des couleurs à chaque catégorie!: 
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R R Console 


plot (iris) 

plat{iirisl, 1:41) 

## color by Species 

plot(iris[,1:4], col as.numeric{iiris$Species)) 


SepalLeigti 


petal.Leagti 


PetalVkttt 


45 55 65 75 12343567 


Figure 61 Graph de type lattices avec sous-graphs X-Y 


Et dans une version nettement plus compliquée (très utile en finance): 
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panel.hist <- function(x, ...) { 

usr <- pari"usr"); 

on.exit {par (usr)) 

par (usr = cusr[1:2], 0, 1.5) ) 

h <- hist(x,plot=FALSE) 

breaks <- h$breaks 

nB <- lengthibreaks) 

y <- h$counts; y <- v/maxiy) 

rect{ibreaks[-nB], 0, breaks[-1], y, ...) 

; 

# Correlation coefficient 

my.panel.smooth <-function ([X, y, 

col = par{("col"),bg = NA,pch = par("pch"),cex = 1, 

col.smooth = "red",span = 2/3,iter = 3, ...) { 

pointsi(ix, y,.pch = pch, col = col,bg = bg, cex = cex) 

ok <— is.finitei(x) € is.finite(y) 

if (any(ok)) 

lines(lowess(x[ok], vylok], 

£ = span,iter = iter),col = col.smooth,...) 

usr <- parl'usr') 

texti (usr{i]+usr{2])/2, (usr{3]+9tusr(4])/10,floor(100*cor(x,v))/100, 
col="blue", cex=3, adj=c(.5,1) ) 

} 

ploti(iiris(,1i:4],diag.panel = panel.hist ,upper.panel = panel.smooth, 
lower.panel = my.panel.smooth,gap = O0,col=as.numericiiris$Species)) 


VON OH EH HR HR NON HE +++ ++ 


Ce qui donne: Ÿ 
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Figure 62 Graph à lattrices avec histogrammes, corrélation et régressions 
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Ou, toujours avec les couleurs et en jouant avec notre source Ventes habituelle: 


LA" ÈR E à 


ES 


setwd{("C:/") 
mydata<-read.csv("VentesClean.csv",header=T,sep=";") 
attach(imydata) 
pilot (NCommande, Quantite,pch=21,bg=c{"red","green","blue","black")[as.numeric(ärticle)]) 


D 
+ 
= 

= 

Lu 

= 
G 


NCommande 


Figure 63 Graph X-Y à points coloriés par catégorie 


ou toujours en s'amusant avec les couleurs: 


EE 


setud("C:/") 

mydata<-read.csv("VentesClean.csv",header=T,sep=";") 

attach(mydata) 

plot (mydata[whichiärticle=="asT Intel 200”),31, 
mydata[which(imydata$ärticle=="AST Intel 200"),6] 

;*lab="N° Command" ,ylab="Quantité",col="red",main="Graphes à lignes multiples",type="1") 
lines (mydata[which(irticle=="A8ST Intel 200"),3], 
mydata[which(imydata$äirticle=="AST Intel 200"),6] 
;*lab="N°Command",ylab="Quantité",col="red",main="Graphes à lignes multiples") 
lines (mydata[wvhichiArticle=="A\ST Intel 150"),3], 
mydata[which(imydata$ärticle=="AST Intel 150"),6] 
;*lab="N°Command",ylab="Quantité",col="green") 

lines (mydata[which(ärticle=="IBM 500"),3], 

mydata[which(imydata$irticle=="IBM 500"),6] 
;*lab="N°Command",ylab="Quantité",col="blue") 
legendi"topleft",col=c{"red","green","blue"), lry=1 

-legend=c{("AST Intel 200","AST Intel 150","IBM 500") ,bg="white") 


D 


Ce qui donne: 
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Graphes à lignes multiples 


—— AST Intel 200 
——— AST Intel 150 
—— IBM 500 


| 


Quantité 


) 


ÿ 


i 


N°Command 


Figure 64 Graph à lignes coloriées 
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Sciences.ch 


Quartet d'Anscombe 


Nous ne pouvons pas, ne pas traiter du cas du quarter d'Anscombe! Voyons voir comment le 


recréer avec ggplot2: 


& RGui (64-bit) - [R Console] 
8 File Edit View Misc 


Pac Es 


Windows 


> anscombe 


x1 x2 x3 x4 y1l 
1 10 10 19 8 8.04 
2 8 8 8 8 6.95 
3 13 13 13 8 7.58 
4 9 9 9 8 8.81 
5 11 11 11 8 8.33 
6 14 14 14 8 9.96 
7 6 6 6 8 7.24 
8 4 4 419 4.26 
9 12 12 12 8 10.84 
10 7 7 7 8 4.82 
11 S S S 8 5.68 
>| 


Nous voyons bien que les statistiques sont similaires: 


4 -J (0 © Où © 10 © CO CO (0 


… 


y= 


.14 
.14 
.74 
«77 
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Se 
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y3 
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.74 
ll 
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R RGui (64-bit) - [R Console = 


GR File Edit View Misc Packages Windows Help x 


> summary (anscombe) 


xl x2 x3 x4 
Min. : 4.0 Min. : 4.0 Min. : 4,0 Min. 5 8 
1st Qu.: 6.5 1st Qu.: 6.5 1st Qu.: 6.5 1st Qu.: 8 
Median : 9.0 Median : 9.0 Median : 9.0 Median : 8 
Mean s 9.0 Mean : 9.0 Mean : 9.0 Mean s 9 
3rd Qu.:11.5 3rd Qu.:11.5 3rd Qu.:11.5 3rd Qu.: 8 
Max. :14.0 Max. :14.0 Max. :14.0 Max. :19 
yl y2 y3 y4 
Min. 4.260 Min. :3.100 Min. 5.39 Min. 5.250 
list Qu.: 6.315 1st Qu.:6.695 1st Qu.: 6:25 ist Qu.: 6.170 
Median 7.040 


8.570 3rd Qu.:8.950 3rd Qu. 


7.580 Median :8.140 Median : 7.11 Median 
10.840 Max. :9.260 Max. ! 


Mean » 7:S01 Mean :7:501 Mean 


On adapte le jeu de données pour en faire un graphique (ce qui reste un bon exercice. 


chiant): Ss 


Ÿ 
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MR RGui (64-bit) - [R Console] 


UR File Edit View Misc Packages Windows Help 


ESOSOSIOIE 


> quartet<-with(anscombe,data.frame(x=c(xl,x2z,x3,x4), 
+ y=c(yl,y2,y3,y4), 
+ lab=rep (paste ("Jeu de données" ,1:4) ,each=length(xi)))) 
> quartet 
x Y lab 
10 8.04 données 
8 6.95 données 
13 7.58 données 
9 68.81 données 
12 6:33 données 
14 9.96 données 
7,24 données 
.26 données 
10.84 données 
4.82 données 
5.68 données 
S.14 données 
8.14 données 
8.74 données 
8.77 données 
9.26 données 
8.10 données 
6.13 données 
3.10 données 
5.13 données 
7.26 données 
4.74 données 
10 7.46 données 
6.77 données 
19 12:74 données 
9 7.11 données 
11 7.81 données 
14 8.84 données 
6.08 données 
5:33 données 
8.15 données 
6.42 données 
5.73 données 
6.58 données 
5.76 données 
VAS E : données 
8.84 données 
8.47 données 
7.04 données 


Co -] Oo On 4 Co 1) + 


Oo 0e sl 0 où C0 Ci Co Co Ci Où CO Co Co Go Co ED 62 62 62 ED 3 62 62 ED ED ED be het het het het het Det het het het hot 


et finalement le graphique: 
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> library(ggplot2) 
> qplot(x=x,y=y,data=quartet, facets=.-lab,color=I ("blue"))+theme bw() 
> | 


Graphics: Device 2 (AC ) _ (s) X 
Jeu de données 1 Jeu de données 2 Jeu de données 3 Jeu de données 4 
5 10 15 5 10 15 5 10 15 5 10 15 


X 


Figure 65 Graph lattice du quartet d'Anscombe 
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Éléphant de Fermi 


Comme metionné dans le cours théorique (chose promie, chose due!): 


ts le ls) 


x_coordinate <- function(t) { 
x <— 50%sin(t) + 18*sin(2*t) + 12 * cos(3*t) - 14*cos(5*t) 
x 

} 


y_coordinate <-— function(t) { 
y <— -30*sin(t) + 8*sin(2*t) - 10*sin(3*t) -60*cos(t) 
Y 


<- numeric() 

<- numeric() 

<— 0. 
for (tt in seq(0,6.26,0.01))#10 
{ i<-i+1 

x{i] <- x coordinatei(tt) 

yli] <- y _coordinate(tt) 
} 


sache pets 


? 
— 
+ 
+ 
> 
> 
+ 
— 
+ 
> 
> 
> 
> 
> 
+ 
+ 
+ 
+ 
> 
> 
> 
R 
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Ajouter des marques mineures aux axes 


Il n'existe pas de commande par défaut dans la commande plot() pour ajouter des marques 
mineures. Il faudra installer (du moins dans le cas le plus simple), le package Hmisc. 


Voici une démonstration utilisant donc la commande minor.tick( ) : 


R R Console EICIES 


2 


e 


setwd{i"C:/"] 
mydata<-read.csv("VentesClean.csv",header=T,sep=";:") 
plot (mydataf$Quantite) 

install.packages ("Hmisc") 

Installing package into ‘C:/VideoZ2Brain/Packages’ 

(as ‘lib’ is unspecified) 

Avis : package ‘Hmisc’ is in use and will not be installed 
> library(Hmisc) 

> M nn me nt 

> ee 


VVYUNVV 


15, 20, 25, A 


mydatafQuantite 
10 


5 


() 


Figure 66 Graph X-Y avec marques mineures aux axes 
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Positions des axes/Inversion des axes et Dates sur les Axes 


Pour déplacer les axes c'est relativement simple: 


mydata<-read.csv("VentesClean.csv",header=T,sep=";") 
pilot (mydata$NCommande,mydata$Quantite,axes=FALSE) 
lines (mydata$NCommande,mydata$Quantite,col="red") 
axis(3) #met l'axe horizontal au-dessus 

axis(4) #met l'axe des ordonnées à droite 

box (}) 


œ 
— 
P— 

= 

© 
= 
G 
$ 

@ 

É 


mydata$NCommande 
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Maintenant voyons plus grand... 


mydata<-read.csv("VentesClean.csv",header=T,sep=":") 

x<-as.Date (mydata$DateDeCommande, format="*d.%m.*Y") 

yl <- mydata$Quantite 

yii<-yi[rev(order(y1))] 

y2 <- mydata$PrixTotalävecRabais 

yi2<-y2[rev(order (y2))] 

par (mar=c(5,4,4,5)+.1) 
plot(x,yi,type="1l",col="red",ylim=c (max (mydata$Quantite)+70,0),ylab="Quantité",axes=F) 
#astuce pour hacker l'axe des X avec un format lisible 

axis(3,at=NULL, labels=F) 

text(x, par ("usr")[3]f(-0.1), labels = pastei(x,' '), srt = 90, pos = 3, xpd = TRUE,cex=.7) 
#Sinon remplacer les deux lignes du dessus par... (résultant décevent) 
#faxis(3,x,format(x,"*b $d"),cex.axis=.7) 

axis(2) 

par (new=TRUE) 

ploti(x, y2,,type="l",col="blue",xaxt="n",yaxt="n",xlab="",vlab="",vlim=rev(range(yiz))) 
axis(4) 

mtext ("Cash",side=4,lines=3) 
legend{"bottomleft",col=c("red","blue"),lty=1,legend=c{"Quantités","Cash")) 


ù 


> 
> 
7 
> 
> 
> 
> 
> 
> 
> 
> 
> 
” 
> 
> 
” 
> 
> 
> 
>| 


Ce qui donne: 


—— Quantités 
—— Cash 


Figure 67 Graph à lignes avec triple axes 
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Ajouter des légendes aux points 


Nous pouvons également ajouter des légendes à chaque point. Par exemple: 


setwd("C:/") 
mydata<-read.csv("Ventes.csv",header=T,sep=":") 
mydata<-aggregate (mydata$Prix.total.avec.rabais,by=1list (mydata$irticle,mydataf$ Quantité), FUN=sum) 


colnames (mydata)<-c("Articles","Quantité","PTAR") 

pilot (mydata$Quantité,mydata$PTAR,main="PTAR f(Quantité) par article”, 
xlab="Quantités",ylab="PTAR",pch=18,col="blue") 

text (mydata$Quantité,mydata$PTAR,mydata$ärticles,cex=0.6,pos=4,col="red") 


Donnera: 
en )(= (=) (RES 
PTAR f(Quantité) par article 

[æ) 

[=] 

= 

+ + ÉST Intel 200 

Pi 

Le) 

8e 

S + AST Intel 200 
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— 
Œ 
<< + AST Intel 200 
+ [æ 
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2 8 ME 00 à Compaq Presario 100 + AST intel 150 
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e + ASTaaSMEe 150 _+ PJ" + Compaq Prasano 100 
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Figure 68 Graphy X-Y avec légendes sur chaque point 
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Zoomer sur un sous-ensemble 


En installant le package plotrix (que nous retrouverons de nombreuses fois) nous pouvons 
dans certains cas faire une manipulation utile. 


library(plotrix) 

setwdi"C:/") 

mydata<-read.csv("Ventes.csv",header=T,sep=";:") 

mydata<-aggregate (mydata$Prix.total.avec.rabais,by-=-list (mydatafärticle,mydata$ Quantité), FUN=sum) 


colnames (mydata)<-c{"irticles","Quantité","PTAR") 
zoomInPlot (mydata$Quantité,mydata$PTAR,rxlim=c(2.5,7.5),rylim=c(17000,30000), 
zoomtitle="Zoom In Plot",titlepos=-1.5,col="blue" ,pch=18) 


V+NVNVYNVNNYV 


Ce qui donne: 


Zoom In Plot 


Figure 69 Graph X-Y avec zoom sur zone Graph X-Y sans ggplot2 


On peut faire la même chose avec ggplot: 
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R RGui (64-bit) - [R Console] L 


R File Edit View Misc Packages Windows Help s#I1x 
ESA 

> library("ggplot2") 

> 

> set.seed(42) 

> n <- 1000 

> x <- runifi(n) * 3 

> y <- x * sin(i/x) + rnorm(n) / 25 

> df <- data.frame(x = x, y = y) 

> 

> #le graphique dans son ensemble 

> pl <- ggplot(df, aes(x, y)) + geom point (alpha = 0.3) + 

+ geom_ smooth(se = FALSE) + theme bw() 

> fle sous-ensemble qui nous intéresse 

be à 

> p2 <- ggplot(df, aes(x, y)) + geom point (alpha = 0.3) + 

+ geom_ smooth(se = FALSE) + scale x continuous(limits = c(0, O.5)) + 

+ scale y continuous(limits = c(-0.3, 0.6)) + theme bw() 

> 

> ftet au final 

> pl + annotation custom(ggplotGrob(p2), xmin = 1, xmax = 3, ymin = -0.3, ymax = 0.6) 
‘geom_smooth()' using method = ‘gam' and formula "y - s(x, bs = "cs")' 
‘geom_smooth()' using method = ‘gam' and formula "y - s(x, bs = "cs")' 
Warning messages: 

1: Removed 812 rows containing non-finite values (stat smooth). 
| 2: Removed 812 rows containing missing values (geom point). 

>| 
Ce qui donne: 
À Graphics: Device 2 (ACTIVE) sex) 


08 


04 


— 


Figure 70 Graph X-Y avec zoom sur zone avec ggplot2 


R Statistical Software 793/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 
Diagramme à ligne en escalier 
Rien de spécial ici à part que c'est un graph souvent apprécié pour sa lisibilité: 


MA Console Les] 


> mydata<-read.csv("VentesClean.csv", header=T,sep=";") 
> plot (mydataSNDeCommande,mydata£Quantite,xlab="# Commande",ylab="Quantités",type="s",col="blue") 


MR EP Graphics Device 2 


n 
2 
= 

€ 

œ 

= 
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Graphique de Walter-Lieth 


Une forme très populaire de visualisation des données météorologiques est le graphique de 
Walter-Lieth. Un tel graphique multi-axes à lignes illustre les précipitations et les 
changements de température tout au long de l'année. Il est particulièrement utile de déterminer 
les mois arides et humides tout au long du cycle annuel. 


Voyons comment en produire un avec le package climatlor et sa fonction diagwl( )! 
D'abord nous créons le jeu de données à la main: 


R File Edit View Misc Packages Windows Help 


library("climatol") 

mean.prec <- c(43, 40, 31, 41, 46, 140, 150, 68, 46, 47, 46, 41) 

#+ Mean maximum daily temperature 

mmas.dt <= C(E.7, 2.9, 7,6,: 219,9, 129.1, 22.3, 23.8, 23.3; 19.5, 13,6, 6.9; 3;1) 
#* Mean minimum daily temperature 

m-min.dt <= C(-3:5, =3.1, =0:3, 3.8, 7:9, 1l:1, 13.3; 12.6, 9.3; 5.93; 1.9, =1:4) 


VVVV VV 


> ## Absolute monthly minimum temperature 
> abs.m.min.t <- c(-21, -26, -16.5, -6.7, -2.9, 1.4, 5.7, 4.7, -0.5, -9.6, -13.5, -20.2) 
D 
> (data.matrix <- rbind(mean.prec, 
+ m.max.dt, 
+ m.min.dt, 
_ abs.m.min.t})) 

[,11 [,21 [,3] [,4] [,5] [,6] 1,7] [,8] [,9] [,10] [,11] [,12] 
mean.prec 43.0 40.0 31.0 41.0 46.0 140.0 150.0 68.0 46.0 47.0 46.0 41.0 
m.max.dt 1:57 2:89 7-8 13:5 19.1 22.3 23.8 23.3 19.5 13.0 6.9 3.1 
m.min.dt -3.5 -3.1 -0.3 3.8 7.9 11.1 13.3 12.6 9.3 3-3 1.9 —-1.4 
abs.m.min.t -21.0 -26.0 -16.5 -6.7 -2.9 1.4 5.7 4.7 -0.5 -9.6 -13.5 -20.2 


> ## altidude 
> alt <- 51 # m asl 


Une fois les variables et données créées (ou importées.…..!), nous pouvons faire la graphique 
correspondant très simplement: 
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MR Console RENE 


> diagwl(data.matrix, est = "Berlin-Dahlem", alt = alt, per = "1961-90", mlab = "“en") 
> 


= 
MR Graphics: Device 2 (ACTIVE) 


Berlin-Dahlem (51 m) 
1961-90 
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Points avec courbes d'iso-densité 


Pour cet exemple, il vous faudra avoir téléchargé d'abord le package ggplot2. Une fois ceci 
fait, nous pouvons utiliser la commande ggplot() avec geom_density2d( ) pour obtenir: 


R & Console Ss|e|x] 


library(ggplotz) 

setwd({("C:/"] 
mydata<-read.csv("VariationsTitres.csv",header=T,sep=":") 
x<-mydata$Crédit.Lyonnais 

yv<-mydata$fFrance.Télécom 

gaplot (data.frame(x,y) ,aes(x,y]))+geom point () +geom densityzdi) 


> 
> 
> 
> 
> 
> 
> | 


Figure 71 Graph X-Y avec courbes de densité (isoclines) 


ou bien en version améliorée: 
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D ‘ol 0 


ggplot (data.frame(x,y),aes(x,y))+geom point ()+ 
stat_density2d(aes(alpha=..level..,fill = ..level..),,size=1,bins=10, geom="polygon") + 
guides (colour = guide legend(override.aes = list (alpha = 1j), 
fill = guide legend(override.aes = list (alpha = 1)))+ 
scale fill gradient (low = "yellow", high = "red")+ 
scale alpha(range = c(0.00, 1), guide = FALSE) + 
geom_ densityzd(colour="black", bins=10)+ 
guides (alpha=FAL$SE) 


V+++++++V 


CS 


Figure 72 Graph X-Y avec courbes de densité (isoclines) et gradients de couleurs (ggplot) 
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Nous pouvons faire mieux avec les packages MASS et RColorBrewer en associant les 
noyaux de densité locale avec la commande kde2d() et la commande contours() utilisant le 
dégradé de couleurs du package RColorBrewer: 


ff 
R R Console REX 
> library(RColorBrewer) = 
> library(MASS) 
> setwd{"C:/") 
> mydata<-read.csv{("VariationsTitres.csv",header=T,sep=":") 
> g=i1ii 
> myCols<-revibrewer.palig,'"RdYlBu")) 
> z<-kde2dimydatafCrédit.Lyonnais,mydata$France.Télécom,n=50) 
> plot imydata$Crédit.Lyonnais,mydataf$France.Télécom,xlab="Crédit Lyonnais", 
+ ylab="France Télécom'",pch=19,cex=0.3,col="grayé60") 
> contour (z,drawlabels=FALSE,nlevels=g,col=myCols,add=TRUE, lwd=2) 
> abline(h=mean(mydata$Crédit.Lyonnais),v-mean(mydata$France.Télécom)) 
> legend("topleft",paste("R=", 
+ roundicor imydata$Crédit.Lyonnais,mydata$France.Télécom),2)),bty="n") 
>| sd 
< 
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-0.20 -0.15 -0.10 -0.05 0.00 


Crédit Lyonnais 


Figure 73 Graph X-Y avec courbes de densité (isoclines) en couleurs 


Au besoin pour le package RColorBrewer n'hésitez pas à utiliser le commande 
RColorBrewer::display.brewer.all() qui vous donner un rappel des types de dégradés: 
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FH [ | 
M KR Console OOIES 


> RColorBrewer::display.brewer.all() 
> | 


MR R Graphics: Device 2 (ACTIVE) 
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Sciences.ch 


Points avec variation de couleurs et zone géographique 
Nous allons ici utiliser la fonction spplot( ) du package sp. 


D'abord nous chargeons et préparons les données brutes: 


R RGui (64-bit) - [R Console] 
R File Edit View Misc Packages Windows Help 


> library(sp) 
> 
> meuse<-read.csv("c:/tmp/Meuse.csv",header=T,sep=";:") 
> #on convertit les colonnes x,y en coordonnées 
> coordinates (meuse)=-x+y R 
> head(imeuse) 

coordinates cadmium copper lead zinc elev dist om ffreq soil lime landuse dist.m optional 
1 (181072, 333611) 11.7 85 299 1022 7.909 0.00135803 13.6 1 1 1 Ah 50 TRUE 
2 (181025, 333558) 8.6 81 277 1141 6.983 0.01222430 14.0 L 1 1 äh 30 TRUE 
3 (181165, 333537) 6.5 68 199 640 7.600 0.10302900 13.0 1 1 1 Ah 150 TRUE 
4 (181298, 333464) 2.6 81 116 257 7.655 0.19009400 8.0 1 2 0 Ga 270 TRUE 
5 (181307, 333330) 2.8 48 117 269 7.480 0.27709000 8.7 1 2 0 Ah 380 TRUE 
6 (181390, 333260) 3:0 61 137 281 7.791 0.36406700 7.8 1 2 (n) Ga 470 TRUE 
> #on charge les coordonnées de la riviere et on construit son polygone 
> meuse.riv<-read.csv("c:/tmp/MeuseRiviere.csv",header=T,sep=";" 
> head(imeuse.riv) 

V1 V2 
1 182003.7 337678.6 
2 182136.6 337569.6 
3 182252.1 337413.6 
4 182314.5 337284.7 
5 182331.5 337122.3 
6 182323.9 336986.2 
> meuse.sr = SpatialPolygons (list (Polygons (list (Polygon(meuse.riv)),"meuse.riv"))) 
> river = list ("sp.polygons", meuse.sr, fill = "lighthlue”) 
>| 

Ce qui donne (voir page suivante): 
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#on prépare les dessins pour le Nord, la flèche et l'échelle Zinc Concentration 


scale = list ("SpatialPolygonsRescale”", layout.scale.bari(), 

offset = c(178600,332990), scale = 500, fill=c("transparent","black")) 
texti list ("sp.text", c(178600,333090), "O") 

text2 list ("sp.text", c(179100,333090), "500 m'") 

arrow list ("SpatialPolygonsRescale", layout.north.arrowi(), 

offset = c(178750,332500), scale = 400) 


#intervalles pour la barre de couleurs 
quantiles <- quantile(meuse$zinc, probs = seq(0, 1, .2)) 


#on trace le tout 
spplot (muse, "zinc", do.log=F, 
key.space = "right", 

colorkey = TRUE, 
sp.layout=list(river,scale,textil,text2,arrow), 
main = "Zinc Concentration", cex = .7, cuts =quantiles , 
col.regions=colorRampPalette(c('blue','red'))(5)) 


> 
> 
+ 
> 
> 
> 
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Figure 74 Graphe X-Y avec rivière et légende de couleurs d'amplitudes 
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Points avec histogrammes et lissage 


En utilisant la package Hmisc et la commande histSpike() nous pouvons associer dans un 
plot de points des histogrammes avec des fonctions de densité au plus proche sur chacun des 
axes de projection: 


> 


library(Hmisc) 


Il y à eu 11 avis (utilisez warnings(i) pour les visionner) 
setwd(i"C:/") 
mydata<-read.csv("VariationsTitres.csv",header=T,sep=":") 
x<-mydata$Crédit.Lyonnais;y<-mydataf$France.Télécom 
plotix,vy,pch=19,xlab="Crédit Lyonnais",ylab="France Télécom") 


> 


VVYNNNNNMNVY 


LS 


grid) 

histSpike(x,add=TRUE,col="greend4", lwud=2) 
histSpike(y,4,add=TRUE,col="blue", lud=2) 
histSpikeix,type="density",col="red",add=TRUE) 
histSpike(y,4,type="density",col="red",add=TRUE) 


Ce qui donne: 


France Télécom 


-0.20 -015 -010 -005 000 005 0.10 


Crédit Lyonnais 


Figure 75 Graph X-Y avec stem (tiges) et courbes de densité en marge 
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Sciences.ch 


Graphiques à cycles 


Ici nous utilisons simplement la fonction monthplot( ) intégrée par défaut dans R: 


Fr 


> library("nycflights13") 
> str(weather!{,(3:6)]) 


tibble [26,115 x 4] (53: tbl_ df/tb1l/d ta.frame) 
$ month: int [1:26115] 1 1111111111 .. 
$ day : int [1:26115] 1 1 1 1 1 1 1 1 1 1 .. 
$ hour : int [1:26115] 1 2 3 4 5 6 7 8 9 10 . 
$ temp : num [1:26115] 39 39 39 39.9 39 ... 


# Trouver la valeur moyenne 
tempdata <- aggregate(temp - month + day, data=weather, mean) 


#monthplot fait partie du package graphics de base de R 
with(tempdata, monthplot (temp, times=day , phase=month, ylab = "temp")) 


VYVNVVVYV 
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Ajout de barres d'erreurs 


Il manque un grand classique cependant que sont les barres d'erreurs (elles sont disponibles 
dans les tableurs par défaut) et 11 nous les faut absolument dans un logiciel comme R. Pour 
cela, il va nous falloir associer un script à notre source de données. 


R R Console 


EEE 


+ 


LA 


setwdi"C:/") 
mydata<-read.csv("VariationsTitres.csv",header=T,sep=":") 
x<-mydata$Crédit.Lyonnais 

y<-mydata$France.Télécom 
xy.error.bars<-function(x,y,xbar,vhar)!{ 
plotix,vy,pch=16,ylim=c(min(y-vhar) ,max(y+ybar)), 
Xlim=cimin(x-xbar) ,max(x+xbar))) 
arrows(x,vy-vbar,x,vy+vhar,code=3 ,angle=90, length=0.1) 
arrows(x-xbar,y,x+xhbar,y,code=3 ,angle=90, length=0.1) 

} 

xv.error.barsi(x,y,0.05,0.10) 

#harres d'erreurs fixes en entrée (5% et 10% respectivement)| 


MH ++++NVNYV Y 


Figure 76 Graph X-Y avec marges d'erreurs 


Libre à vous ensuite de relier les points par des lignes comme nous l'avons déjà vu plus haut. 
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Graphiques en coordonnées polaires 


Avec le package plotrix et sa fonction polar.plot( ), nous pouvons sans problèmes, 
reproduire le diagramme de radiation d'un dipôle de Hertz en régime harmonique pour 
l'approximation en champs lointains. Ce qui donne: 


Nous avons alors en reproduisant à l'identique l'exemple fait dans le cours MATLAB: 


R RGui (64-bit) - [R Console = CI 
QR File Edit View Misc Packages Windows Help - EX 


ER RER] © E 


library("plotrix") 

n<-377 

IO<-1 

r<-10 

lambda<-0.3 

k<—(2*pi)/lambda 

L<-lambda/2 

theta<-segq(0.01,360,by=0.01) 

thetaRad<-(theta/360)*2*pi 

E<- -complex(0,imaginary=1) *n*I0*exp(-complex(0,imaginary=1)*k*r)*(1/(2*pi*r))* 
((cos (k*L*cos (thetaRad) /2)-cos(k*L/2))/sin(thetaRad))/r 
polar.plot(abs(E),theta,main="Hertzian Dipole",show.grid.labels=0, 
lwd=3,rp.type="s",point.col=rgb(0,0,1,0.1),point.symbols=19) 


par (new=TRUE) 


L<-lambda*3 

E<- -complex(0,imaginary=1) *n*10*exp(-complex(0,imaginary=1) *k*r)*(1/(2*pi*r))* 
((cos (k*L*cos (thetaRad) /2)-cos(k*L/2))/sin(thetaRad))/r 
polar.plot(abs(E),theta,main="Hertzian Dipole",show.grid.labels=0, 
lwd=3,rp.type="s",point.col=rgb(1,0,0,0.1),point.symbols=19) 


par (new=TRUE) 


L<-lambda*6 

E<- -complex(0,imaginary=1) *n*I10*exp(-complex(0,imaginary=1) *k*r)*(1/(2*pi*r))* 
((cos (k*L*cos (thetaRad) /2)-cos(k*L/2))/sin(thetaRad))/r 
polar.plot(abs(E),theta,main="Hertzian Dipole",show.grid.labels=0, 
lwd=3,rp.type="s",point.col=rgb(0,1,0,0.1),point.symbols=19) 


VEVNENNVNVNVNV EN ENNNNN EN EN NY NN NN NN NV 


Ce qui donne: 
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E 


| 


R OIIE 


Hertzian Dipole 
100 80 


120 60 


140 40 
160 20 
180 0 
200 340 
220 320 


240 300 
260 280 


Un autre graphique polaire bien connu en science (optique) est celui utilisé comme 
diagnostique avec les opérations LASER (LASIK) pour l'œil: les topographies cornéennes! 


Voyons comment reproduire un tel graphique! 


Le code est relativement long donc nous n'allons pas faire de capture d'écran mais juste le 
fournir ici en texte brut avec le résultat final qui lui sera une capture d'écran par contre: 


#Code crée par Tim Riffe 
#Source: https://gist.github.com/timriffe/2893780 


Polarimagelnterpolate <- function(x, y, z, outer.radius = 1, 
breaks, contours = TRUE, legend = TRUE, 
axes = TRUE) !{ 


#fQuelques paramètres globaux 
NumberPoïints <- 1000 
circle.rads = pretty(c(0,outer.radius)) 
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couleur.cercles.concentriques = "#66666650" 


minitics <- seq(-outer.radius, outer.radius, length.out = 
NumberPoints ) 
# interpolation des données (c'est subtil) 
Interp <- akima::interp(x = x, y = y, Zz = 2, 
extrap = TRUE, 
xo = minitics, 
yo = minitics, 
linear = FALSE) 
Mat <- Interp{[[3]] 


# marquer les cellules à l'extérieur du cercle comme NA 
markNA <- matrix(minitics, ncol = NumberPoints , nrow = 
NumberPoints ) 


Mat ['sqrt(markNA ? 2 + E(markNA) * 2) < outer.radius] <- NA 


if (!'missing(breaks))f 


col <- rev(heat.colors(length(breaks) - 1)) 
nlevels <- length(breaks) - 1 
} 
# si une légende est souhaitée, elle se place à droit t nécessit 


un peu d'espace 
if (legend) { 
par(mai = c(1,1,1.5,1.5)) 
} 


# on commence le plot 
image(x = minitics, y = minitics, t(Mat), useRaster = TRUE, asp = 


1, QC 
axes = FALSE, xlab = "", Rèb = M", col = col, breaks = breaks) 
# ajout des courbes de niveau si souhaités 
if (contours)!{ 
CL <- contourlines(x = minitics, y = minitics, t(Mat), levels = 
breaks) 
A <- lapply(CL, function(xy)f{ 


lines(xy$x, xy$y, col = gray(.2), lwd = .5) 
}) 
} 


# ajouter des axes radiaux si vous le souhaitez 
if (axes)! 
# internals for axis markup 
RMat <- function(radians)!{ 
matrix(c(cos(radians), sin(radians), -sin(radians), 
cos (radians)), ncol = 2) 


} 


circle <- function(x, y, rad = 1, nvert = 500)! 
rads <- seq(0,2*pi,length.out = nvert) 
xcoords <- cos(rads) * rad + x 
ycoords <- sin(rads) * rad + y 
chind(xcoords, ycoords) 


for (i in pretty(c(0,outer.radius)))tf 
lines(circle(0, 0, i), col = couleur.cercles.concentriques) 
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# préparation des vecteurs pour les dessin des axes à rayons 


radiaux 
axiserads <=. G(0;:- "1.7. 6% P1.-7/ 03% p1i./.2, 2 # pr 3, SK PI -/ 
6) 
r.labs <- c(90, 60, 30, 0, 330, 300) 
1.labs <- c(270, 240, 210, 180, 150, 120) 
# maintenant on dessine les axies radiaux et on pose leurs 
étiquettes 
for (i in l:length(axis.rads))!{ 
endpoints <- zapsmall(c(RMat(axis.rads{i]) %*% matrix(ci(l, 
0, —-1, 0) * outer.radius,ncol = 2))) 
segments (endpoints[1], endpoints[2], endpoints[3], 
endpoints[4], col = couleur.cercles.concentriques) 
endpoints <- c(RMat(axis.rads[i]) %*% matrix(c(1.1, 0, — 
1.1, 0) * outer.radius, ncol = 2)) 
lab1l <- bquote(.(r.labs[i]) * degree) 
lab2 <- bquote(.(l.labs[i]) * degree) 
text (endpoints[1], endpoints[2], labl, xpd = TRUE) 
text (endpoints[3], endpoints[4], lab2, xpd = TRUE) 
} 
#dessin de l'axe vertical gauche 
axis(2, pos = -1.2 * outer.radius, at = 
sort(union(circle.rads,-circle.rads)), labels = NA) 
text( -1.21 * outer.radius, sort(union(circle.rads, - 
circle.rads)),sort(union(circle.rads, -circle.rads)), xpd = TRUE, pos = 2) 


} 


# dessin de la barre de légende de droite avec le dégradé d 
couleurs 


if (legend) !{ Ke 


ylevs <- seq(-outer.radius$ outer.radius, length = nlevels + 1) 

rect(1.2 * outer.radius, ylevs[1:(length(ylevs) - 1)], 1.3 * 
outer.radius, ylevs[2:length(ylevs)], col = col, border = NA, xpd = TRUE) 

rect(1.2 * outer.radius, min(ylevs), 1.3 * outer.radius, 
max(ylevs), border = couleur.cercles.concentriques, xpd = TRUE) 

text (1.3 * outer.radius, ylevs,round(breaks, 1), pos = 4, xpd = 
TRUE) 


} 


# Example 

set.seed(10) 

x <- rnorm(20) 

y <- rnorm(20) 

z <- rnorm(20) 

Polarimagelnterpolate(x,y,z, breaks = seq(-2,8,by = 1)) 


Ce qui donne: 
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Graphiques à pentes (interactions) 


C'est actuellement assez laborieux à faire comme graphique mais voici un exemple: 


MR RGui (64-bit) - [R Console] _ 


R File Edit View Misc Packages Windows Help #8 x 


EROISE 


library(ggplot2) 
library(scales) 
theme _set (theme _classic()) 


# prep data 

d£f <- read.csv("https://raw.githubusercontent.com/selva86/datasets/master/gdppercap.csv") 
colnames(df) <- c("continent", "1952", "1957") 

left_label <- paste(df$continent, round(df$ 1952°),sep=", ") 

right_label <- paste(df$continent, round(df$ "1957 ),sep=", ") 

df$class <- ifelse((df$ 1957 - df$ 1952) < 0, "red", "green") 


# Plot 
p <- ggplot(df) + geom segment (aes(x=1, xend=2, y=" 1952", yend=" 1957", col=class), size=.75, show.legend=F) + 
geom_vline(xintercept=1l, linetype="dashed", size=.1) + 
geom vline(xintercept=2, linetype="dashed", size=.l) + 
scale color manual(labels = c("Up", "Down"), 
values = c("green"="#00ba38", "red"="#f8766d")) + # color of lines 
labs(x="", y="Mean GdpPerCap") + # Axis labels 
xlim(.S, 2.5) + ylim(O,(1.1*(max(df$ 1952°, df$ 1957 )))) # X and Y axis limits 


Add texts 

+ geom text (label=left label, y=df$ 1952, x=rep(l, NROW(df)), hjust=1.l, size=3.5) 

+ geom text (label=right label, y=df$ 1957", x=rep(2, NROW(df)), hjust=-0.1, size=3.5) 

+ geom text (label="Time 1", x=1, y=1.1*(max(df$ "1952", df$ 1957 )), hjust=1.2, size=Ss) # title 
+ geom text (label="Time 2", x=2, y=1.1*(max(df$ 1952°, df$ 1957 )), hjust=-0.1, size=S) $# title 


D OU TU 
A 
1 
T'UUT 


LL 


Minify theme 

+ theme (panel.background = element _blank(), 
panel.grid = element _blank(), 
axis.ticks = element _blank(), 
axis.text.x = element blank(), 
panel.border = element _blank(), 
plot.margin = unit(c(l,2,1,2), "“cm")) 


VER ENV NN NN NN ENV VV NN NN NN NU NY 
Le] 


Ce qui donne: 


L 
QRK Graphics: Device 2 (ACTIVE) CHERE 


Time 1 Time 2 
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Figure 77 Graph à pentes et interactions temporelles et catégorielles (ggplot) 


R Statistical Software 811/3133 


Vincent ISOZ, Daname KOLANI 


Sciences.ch 


Graphiques Bump 


Voyons donc comment à l'aide du package ggbump faire un tel graphique! 


GR RGui (64-bit) - [R Console] = 

R File Edit View Packages Windows Help - x 

> library("tidyverse") 

> library("ggbump") 

a 

> year <- rep(2019:2021, 4) 

» position = cit, 2, 2, 3, À, 4, 2, 9, d, à, 4, 3 

> player <- c("“Suisse", "Suisse", "Suisse", 

+ "France", "France", "France", 

+ "Allemagne", "Allemagne", "Allemagne", 

+ “Italie”, "Italie", "Italie”) 

> 

> (df <- data.frame(x = year, 

+ y = position, 

+ group = player)) 

X y group 

1 2019 4 Suisse 

2 2020 2 Suisse 

3 2021 2 Suisse 

4 2019 3 France 

5 2020 1 France 

6 2021 4 France 

7 2019 2 Allemagne 

8 2020 3 Allemagne 

9 2021 1 Allemagne 

10 2019 1 Italie 

11 2020 4 Italie 

12 2021 3 Italie 

> 

> ggplot(df, aes(x = x, y = y, color = group)) + 

+ geom_ bump(size = 1.5) + 

+ geom point(size = 6)+ 

+ scale color brewer (palette = "RdBu") 

>| 

Ce qui donne: 
e 
R À Grept e 2 (ACTIVE ONE] 

TE 

3- 
group 
œ Allemagne 

> © France 

© taie 
© Suisse 

2- 

1- 

2019.0 20195 2020.0 2020.5 2021.0 
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Exemple 117.: Diagrammes à points 


Diagramme à points (ou autre) avec table 
R 3.5 


Voici un traitement rare mais pas inexistant qui consiste à mettre une table dans un graphique 
en utilisant le package ggplot2 et gridExtra: 


fe File Edit View Misc ages Windows Help 
EROECE & Œ 


library(ggplot2) 
library(gridExtra) 


VH+HVVVVVVV VON 


#on crée un data frame fictif pour la démonstration 

mydata <- data.frame(a=1:50, b=rnorm(s0)) 

#on en extrait que quatre lignes pour l'exemple de la table dans le graph 
mytable <- chbind(sites-=c("site 1","site 2","site 3","site 4"),mydata{[10:13,]) 


ggplot (mydata,aes(x=a,y=b)) + geom_ point (colour="blue")+ 
geom point (data=mydata(10:13, ], aes(x=a, y=b), colour="red", size=S5)+ 
annotation custom(tableGrob(mytable), xmin=33, xmax=50, ymin=-1, ymax=-2) 


Comme on peut le deviner à la lecture du script ci-dessus c'est tableGrob(}) avec 
annotation_custom() qui vont faire le travail dont voici le résultat (attention!!! vu que les 
valeurs sont générées aléatoirement, le résulét sur votre écran peut changer 
significativement de celui visible ci-dessous!): 
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sites a b 
10 site1 10 -02186798 
11 site2 11 14959238 
12 site3 12 09947672 
13 site4 13 -19330235 


50 
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Diagrammes à points catégoriels (diagramme de Cleveland) 
R 3.0.2 


Nous allons voir ce type de diagramme juste histoire de le faire car dans la pratique il est très 
peu utilisé. Pour cela, nous allons utiliser les données utilisées lors de notre étude théorique de 
l'analyse factorielles (mêmes données que celles utilisées dans le support de cours Minitab), 
soit: 


_ | AnalyseFactori 
Fichier Edition Format Affichage ? 


et nous obtenons en utilisant la commande dotchart( ) : 


R R Console = || ©) || x 


> setwd("C:/") 
> mydata<-read.csv{("AnalyseFactorielle.csv",header=T,sep=";:") 
> dotchart (t (mydata) ,color=c{("red","blue",'"darkgreen"),main="Dotchart",cex=0.8) 


Dotchart 


NiveauNormes 
NiveauStatistique 
NiveauFinance 


NiveauNormes 
NiveauStatistique 
NiveauFinance 


NiveauNormes 
NiveauStatistique 
lveauFinance 


NiveauNormes 
Niveaustatistique 
NiveauFinance 


NiveauMNormes 
NiveauStatistique 
NiveauFinance ' 


Figure 79 Graph de Cleveland (comptage horizontal variables catégorielles) 
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Diagrammes à points (dot plots) 
R 3.0.2 


Bon ici 1l s'agit simplement de voir que l'on peut obtenir le même type de diagrammes à 
points que celui que nous avions fait dans le cours Minitab (mtb) en utilisant le package 
plotrix et la commande dotplot.mtb( ) : 


ce 


R R Console ts lex) 
> libraryiplotrix) 

> setwd{("C:/") 

> mydata<-read.csv("Ventes.csv",header=T,sep=";:") 

> op<-par (bg="white") 

> dotplot.mtbimydata$Quantité,vyaxis=TRUE,main="Dot plot"] 

> 


R R Graphics: Device 2 (ACTIVE) 


Dot plot 


Figure 80 Graph dot-plot 


Donc nous voyons que comme dans Minitab... l'esthétique n'est pas des meilleures. 


Sinon un autre grand classique dans les dot plot en se basant sur le fichier suivant: 
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Fichier Edition Format Affichage 


Pièces Mesure Opérateurs 


Pièce 1:9;,Opérateur 1 
Pièce 2:6,0pérateur 1 
Pièce 3:8,Opérateur 1 
Pièce 4;7:Opérateur 1 
Pièce 5,10; Opérateur 1 
Pièce 6,6,Opérateur 1 
Pièce 1,2:Opérateur 2 
Pièce 2;:1,Opérateur 2 
Pièce 3,4 Opérateur 2 
Pièce 4:1 Opérateur 2 
Pièce 5,5,Opérateur 2 
Pièce 6,2,0pérateur 2 
Pièce 1,5:Opérateur 3 
Pièce 2,3,Opérateur 3 
Pièce 3:6,0pérateur 3 
Pièce 4,2: Opérateur 3 
Pièce 5:6,Opérateur 3 
Pièce 6,4: Opérateur 3 
Pièce 1:8,Opérateur 4 
Pièce 2,2:Opérateur 4 
Pièce 3,8,Opérateur 4 
Pièce d:6,0pérateur 4 
Pièce 5:9,Opérateur 4 
Pièce 6,7,Opérateur 4 


avec la fonction dotplot() du package lattice: 
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library(lattice) 
mydata<-read.csv("C:/tmp/1iCC.csv",header=T,sep=";:") 
dotplot (Mesure-Opérateurs, data=-mydata) 


VVMNVNV 


Opérateur 1 Opérateur 2 Opérateur 3 Opérateur 4 


Figure 81 Graph de Cleveland vertical 
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Diagramme tournesols (analyses de densité 2D) 
R 3.0.2 


L'idée du diagramme tournesol est simple: à chaque fois qu'un point se superpose à un autre 
de coordonnées identiques, un pétale sous forme de trait est rajouté et le centre de ses 
"pétales" successives sont les points superposés eux-mêmes. 


R à Console a || El || x 


> setwd{("C:/"] 

> mydata<-read.csvi"VentesClean.csv",header=T,sep=";") 
> sunflowerplot (mydata$Quantite-mydataf$fNClient) 

> de 
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Figure 82 Graph X-Y Tournesols 


Ou en bruitant les données avec la commande jitter( ) : 


R Statistical Software 819/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


> setwd("C:/") 
> mydata<-read.csv("VentesClean.csv",header=T,sep=";:") 
> plotijitter (mydata$fNClient) ,jitter (mydata$Quantite)) 
> | 


œ 
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= 

D 
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jitter(mydata$NClient) 


Figure 83 Graph X-Y jitter 


Ou en utilisant un estimateur local de densité associant la commande image() et la 
commande kde2d( ) : 
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mydata<-read.csv("VentesClean.csv",header=T,sep=":" 
library(MA55) 
edl<-kde2d(mydata$NClient,mydata$Quantite,n=100) 

image (edl,main="ivec estimateur de densité locale 2D") 


Ou encore: 


setwd({i"C:/") 
mydata<-read.csv("VentesClean.csv",header=T,sep=":") 
library(MAisSS) 
edl<-kde2d(mydatafNClient,mydata$Quantite,n=100) 
filled.contour (edl,main="ivec estimateur de densité locale 2D") 


VUNNNY 


Avec estimateur de densité locale 2D 
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Et en associant avec la commande contour ) : 


# 

R & Console EEE 
2 

> mydata<-read.csv{("VentesClean.csv",header=T,sep=";") 

> library(MASS) 

> edl<-kde2d(mydata$NClient,mydata$Quantite,n=100) = 

> contour (edl,main="ivec estimateur de densité locale 2D") 

> 


Avec estimateur de densité locale 2D 


15 20 2%, A 


Ou nous pouvons passer à une vue 3D: 


R Statistical Software 


822/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Pa . 


R R Console EEE 


> setwd{"C:/") 

> mydata<-read.csv("VentesClean.csv",header=T,sep=";") 

> library(MiSS) 

> edl<-kde2dimydata$fNClient,mydata$Quantite,n=100) 

> persp(edl,theta=130,ylab="Quantité",xlab="N° Client",zlab="Densité de probabilité", 

+ mes estimateur de densité locale 2D") 

> £ 


IR R Graphics: Device 2 (ACTIVE) 


Figure 85 Graph X-Y avec carte de densité 3D filaire 


Évidemment comme toujours avec tout diagramme... l'interprétation peut être délicate (raison 
pour laquelle je me rabats toujours si possible sur des indicateurs empiriques et acceptés par 
la communauté scientifique comme étant robustes). 
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Co-diagramme 
R 3.0.2 


La commande coplot() , pour plot conditionnel, génère en quelque sorte des projections de 
plot à 3 dimensions sur de multiples plans de 2 dimensions. 


Par exemple, supposons que nous souhaitons comparer les factures payées et non payées en 
fonction des articles et de la quantité commandée. 


Nous avons alors: 


R R Console RENE 


+ 


> setwd{"C:/") 

> mydata<-read.csv("VentesClean.csv",header=T,sep=";") 

> coplot (mydata$Quantite - mydata$ärticle| mydataf$FacturePayee,xlab="Articles", 
+ ylab="Quantités",main="Coplot") 

> | 
R R Graphics: Device 2 (ACTIVE) 


Given: mydata$FacturePayee 
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Figure 86 Graph de type co-diagramme 


Nous pouvons donc conclure que les factures non payées ne sont pas distinctes pour un article 
donné ou une quantité donnée. Les bons ou mauvais payeurs se comportent donc vraiment de 
manière aléatoire et non systématique. 


Vous pouvez jouer avec ce graphique en remplaçant les factures payées par une variable 
numérique ainsi que les noms des articles. C'est très efficace mais la lecture peut vite devenir 
compliquée. 
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Par exemple en s'amusant avec un jeu de données intégré à R, nous obtenons uniquement avec 
des valeurs numériques: 


e 


KR & Console s|s|x| 


> coplotilat - long | depth, data = quakes) 
> fi 


Given : depth 
300 400 
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Symboles disponibles pour les graphiques à points 
R 4.1.1 


Voici un type de diagramme relativement souvent utilisé par les ingénieurs et pas évident à 
deviner au niveau du code (surtout à cause du group=1) qu'il faut mettre... pour avoir des 
catégories sur l'axe des abscisses. 


D'abord on prépare un jeu de données pour l'exemple: 


MR RGui (64-bit) - [R Console] _ 


R File Edit View Misc Packages Windows Help = 4 X 


SITa 


> library("ggplot2") 

> library("stringr") 

> mtcars$Brands <- word(rownames (mtcars), 1) 
> head(mtcars,20) 


mpg cyl disp hp drat wt qgsec vs am gear carb Brands 
Mazda RX4 21.0 6 160.0 110 3.90 2.620 16.46 O 1 4 4 Mazda 
Mazda RX4 Wag 21.0 6 160.0 110 3.90 2.875 17.02 O 1 4 4 Mazda 
Datsun 710 22.8 4 108.0 93 3.85 2.320 18.61 1 1 4 1 Datsun 
Hornet 4 Drive 21.4 6 258.0 110 3.08 3.215 19.44 1 O 3 E Hornet 
| Hornet Sportabout 18.7 8 360.0 175 3.15 3.440 17.02 O0 O 3 2 Hornet 
Valiant 18.1 6 225.0 105 2.76 3.460 20.22 1 O 3 1 Valiant | 
| Duster 360 14.3 8 360.0 245 3.21 3.570 15.84 O O© 3 4 Duster | 
| Merc 240D 24.4 4 146.7 62 3.69 3.190 20.00 1 O 3 2 Merc | 
| Merc 230 22.8 4 140.8 95 3.92 3.150 22.90 1 O 4 2 Merc 
| Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 O 4 4 Merc 
Merc 280C 17.8 6 167.6 123 3.92 3.440 18.90 1 O 4 4 Merc 
Merc 450SE 16.4 8 275.8 180 3.07 4.070 17.40 O O 3 3 Merc 
| Merc 450SL 17:3 8 275.8 180 3.07 3.730 17.60 O O 3 3 Merc 
| Merc 450SLC 15.2 8 275.8 180 3.07 3.780 18.00 O O© 3 3 Merc 
| Cadillac Fleetwood 10.4 8 472.0 205 2.93 5.250 17.98 O O 3 4 Cadillac 
Lincoln Continental 10.4 8 460.0 215 3.00 5.424 17.82 O © 3 4 Lincoln 
| Chrysler Imperial 14.7 8 440.0 230 3.23 5.345 17.42 O0 O© 3 4 Chrysler 
| Fiat 128 32.4 4 78.7 66 4.08 2.200 19.47 1 1 4 1 Fiat 
| Honda Civic 30.4 4 75.7 52 4.93 1.615 18.52 ZL 1] 4 2 Honda 
Sr Corolla 33.9 4 71.1 65 4.22 1.835 19.90 1 1 4 1 Toyota 
> 


Et ensuite faisons le graphique: 
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Sciences.ch 


L 


GR Console Riez) 
> ggplot(mtcars, aes(Brands, mpg, group=1l)) + geom point{() + 
- stat_summary(fun = "median", colour = "red", size = 2, geom = "point") + 
+ stat_summary(fun = median, geom="line") 
> 
à 
UF Gr: evice 2 (ACTIVE = |©|x| 
35- 
. 
L 
30- 
L 
25° 
L] 
. . 
eo 
E À 4 
20- 
L 
. 
L 
L 
15- + 
10- 
1 Û Û Û Û ' ‘ ' ' ' ‘ ' ' ‘ ' ' ' ' ' ' ' ' 
AMC CadillacCamaroChrysler Datsun Dodge Duster Ferrari Fiat Ford Honda Hornet Lincoln Lotus Maserati Mazda Merc PontiacPorsche Toyota Valiant Volvo 
Brands 
Si 
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Symboles disponibles pour les graphiques à points 
R 3.0.2 


Voici la liste des symboles disponibles pour les graphiques à points présentant le type de 
symbole pch et leur taille avec cex: 


# Make an empty chart 
plot (1,1, xlim=c(1,5.5), ylim=c(0,7), axes=FALSE, type="n", ann=FALSE) 


# Plot digits 0-4 with increasing size and color 
text (1:5, rep(6,5), labels=ci(0:4), cex=1:5, col=1:5) 


# Plot symbols 0-4 with increasing size and color 
points(1l:5, repi5,5)j, cex=1:5, col=1:5, pch=0:4) 
text ((1:5)+0.4, repi(5,5), cex=0.6, (0:4)) 


# Plot symbols 5-9 with labels 
points(1i:5, repi4,5), cex=2, pch=1(5:9)) 
text ((1:5)+0.4, rep(4,5), cex=0.6, (5:9)) 


# Plot symbols 10-14 with labels 
points(1:5, repi3,5j, cex=2, pch={|10:14)) 
text ((1:5)+0.4, rep(3,5), cex=0.6, (10:14)) 


# Plot symbols 15-19 with labels 
points(1:5, rep(2,5), cex=2, pch=(15:19)) 
text ((1:5)+0.4, rep(2,5), cex=0.6, (15:19)) 


# Plot symbols 20-25 with labels 
points((1:6)*0.8+0.2, rep(1,6), cex=2, pch=(20:25)) 
text((1:6)*0.84+0.5, rep(1,6), cex=0.6, (20:25)]}| 


ce qui donne: 


| Figure 87 Types symboles de points disponibles dans R 
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Exemple 118.: Diagramme d'associations 
R 3.0.2 
Il existe deux familles de diagrammes d'associations! Voyons donc chacune d'entre elle! 


Diagramme d'association pour table de contingence 
sont souvent utilisés pour les tables de contingence. 


Voici un exemple: 


R R Console ES EE 
> mydata<-read.csvi"Ventes.csv",header=T,sep=";") 
> mytable<-table (mydatafärticle,mydata$Facture.payée) 
> mytable 
Non Oui 

AST Intel 150 9 12 

AST Intel 200 13 19 

Compaq Presario 100 14 15 

IBM 500 12 15 
> assocplot (mytable) 
> 

R R Graphics: Device 2 (ACTIVE) [ess 


AST Intel 150 AST Intel 200 Compaq Presario 100 IBM 500 


Figure 88 Graph d'association 


Il faut lire ce graphique dans l'optique d'un tableau de contingence avec la règle du "toute 
chose égale par ailleurs" qui nous sera donné par: 
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Console Is 
> mytable 
Non Oui 
AST Intel 150 9 12 
AST Intel 200 13 19 
Compaq Presario 100 14 15 
IBM 500 22 15 


> as.array{imargin.table (mytable,1)j)$sfst(as.array(margin.table (mytable,2)))/margin.table (mytable) 


Non Oui 
AST Intel 150 9.247706 11.75229 
AST Intel 200 14.091743 17.906826 
Compaq Presario 100 12.770642 16.22936 
IBM 500 11.689908 15.11009 


Ainsi, toute chose étant égale par ailleurs, les AST Intel 150 non payés sont un peu en- 
dessous de la valeur à laquelle on aurait pu s'attendre si toutes les choses avaient été égales 
par ailleurs, les AST Intel 200 très en-dessous, les Compaq très au-dessus et les IBM un tout 
petit peu au-dessus. 
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Diagramme d'association pour table de contingence 


Nous allons ici refaire le même diagramme de Markov que dans le cous théorique avec les 
packages diagram et heemod et la fonction define_transition( ): 


> library("heemod") 
> library("diagram") 
> mat dim <- define transition( 
state _ names = c('Soleil', 'Nuages', 'Pluie'), 


> pilot (mat _ dim) 
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Exemple 119.: Diagramme à mosaïques 
R 3.1.1 & 3.2.1 


Considérons le fichier suivant de traitement contre l'Ulcère: 


Fichier Edition Format Affichage 


Traitement;Gueris on, Nombre 
Û mg C;Ouwi,69 

0 mg C;Non;99 

400 mg COui,113 


400 mg C,Non;69 
800 mg COui,120 
800 mg C;Non;45 
1600 mg COui,145 
1600 mg C;Non;43 


« 


Nous souhaiterions afficher ces résultats sous la forme d'un mosaïque de barre. Pour cela, 
nous utilisons d'abord la commande xtabs() pour faire une synthèse simple et ensuite les 
fonctions dotchart() et mosaicplot() pour les graphiques qui nous intéressent (c'est surtout 
ce dernier qui est l'élément d'intérêt!): 


> mydata<-read.csv("C:/tmp/Ulcere.csv",header=T,sep=":") 
> tab.Ulcer=xtabs (Nombre-Traitement+Guerison,mydata) 
> tab.Ulcer 


Guerison 
Traitement Non Oui 
O0 mg € 99 69 


1600 mg C 43 145 

400 mg € 69 113 

800 mg C 45 120 

#nous combinons les deux types traditionnels de graphiques 

par imfrow=ci1,2) ,mar=c(4,2,1,1)) 

dotchart (tab.Ulcer) 

mosaicplot (tab.Ulcer,color=T,las=1,main=" ",xlab="Traitement",ylab="Status") 


VVNNVVY 


Nous obtenons alors (voir page suivante): 
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0 mg C 1600 maC  400mgaC S800mgcC 


1600 mgC |S 
0 mgC 


Status 


Oui 
800 mg C 
400 mg C 
1600 mg C 
0 mgC 


40 60 80 100 140 Traitement 


Figure 89 Graph à mosaïques 


Toujours dans les diagrammes à mosaïques considérons le jeu de données suivant: 


R RGui {64-bit) - [R Console] — 0 X 
R File Edit View Misc Packages Windows Help ALE: 


ÉBOISOSIOIE 


> mydata<-read.csv("c:/tmp/CountriesGNI.csv",header=T,sep=";") ;:mydata 


iso3 country continent population GNI 
1 ABW Aruba North America 108 0 
2 A1FG Afghanistan Asia 34385 410 
3 AGO Angola Africa 19082 3960 
4 ALB Albania Europe 3205 3960 
5 ÀRE United Arab Emirates Asia 7512 (a) 
6 ARG Argentina South America 40412 68620 
7 ARM Armenia Asia 3092 320R 
8 AS" American Samoa Oceania 68 (e] 
9 ATG Antigua and Barbuda North America 88 13280 
10 AUS Australia Oceania 22299 46200 
LL AUT Austria Europe 8390 47030 
12 AZE Azerbaijan Asia 9054 5330 
13 BDI Burundi Âfrica 8382 170 
14 BEL Belgium Europe 10896 45840 
15 BEN Benin âfrica 8850 780 
16 BF Burkina Faso Africa 16468 550 
17 BGD Bangladesh Asia 148692 700 
18 BGR Bulgaria Europe 7534 6280 
19 BHR Bahrain isia 1262 (a) 
20 BHS Bahamas North ämerica 343 22240 
21 BIH Bosnia and Herzegovina Europe 3760 4770 
22 BLR Belarus Europe 9490 5950 
23 BLZ Belize North America 345 3810 
24 BMU Bermuda North ämerica 65 (a) 
25 BOL Bolivia South ämerica 9929 1810 
26 BRi Brazil South America 194946 9390 
27 BREB Barbados North America 274 (a) 


R Statistical Software 833/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Pour faire un diagramme mosaïque nous utiliser la commande du package treemap: 


R R Console 


> library(treemap) 
> treemap(mydata,index=c("continent", "iso3"),vSize="population",vColor="GNl",type="value") 


20000 30000 40000 50000 60000 70000 80000 930000 
GNI 


Figure 90 Graph de type TreeMap 
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Exemple 120.: Diagrammes à barres (fréquences et autres) 
R 3.0.2 


Diagramme à barres simples 


Nous allons ici construire un diagramme de type carte à barre représentant le nombre 
d'occurrence des secteurs dans tout le tableau. Pour ceci, nous écrivons dans un premier 
temps: 


FR Fichier Edition Voir Misc Packages Fenêtres Aide 


setwd{i"C:/") 
mydata<-read.csv("Ventes.csv",header=T,sep=":") 
mydata<-aggregate (mydata[1],by=1list (mydataf$ictivité) ,FUN=length) 
colnames (mydata) <-c{"Secteurs","Comptage") 
mydata 
Secteurs Comptage 
Alimentaire 7 
Assurances 10 
Banques 9 
Construction EE 
Distribution 15 
Éducation 19 
7 Machines/Outils 15 
5 This 12 
> 


et ensuite, nous utilisons la commande barplot() avec quelques raffinements et la 
commande text() pour ajouter les valeurs au-dessus des barres de l'histogramme: 
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R & Console [sala|x| 
> mychart<-barplot (mydataf$Comptage,main="Secteurs" d 
+ , ylab="Total",ylim=c(0, 25),names.arg=-mydata$Secteurs,col=rainbow(S) ,cex.names=0.5) 
> text (mychart, mydata$Comptage+1, labels=mydata$Comptage) 
> | 
fé x" 
R R Graphics: Device 2 (ACTIVE) ss) 
Secteurs 
Ce 
[a 
21 
[=] 
A 7 19 
Lo — 
— 
pl E 12 
S 
= 10 
— 7 9 
7 
| || 
o 
&lmertalre ASS UTANCES Baiques Construction Dktbation Echcation Machhes Qt Phammacettque 


Figure 91 Graph à barres et couleurs 


ou une petite variante toujours avec barplot( ) : S 
Ÿ 
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FÆ 
R R Console sex] 


> mychart<-barplot (imydataf$Comptage,main="Secteurs",ylab="Total", f 
+ ylim=c(0,25)j,names.arg=-mydata$Secteurs,col=rainbow(8) ,cex.names=0.5, 

+ density=c(3,4,9,1,6,20,15,2) ,angle=c(45,-45,45,-45,45,-45,45,-45)) 

> | 


Secteurs 


2ÈE 


Almertalre ASSURANCES Barques Construction Dktbation Echcation Macthes Otis 


Figure 92 Graph à barres avec remplissages 


Diagramme à barres empilées 


Sinon voici comment faire un diagramme à barres simples empilées avec ggplot? et selon la 


demande d'une de mes participants, à partir d'un jeu de données dont la structure de base n'est 
pas idéale à la base: 
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=) Graph_Barres_Cumul.csv - Notepac — 0 
File Edit Format View Help 
Mois ; Couts ; CoutA;CoutB;CoutC 
1,44439;515;541;928 
2:43936;929;692;711 
3,44464;800;,710;824 
4;41533;979;675;758 
5;46343;1165;1147;635 
6,44922,651;939;901 
7:43203;847;755;580 

8 ,43000 ;942 ;,908 ;589 
9:40967,630;738;682 
19;,48582 ;1113;1175 ; 1050 
11,45003;1086;1075;984 
1244303 ;843;640; 828 
13;42070;500;752;708 
14,44353;813;989;804 

15 ,45968 ; 1190 ; 823 ; 904 
16;47781;1200;1108;1120 
17;,43202;731;,590;1065 
18 44074 ; 1989 ; 607 ;,1132 
19:44610;786;513;839 


Pour en faire un diagramme à barres, nous écrirons: 
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R RGui (64-bit) - [R Console] — 0 X 
ŒR File Edit View Misc Packages Windows Help -Iiix 


> mydata<-read.csv("c:/tmp/Graph Barres Cumul.csv",header=T, sep=";") 
> Graph Barres Cumul<-mydatal[,-2] 
> mydata 

Mois Couts CoutA CoutB CoutC 
44439 515 541 928 
2 43936 929 692 EL 
3 44464 800 710 824 
4 41533 979 675 758 
5 46343 1165 1147 635 
6 
7 
8 


Es 


44922 651 939 301 

43203 847 755 580 

43000 942 308 589 
9 40967 630 738 682 
10 10 48582 1113 1175 1050 
11 11 45003 1086 1075 384 
12 12 44303 843 640 828 
23 13 42070 500 752 708 
14 14 44353 813 9389 804 
15 15 45968 1190 823 304 
16 16 47781 1200 1108 1120 
17 17 43202 731 590 1065 
18 18 44074 1089 607 1132 
19 19 44610 786 513 839 
library("reshape") 
library ("ggplot2") 
mydata<-(melt (Graph Barres Cumul,id="Mois")) 


LO © -J O 1 & W NH 


ggplot (mydata, aes(fill=-variable, y=value, x=as.factor (Mois))) + 
geom_ bar( stat="identity")+labs(x = "Mois",y="Ventes") 


Ce qui donnera: 


: 
MR Graphics: Device 2 (ACTIVE) Sen | 


variable 

[el CoutA 
Œ CoutB 
EM couc 


Ventes 


PS CR CS SC 
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 
Mois 
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Diagramme à barres avec erreurs 


Mais les barres d'erreurs manquent!!! Et comme elles ne sont pas natives dans R (mais elles le 
sont dans ggplot2 selon l'exemple présenté ci-après!), voici un petit script pour palier à ce 
problème (script tout à fait améliorable avec un choix des valeurs de barres d'erreurs 
empirique pour simplifier l'exemple): 


mydata<-read.csv("C:/tmp/Ventes.csv",header=T,sep=";") 
mydata<-aggregate (mydata,by=list (mydata$Activité),FUN=length) 
colnames (mydata) <-c ("Secteurs”","Comptage") 
error.bars<-function(yv,z,nn)t{ 
xv<-barplot (yv,ylim=c(0, (max (yv)-1nax(z))),names=nn, ylab=deparse (substitute(yv))) 
g= (max (xv)-min(xv) )/50 
for(i in 1:lengthi{xv)) { 
lines(c(xv[i],xvli]),c(yvli]+z[i],yvli]-z[i])) 
lines(c(xv[(i]-g,xvli]+g),c(yvli]+z[i], vyvli]+z{i])) 
lines(c(xv[i]-g,xvli]+g),c(yvli]-z[i], vyvli]-z[i])) 
} 
} 
error.bars (mydata$Comptage,c(2,3,1,5,2,4,3,2) ,mydata$Secteurs) 


> 
17 
1> 
> 
-— 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
> 
> 


Ce qui donne: 


R Statistical Software 840/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Alimentaire Banques Distribution  Machines/Outils 


@ 
Fe) 
& 
a 
= 
fe) 
e) 
$ 
© 
É 


Figure 93 Graph à barres avec marges d'erreurs 


En utilisant le package ggpubr et sa fonction ggbarplot( ) c'est beaucoup plus facile: 
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> mydata<-read.csv("c:/tmp/Ventes.csv",header=T,sep=";") 
> library("ggpubr") 

> 

> ggbarplot (mydata, x = "Article", y = "Quantité", 

- add = c("mean se", "jitter"), fill = "#BF504D") 

> 


‘2 
+ 
EI 
= 
G 
= | 
[e] 


Compaq Presario 100 IBM 500 AST Intel 150 AST Intel 200 


On peut aussi faire des barres regroupées avec erreurs simplement avec ce package: 
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> mydata<-read.csv("c:/tmp/Ventes.csv",header=T,sep=";") 
> library("ggpubr") 


ggbarplot (mydata, x = "Article", y = "Quantité", 
add = c("mean sd", "jitter"), 
color = "Facture.payée", palette = c("#307F7F", "#BF504D"), 
position = position dodge(0.8) 
} 


VH+++VV 


Facture. payée || Non +-] oui 


2 
1 
= 
[es 
œ 
3 
Q 


Compaq Presario 100 IBM 500 AST Intel 150 AST Intel 200 
Article 


Diagramme à barres groupées 


Nous pouvons également faire comme dans les tableurs des séries (pas facile à deviner) 
toujours avec barplot( ) : 
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Sciences.ch 


R R Console W 


setwd({"C:/") 


14 


12 


10 


. 
R R Graphics: Device 2 (ACTIVE) 


"” mean 
” median 


Sinon avec le package plotlix et sa fonction b 


VONT VN 


rbind (mi,mz2) 

Non Oui 
m1 9.416667 7.081967 
2 6.500000 6.000000 
r<-rbind(mi,rmz) 


VENVTTYT 


9.42 


7.08 


Non Oui 


Figure 94 Graph à barres avec groupement par catégories 


intéressantes: 
R 
R File Edit View Misc Packages Windows Help 


s 


+ 


Le] 


++ + + 


arp on peut fait des choses assez 
urpbO) on p 


L= Le) 


mydata<-read.csv("Ventes.csv",header=T,sep=";") 
mi<-tapplyimydata$Quantité,mydata$Facture.payée,mean) 
m2<-tapplyimydatafQuantité,mydata$Facture.payée,median) 


b<-barplot(r,col=c{"green","bhlue"),ylim=c(0,15),beside=T) 
legend("topleft",c("mean","median"),col=c{("green","blue") ,pch=15) 
text(ix=b,v=c(r{1]1,r[(21,r13],;r[4]),lebels=ciroundirft1],2), 
round(r{[2],2),r[3],r[4]),pos=3,col="black",cex=1.25) 


library("plotrix") 


(happyday<-data.frame (Monday=c(2.3,3.4),Tuesday=c(2.8,3.3),Wednesday=c(3.2,3.1), 


Thursday=c(3.6,2.8),Friday=c(4.2,2.6),Saturday=c(4.5,2.9),Sunday=c(4.1,2.8))) 


Monday Tuesday Wednesday Thursday Friday Saturday Sunday 
Fe 2.8 3:2 3.6 +2 4.5 4.1 
3.4 3:3 31 2.8 2.6 2.9 2.8 


happylabels<-c("Utterly dashed","Rather mopey",'"Indifferent","Somewhat elated" 


"Euphoric") 


barp(happyday,names.arg=names (happyday),legend.lab=c("Slaves","Unemployed"), 


’ 


legend.pos=list(x=2,y=4.5),col=c{("#ee7700","#3333ff"), main="SAM happiness by weekday", 


xlab="Day of week",ylab="Happiness rating",ylim=c{(l,5),staxx=TRUE, staxy=TRUE, 
height.at=l:5,height.lab=happylabels,cex.axis=0.9,cylindrical=TRUE, 


shadow=TRUE) 


Ce qui donne: 
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# 
MR R Graphics: Device 2 (ACTIVE) EEE 


9AM happiness by weekday 


Happiness rating 
Somewhat elated 
Indifferent Euphoric 


Rather mopey 


Frida 
Tuesday Thursday Saturday 


Utterly dashed 


Day of week 


Ou encore un fameux type de graphique à barres dit "graphique combiné": 


R Statistical Software 845/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


MR RGui (64-bit) - [R Console] — 


GR File Edit View Misc Packages Windows Help el iX 


> library("plotrix") 
> (happyday<-data.frame (Monday=2.3,Tuesday=2.8,Wednesday=3.2, 
+ Thursday=3.6,Friday=4.2,Saturday=4.5,Sunday=4.1)) 

Monday Tuesday Wednesday Thursday Friday Saturday Sunday 


2:3 2:89 3.2 3.6 4.2 4.5 4-1 
happylabels<-c{("Utterly dashed","Rather mopey","Indifferent","Somewhat elated", 
“"Euphoric") 


barp(happyday,names.arg=names (happyday), 
legend.pos=list(x=2,y=4.5),co1l="#3333ff",main="SAM happiness by weekday", 
xlab="Day of week",ylab="Happiness rating",ylim=c(l,5),staxx=TRUE, staxy=TRUE, 
height.at=1:5,height.lab=happylabels,cex.axis=0.9,cylindrical=FALSE, 
shadow=FALSE) 

> lines(c(3.4,3.3,3.1,2.8,2.6,2.9,2.8),col="red", lwud = 2) 

> points(c(3.:4,3.3,3:1,2.:6,2.6,2.9,2.6)) 

> Pr N c("Slaves",'"Unemployed"),bty="n",fill=c{"blue","red")) 

> 


HV VE 


Ce qui donne: 
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le 


GRR Graphics: Device 2 (ACTIVE EI ES 


9AM happiness by weekday 


Euphoric 


M Slaves 
M Unemployed 


Happiness rating 
Somewhat elated 
Indifferent 


Rather mopey 


Monday Wednesday Friday Sunday 
Tuesday Thursday Saturday 


Utterly dashed 


Day of week 


Pour revenier à barplot( ) : 
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Sciences.ch 


Re 


nl 


R R Console s|lg|x| 
> setwd{("C:/") : 
> mydata<-read.csv("Ventes.csv",header=T,sep=":") 
> counts<-table (mydata$ictivité,mydatafFacture.payée) 
> counts 
Non Oui 
Alimentaire PA 5 
issurances 3 7 
Banques 5 4 
Construction 9 12 
Distribution 5 5 
Éducation 6 13 
Machines/Outils 9 9 
Pharmaceutique 9 3 
> par(imar=c(10, 4, 4, 2)) 
> par (xpd=TRUE) 
> barplot (counts,main="histogramme groupé",xlabh="facture payée", 
+ vylab="fréquences",col=rainbow(length(icounts))) 
> legend.text<-rownames (counts) 
> legend(0,-3, legend.text, fill=rainbow(lengthicounts)),cex=0.5) 
> | 
« b 
Q 
| à 
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Figure 95 Graph à barres groupé (cumulé) 
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ou une version horizontale toujours avec barplot( ) : 


p- ] 
R & Console EURE 
> par (mar=c(10,4,4,2)) 
> par (xpa=TRUE) 
> barploticounts,main="histogramme groupé",xlab="facture payée", 

+ ylab="fréquences",col=rainbowilength(icounts)),horiz=TRUE) 

> legend.text<-rownames (counts) 

> legend(0,-0.5, legend.text,fill=rainbowu(length(counts)),cex=0.5) 
> 
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Compilation des diagrammes à barres classiques 


Je l'ai fait pour le fun et pour des raisons pédagogiques! D'abord one prépare les jeux de 
données que nous allons utiliser: 
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MR RGui (64-bit) - [R Console] ns 
GR File Edit View Misc Packages Windows Help ex 


> library("dplyr") 
| > library("ggplot2") 
| > library("ggpubr") 
| > 
es 
| > df <- diamonds $5>% 
| + filter(color $in$ c("J", "D")) +5>% 
- group by(cut, color) +>$ 
| + summarise(counts = n{)) 
‘summarise() ' has grouped output by 'cut'. You can override using the ‘.groups' 
argument. 
> head(d£f, 4) 
# À tibble: 4 x 3 
# Groups: cut [2] 
cut color counts 
<ord> <ord> <int> 


| 1 Fair D 163 
2 Fair J 119 
3 Good D 662 
4 Good J 307 
| > 
> df norm <- diamonds $5>#% 
| + filter(color $in$ c("J", "D'")) 
> head(df norm) 
# A tibble: 6 x 10 
carat cut color clarity depth table price x y = 
<dbl> <ord> <ord> <ord> <db1l> <dbl> <int> <dbl> <dbl> <db1l> 
1 0.31 Good J S1I2 63.3 58 335 4.34 4.35 2.75 
2 0.24 Very Good J VVS2 62.8 57 336 3.94 3.96 2.48 
3 0.3 Good J SIl 64 55 339 4.25 4.28 2.73 
4 0.23 Ideal J VS1 62.8 56 340 3.93 3.9 2.46 
5 0.31 Ideal J S12 62.2 54 344 4.35 4.37 2.71 
6 Good J SIl 63.4 54 351 4.23 4.29 2.7 
> 


Ensuite on écrit le script pour les quatre graphiques qui nous intéressent: 
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 RGui (64-bit) - [R Console] 


OR File Edit View Misc Packages Windows Help 


EE 


theme set(theme pubclean()) 


> 
> 
> 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
> 
> 
> 
> 
+ 
+ 
+ 
+ 
+ 
Fr 
+ 
> 
> 
> 
> 
> 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
> 
> 
> 
> 
+ 
+ 
F 
5 5 
+ 
F 
> 
> 
> 
> à 
> | 


StackedBars<-ggplot(df, aes(x = cut, y = counts)) + 
ggtitle("Stacked Bars") + 
geom bar (aes(color = color, fill = color), 
stat = "identity", position = position stack() ) + 
scale color manual(values = c("#0073C2FF", "#EFCOOOFF") )+ 
scale fill manual (values = c("#0073C2FF", "#EFCOOOFE"))+ 
theme (legend.position="bottom", legend.direction="horizontal", 
axis.text-element text (size=8),legend.title = element blank()) 
#pour mettre à l'horizontale 
#+ coord flip() 


GroupedBars<-ggplot (df, aes(x = cut, y = counts)) + 
ggtitle ("Grouped (absolute) Bars") + 
geom bar (aes(color = color, fill = color), 
stat = "identity", position = position dodge(0.8), width = 0.75 ) + 
scale color manual (values = c("#0073C2FF", "#EFCOOOFF"))+ 
scale fill manual (values = c("#0073C2FF", "#EFCOOOFF") )+ 
theme (legend.position="bottom", legend.direction="horizontal", 
axis.text-element text (size=8),legend.title = element blank()) 
#fpour mettre à l'horizontale 
#+ coord flip() 


EroorBars<-ggplot(df norm , aes(cut, price, fill = color)) + 

ggtitle ("Grouped Bars with Errors") + 

stat _summary(geom = "bar", fun = mean, position = "dodge") + 

stat _summary(geom = "errorbar", fun.data = mean se, position = "dodge")+ 

scale color manual (values = c("#0073C2FF", "#EFCOOOFF"))+ 

scale fill manual (values = c("#0073C2FF", "#EFCOOOFF"))+ 

theme (legend.position="bottom", legend.direction="horizontal", 
axis.text=element text (size=8),legend.title = element blank()) 

#pour mettre à l'horizontale 

#+ coord flip() 


NormalizedBars<-ggplot (df norm , aes(x = cut,fill=color)) + 

ggtitle("Normalized (relative) Bars") + 

geom bar (aes(color = color, fill = color),position = "fill")+ 

scale color manual(values = c("#0073C2FF", "#EFCOOOFF") )+ 

scale fill manual (values = c("#0073C2FF", "#EFCOOOFF") )+ 

theme (legend.position="bottom", legend.direction="horizontal", 
axis.text=element text (size=8),legend.title = element blank()) 

#fpour mettre à l'horizontale 

#+ coord flip() 


ggarrange (StackedBars, GroupedBars,NormalizedBars,EroorBars, ncol = 2, nrow = 2) 


Ce qui donne: 


R Statistical Software 


851/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Œ = =— = EEE = OO 


(R R Graphics: Device 2 (ACTIVE) LL 01)(eE) 
Stacked Bars Grouped (absolute) Bars 
3000 - 
2000 - 
2 2 
Æ 2000 - 5 
O O 
oO Le] 
1000 - 
1000 - I 
= Es ,- un E 
Fair Good Very Good ni ideal Fair Good Very Good RES ideal 
cut cut 
Rom: om: 
Normalized (relative) Bars Grouped Bars with Errors 
6000 - 
© 4000 - 
© 
Q. 
2000 - 
Fair Good Very Good Premium ideal Fair dess Very Good Premium ideal 
cut cut 


om: 


Ho: 


Diagramme à barres empilées à 100% 


Nous pouvons mettre évidemment cela en normalisant à l'unité: 
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R 8 Console ba) 5-)(53) | 


> setwd{i"C:/"] 
> mydata<-read.csv{("Ventes.csv",header=T,sep=";") 
> counts<-prop.table (table (mydatafictivité,mydata$Facture.payée),2) 
> counts ji 
Non Oui 

Alimentaire 0.04166667 0.08196721 

Assurances 0.06250000 0.11475410 

Banques 0.10416667 0.06557377 

Construction 0.18750000 0.19672131 

Distribution 0.10416667 0.13114754 

Éducation 0.12500000 0.21311475 

Machines/Outils 0.18750000 0.14754098 

Pharmaceutique 0.18750000 0.04918033 
> par (mar=c(10,4,4,2)) 
> par (xpd=TRUE) 
> barplot (counts,main="histogramme groupé",xlab="facture payée", 
+ ylab="fréquences",col=rainbow(length(icounts))) 
> legend.text<-rownames (counts) 
> legend(0,-3,legend.text,fill=rainbow(lengthicounts)),cex=0.5) 
> 


Ce qui donne (mais sans l'axe en pourcentages): 
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Figure 96 Graph à barres groupé et normalisé 
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Avec les packages scales, reshape2 et ggplot2 et en associant de façon très subtile les 
commandes prop.table( ) , as.data.frame.matrix() , melt() et ggplot() nous pouvons faire 
bien mieux quand il s'agit d'obtenir des diagrammes à barres groupés et normalisés: 


> library(scales) 

> library(reshapez2) 

> library(ggplotz2) 

> setwd{("C:/"] 

> mydata<-read.csv("Ventes.csv",header=T,sep=":") 

> mydata<-prop.table (table (mydata$ictivité,mydata$Facture.payée),2) 
> mydata<-as.data.frame.matrix (mydata) 

> mydata<-melt (chind(imydata,ind=rounames (mydata)),is.vars=c("ind")) 
Using ind as id variables 


> mydata 
ind variable value 
À Alimentaire Non 0.04166667 
2 Assurances Non 0.06250000 
3 Banques Non 0.10416667 
4 Construction Non 0.18750000 
5 Distribution Non 0.10416667 
6 Éducation Non 0.12500000 
7 Machines/Outils Non 0.18750000 
E] Pharmaceutique Non 0.15750000 
9 Alimentaire Oui 0.08196721 
10 Assurances Oui 0.11475410 
11 Banques Qui 0.06557377 
12 Construction Oui 0.19672131 
13 Distribution Oui 0.13114754 
14 Éducation Oui 0.21311475 
15 Machines/Outils Oui 0.14754098 
16 Pharmaceutique Qui 0.04918033 
> 
> ggplot (mydata,aes (x=factor (variable) ,y=value, label=paste (round(value*100), 
+ ré" ,fill=factor (ind)))+ geom bar(stat="identity"}) + geom text (position="stack", 
+ | aes(ymax=1l) ,vijust=1) + scale y continuous (labels = percent) 
> 


« 


Ce qui donne: 
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Figure 97 Graph à barres groupé et normalisé (ggplot) 


Ou encore avec le package plotrix et en utilisant la commande barp( ) : 


€ 


R R Console Rex) 


> libraryiplotrix) 

> setwud{"C:/") 

> mydata<-read.csv("Ventes.csv",header=T,sep=";") 

> Mean<-tapplyimydatafQuantité,mydataf$Facture.payée,mean) 

> Median<-tapply(mydata$fQuantité,mydata$Facture.payée,median) 

> mydata<-rhind(Mean,Median) 

> # get some extra room on the left 

> par imar=c(5,5,4,2)) 

> # make up some happiness data, as so many seem to do 

> barp(mydata,names.arg=colnames (mydata) , legend. lab=rounames (mydata), 
+ legend.pos=list(x=2.2,y=9) ,col=c{"#ee7700","#3333ff"),main="Double série", 
+ xlab="Facture",ylab="Quantité",cylindrical=TRUE, shadow=TRUE) 

> grid) ( 

> | 
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Et considérons l'exercice de style suivant avec le package ggplot2 et la commande 
geom_bar() qui n'est pas dénuée d'intérêt: 


F 


R R Console se |x| 


… 


LA 


library(ggplot2) 

setwd({"C:/") 

mydata<-read.csv("VentesClean.csv",header=T,sep=";") 
mydata<-mydatal,c(-1:-3,-7:-10)] 
mydata$DateDeCommande<-weekdays (as.Date (mydataf$DateDeCommande,'"$d.sm.$Y")) 
names (mydata) [1] <-paste ("Jour") 

mydata<-aggregate (mydata$Quantite,by=list (mydatafärticle,mydata$Jour),FUN=sum) 
names (mydata) <-c{("irticles","JourSem","Quantite") 
mydata<-mydata[order (factor (mydatafJourSem, 
levels=c{i"lundi","mardi","mercredi","jeudi","vendredi"))),] 

ggplot (mydata,aes(x=Jour$em,y=Quantite,fill=irticles))+ 

geom bar(stat = "“identity"] 
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Figure 98 Graph à barres groupé cumulé (ggplot) 


Le lecteur aura remarqué que trié le data frame par jour de la semaine n'influence pas l'ordre 
des jours dans le plot (sic!). 


Enfin voyons comment faire un diagramme à barre groupé car c'est loin d'être trivial 
(contrairement à Microsoft Excel) en se basant sur le jeu de données suivant: 
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Be) DiagrammeBarre_Groupe.csv - Notepad 


File Edit Format View Help 


Category;Recovery;Acids;Value 

Milk;1st extraction;Formic acid;0.53 

Milk;1st extraction; Chlorhydric acid;0.49 
Milk;1st extraction;acetic acid;0.64 
Milk;Recovery 3rd exractions;Formic acid;0.14 
Milk;Recovery 3rd exractions;Chlorhydric acid;0.14 
Milk;Recovery 3rd exractions;acetic acid;0.19 
Water;total Extraction;Formic acid;0.76 
Water;total Extraction;Chlorhydric acid;0.76 
Water;total Extraction;acetic acid;0.73 


En utilisant les packages ggplot2, grid et gtable et en écrivant (...): 


R RGuï (64-bit) - [R Console] 


GR File Edit View Misc Packages Windows Help 


|> library(ggplot2) 
|> library(grid) 

> library(gtable) 
> 


|> mydata<-read.csv("DiagrammeBarre Groupe.csv",header=T,sep=";") 


geom_ bar (aes(fill=Recovery),stat = "identity")+ 
scale y continuous (labels = scales::percent) + 
scale x discrete (limits = levels(interaction(mydata$Category, 
mydata$Acids)), 
labels = rep(c("Milk", "Water'"}), 3))+ 
coord cartesian(ylim=c(0,0.9))+ 
annotate("text", c(1.5, 3.5, 5.5), y = - 0.15, 
label = c("Acetic Acid", 
"Chlorhydric Acid", 
"Formic Acid'"))+ 
theme classic() + 
theme (plot.margin = unit (c(3,1,3,1), "lines"), 
axis.title.x = element _blank()) 


V db db db db dd 6 Ed 6 D 4 VV 


> g <- ggplot_ gtable(ggplot build(p)) 

> g$layout$clip{g$layout$name == "panel"] <- "off" 
> grid.draw(g) 

>| 


Nous arrivons à: 


p <- ggplot (mydata, aes(x=interaction(Category, Acids),y=Value))+ 
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Figure 99 Graph à barres groupé cumulé avec sous-groupes 
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Diagramme à barres groupées avec double axe Y 


Malheureusement je n'ai jamais trouvé une manière simple et élégante de faire très 
rapidement (en un minimum de lignes de codes), un graphique à barres groupées avec double 
axe Y. 


S1 un lecteur a une méthode plus brève pour le même résultat et aussi plus élégante nous 
sommes preneur! 


Considérons que nous voulons de notre fichier VentesCleans.csv faire un graphique à barres 
des Quantités et Prix total avec rabais. Evidemment vu les différences de magnitude entre les 
deux il va nous falloir un double axe! 


La solution que nous proposons est la suivante: 
D'abord nous chargeons les données, supprimons le superflu, faisons un calcul de contrôle et 


préparons un data frame adapté au graphique à barre (le lecteur notera que cette préparation 
est subtile et très "bricolage"): 
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C° RGui (64-bit) - [R € 


> library("ggplot2") 
> library("tidyr") 
> library("dplyr") 
> library("scales") 
> 
> #on charge les données 
> mydata<-read.csv("c:/tmp/VentesClean.csv",header=T,sep=";") 
> #on ne garde que les colonnes qui nous intéressent 
> mydata<-mydata{,c(5,6,9)] 
> head(mydata) 
Article Quantite PrixTotalAvecRabais 
1 Compaq Presario 100 12 19503.00 
2 IBM 500 2 4598.00 
3 AST Intel 150 5 13450.00 
4 AST Intel 200 3 9570.00 
5 Compaq Presario 100 13 21128.25 
6 AST Intel 150 2 5380.00 
> 
> #un tableau résumé pour comparer avec les valeurs du graphique 
> mydata $>$ group by(Article) $>$ summarize at(c("Quantite","PrixTotalAvecRabais"),sum,na.rm=TRUE) 
# A tibble: 4 x 3 
Article Quantite PrixTotalAvecRabais 
<chr> <int> <db1> 
1 AST Intel 150 176 463635. 
2 AST Intel 200 224 703028. 
3 Compaq Presario 100 335 541819. 
4 IBM 500 149 339034. 
> 
> #on prépare un jeu de données particulier pour ce type de graph 
> DFlong <- mydata |> 
+ pivot_longer (cols = -Article, names to = "Iype") |> 
+ group _by(Article, Type) |> 
+ summarise (value = sum(value), .groups = "drop") |> 
_ #ici il y a l'astuce d'un facteur 1000 qu'il faut adapter selon les situations! 
+ mutate (scaled value = ifelse (Type == "PrixTotalAvecRabais", value, value * 1000)) 
> DFlong 
# À tibble: 8 x 4 
Article Type value scaled value 
<chr> <chr> <db1> <db1> 
1 AST Intel 150 PrixTotalAvecRabais 463635. 463635. 
2 AST Intel 150 Quantite 176 176000 
3 AST Intel 200 PrixTotalAvecRabais 703028. 703028. 
4 AST Intel 200 Quantite 224 224000 
5 Compaq Presario 100 PrixTotalAvecRabais 541819. 541819. 
6 Compaq Presario 100 Quantite 335 335000 
7 IBM 500 PrixTotalAvecRabais 339034. 339034. 
8 _ 500 Quantite 149 149000 
> 


Maintenant faisons le graphique: 
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FE 


R Console | ©] || à 
> le graphique 
> options(scipen = 999) #pour éliminer la notation scientifique dans les axes Y 
> ggplot (DFlong, aes(x = Article, y = scaled value, fill = Type)) + 
+ geom_col(position = "dodge", na.rm = TRUE, color = "black") + 
- #ici il y a l'astuce d'un facteur 1000 qu'il faut adapter selon les situations! 
+ scale y continuous(sec.axis = sec axis(- . / 1000, name = "Quantite")) + 
+ labs(y = "PrixTotalAvecRabais") + 
+ theme (legend.position = "bottom") + 
+ geom text (aes (label = format (value, big.mark = "'", scientific = FALSE)), 
+ vjust = -.3, position = position dodge (width = .S)) 
> | 
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Diagramme à barres de type histogramme 


Nous pouvons aussi avec la commande hist() que nous retrouverons plus loin obtenir un 
diagramme en fréquences avec un nombre d'intervalles choisi dont nous colorions certains 
d'entre eux: 
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> 
> 
> 
> 
> 


à 
R R Console sex] 


> | 


mydata<-read.csv("C:/VentesClean.csv",header=T,sep=":") 

LSL<-5 #Lower Specification Limit 

USL<-15 #Upper Specification Limit 

histgm<-hist (mydataf$Quantite,breaks=20,plot=FALSE) 

plot ihistqm,col=ifelse (abs (histam$breaks) <LSL,"red",ifelse(abs(histgm$breaks)>USL,"purple","graysS0"))) 
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Figure 100 Graph de type histogramme avec couleurs différentes pour intervalles 


Remarquez que nous pouvons obtenir les valeurs détaillées de l'histogramme qui sont implicitement 
contenues dans la commande hist( ) : 
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> mydata<-read.csv("C:/VentesClean.csv",header=T,sep=";:") 
> histgm<-hist (mydatafQuantite,breaks=20,plot=FALSE) 
> histogm 
$fbreaks 
[11] 0 2 4 6 86 10 12 14 16 18 20 22 24 26 28 30 32 34 


$fcounts 
[11 15 20 23 16 5 11 6 3 D 1 4 3 


$fdensity 
[1] 0.065807339 0.091743119 0.105504587 0.073394495 0.022935760 0.050458716 0.027522936 0.013761468 0.000000000 
[10] 0.004587156 0.018348624 0.013761468 0.000000000 0.000000000 0.000000000 0.004587156 0.004587156 


$mids 
ELR 35 7 911 13 15 17 19 21,23 25 27 29.31 33 


$xname 
[1] "mydatafQuantite" 


fequidist 
[1] TRUE 


attr(,"class") 
[1] "histogram" 


>| 


« 
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R R Console Ssle|x) 


> quant.quantile<-quantile imydata$Quantite,c(0.25,0.5,0.75)) 
> quant.quantile 
25% 50% 75% 
4 6 11 
> abline(v=quant.quantile, lud=2,lty=c(4,1,4)) 
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Diagramme à barres de type cascade 


Au niveau des graphes de types barres en "cascade" ("waterfall chart" en anglais) je n'ai rien 
trouvé de mieux à ce jour que le package waterfall qui propose une fonction 
waterfallchart() ayant cependant deux limitations majeures: 


1) Elle ne différencie pas les variations positives et négatives par des couleurs 


2) Le graphique ne conserve par l'ordre d'origine des données dans les vecteurs 11 faut donc tricher en 
précédent les noms des légendes par des numéros pour avoir l'ordre désiré 


3) La fonction ajoute systématique une ligne Total qu'il n'est pas possible de supprimer ni de 
renommer 


En reprenant le même exemple que dans la formation Microsoft Excel cela donne: 


KR R Console (= IEEE 


library(waterfall) 
labels<-as.factor(c("(1) 2000","(2) Netsales","1(3) COGS","{(4) Others","(5s) 2001")) 
values<-c(100,70,-10,-30,-130) 

mydata<-data.frame(labels,values) 

vaterfallchart (labels-values,data=mydata,horizontal=TRUE, 
level.lines=FALSE,main="Waterfall Chart") 
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Figure 101 Graph Waterfall 


A noter que la fonction waterfallplot( ) à un paramètre col qui permet de changer la couleur 
de chaque barre que le souhaite (typiquement via un colonne codant les couleurs)! 
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On peut faire évidemment beaucoup mieux avec le package waterfalls et la fonction du 
même nom waterfalls( ): 


GR Console 


LA 


library("ggplot2") 

library("waterfalls") 

category <- c("Sales", "Services", "Fixed Costs", 
"Variable Costs", "Taxes'") 

amount <-— c(101000, 52000, -23000, -15000, -10000) 
income <- data.frame(category, amount) 
waterfall(income) + theme bw() 


VN NV Ee VV 


MR Graphics Device 2 (ACTIVE) 


150000 


100000 


Services Fixed Costs Variable Costs 
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Diagrammes à barres mekko 
R4.1.1 


Le diagramme à barre mekko à l'avantage de pouvoir représenter une variable supplémentaire 
dans un diagrammes à barres. Voyons le cas fameux de l'émission de CO: par habitant pour 
quelques pays où si on ne ne représentait pas la population des pays alors le diagramme à 
barres serait forcément biaisé grâce au package mekko et à sa fonction barmekko( ): 


@RR Console || © || 


> library("ggplot2") 

> library("mekko") 

> CO2emission <- data.frame( 

- country = c('USA', 'China', "France', "Switzerland', ‘'India'}), 
- emission = c(15.24, 7.41, 4.62, 4.4, 1.8), 

- population = c(329.5, 1400, 67.39, 8.6, 1380) 

+ ) 

> 

> 

> 


barmekko(CO2emission , country, emission , population ) 


QR R Graphics: Device 2 (ACTIVE) || 23 
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Diagrammes IBCS (International Business Communication System) 
R 4.1.1 


L'IBCS est un standard mondial de représentation visuelle de comptabilité et gestion 
financière. Voici un exemple (pris de Microsoft Power BI/Zebra) de ce quoi à quoi peut 
ressemble ce standard: 


The profit average of our 25 locations is planned to go up from mEUR 59 to mEUR 79 
mainly because of extreme Berlin growth since 2006 
Beta Car, 25 


1 ul | | 
mu Jun 


Sales in U59 Click on a category name in the table 
SCELLANEOU 
to select a category like Mens or Womens 
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Nous allons voir que le package tidycharts permet dans un moindre mesure de créer quelques 
graphiques de l'IBCS (un peu est mieux que rien...). 


Les exemples donnés ci-dessous sont simplement pris de la vignette disponible ici: 


S 


SC 
https://cran.r-project.org/web/packages/tiycharts/vigsnettes/Getting Started.html 


Nous créons donc un jeu de données à la volée: 


R File Edit View Misc Packages Windows Help E x 


> library("tidycharts") 
> (data barchart <- data.frame( 
_- dep = c('Services', 'Production', "Marketing', "Purchasing'}), 


+ profit = c{(17, 15, 2, -3), 
+ operational = C(9, 7, 1.5, -0.4), 
_ property = c(4, 4, 0.5, -0.6), 
_ bonus = c(4, 4, 0, -2), 
_- prev_ year = c(10, 16, 4, -1), 
- plan = c{(ll, 13, 2, -2.5) 
+ )) 

dep profit operational property bonus prev year plan 
L Services 17 9.0 4.0 4 10 11.0 
2 Production 15 7.0 4.0 4 16 13.0 
3 Marketing 2 1.5 0.5 (e) 4 2.0 
4 Purchasing —3 -0.4 -0.6 2 1 -2.5 | 
> 


| | 
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Création un graphique IBCS à barres groupées: 


R File Edit View Misc Packages Windows Help _ EX 


> bar chart grouped(data = data barchart, 
_ cat = 'dep', 
— foreground = "profit, 
- background = 'prev year’, 
e markers = 'plan', 
- series labels = c('"PY', '"AC', '"PL')) > 
+ add title('The company XYZ', '"Profit', 'in mEUR', 
+ "compared to different scenarios') 
> #on ferme la fenêtre vide qui s'ouvre 
> dev.off{() 
null device 
5? 


s | 


Ce qui donne dans le navigateur: 


€Y index.html 


e 0 i C:/Users/Vincent_Isoz/AppDa 


Favoris Sciences.ch Scientific-Evolution…. Æ5 Goo 


The company XYZ 
Profitin MEUR 
compared to different scenarios 


Services 
Production 
Marketing 
Purchasing V 


Le fait que ce soit dans le navigateur n'est pas idéal. Voyons donc comment créer un export 
avec une commande adaptée se trouvant dans le package tydicharts: 
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R RGui (64-bit) - [R Console] = 


R File Edit View Misc Packages Windows Help . EX 


> svg string<-(bar chart grouped(data = data barchart, 

_ cat = 'dep', 

- foreground = 'profit, 

- background = 'prev year', 

- markers = 'plan', 

- series labels = c('"PY', '"AC', '"PL')) $>+ 
+ add title('The company XYZ', "Profit', 'in mEUR"', 

” : à 

> 


SVGsave(svg string, "c:/tmp/IBCS bar chart grouped.svg") 


> fon ferme la fenêtre vide qui s'ouvre 
> dev.off{() 
null device 

1 


> | 


Et un fichier svg qu'on peut par exemple insérer dans Microsoft PowerPoint: 


IBCS_bar_chart_grouped.svo 


Ce qui donnera dans PowerPoint: 


Fichier Accueil Insertion Conception Transitions Animations Diaporama Révision Affichage MathType Développeur Compléments Aide © Le 


2 ; HT GO - =- |! [e je) PS 
l [ eee À S 
Coller — Nouvelle  Réutiliser des de au Dessin | Édition Dicter Niveau de 
+ diapositive“ diapositives 3j + — ” bé v confidentialité + 
Annuler Presse-papiers ls Diapositives Police Paragraphe Voix Confidentialité xd 
9-0HT4US g+ EN YO@R-E à-- 
ET AORRENE PORN PORTE l'E: DORE OO COR RENTE AOC CORTE: MOOONNE OOOCRRE LORIE PORE 
1 
= = 
a = 
œ 
re 
Hi The company XYZ 
: Profitin mEUR : 
L compared to different scenarios 
a 
e Services 
- Production 
el Marketing 
+ Purchasing hé 
vw 
œ 
Diapositive 1 de1 [[} Afar(Djibouti  ŸX Accessibilité: consultez nos recommandations | internal Notes 12) D OR —— + 63% 


Ou: 
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R RGui (64-bit) - [R Console] 


ŒR File Edit View Misc Packages Windows Help _ EUX 


svg _string<-(ba 


add title('Th 
"be 

> SVGsave(svg str 

> dev.off({) 

null device 

L 


+++ HV UV 


> | 


Ce qui donnera: 


r_chart absolute variance (data = data barchart, 
cat = "dep, 


baseline = 'plan', 
real = 'profit, 
y_ title = "Plan vs. actual, 


y_style = 'plan') $5>$ 
e company XYZ', "Profit variance', "in mEUR', 
tween plan and actual')) 
ing, "c:/tmp/IBCS bar chart grouped.svg") 


Fichier Accueil Insertion Conception Transitions Animations Diaporama Révision Affichage MathType Développeur Compléments Aide © le) 
é : EE - _ = = 
27 | É Ü GS | À H|alr|e) 
TE je res) G I S S + A = = [3 le: à ; 
” Coller Nouvelle  Réutiliser des Dessin | Édition : Dicter Niveau de 
+ «1 diapositive * diapositives G- V4 A Aa A AA = — 5 id ” v confidentialité + 
Annuler  Presse-papiers ls Diapositives Police Paragraphe Voix Confidentialité LÉ 
D'UHTALABSLB-ENMYOM-B LS. > 
ET ORRNE L'ORRRRE PCR OCR: CORNE CE CREER ENT EN RER-OE RS 7 ORNE ETC CNRS ORNE PRE CORRE TL 
1 
æ 
o 
Ra The company XYZ 
: Profit variance in MEUR 
£ between plan and actual 
a 
E Plan vs. actual 
© Senices 6 
E Production 2 
a 
= Marketing 
3 Purchasing -0.5 
& 
æ 
Diapositive 1 de 1 Œ Afar (Djibouti) ŸX Accessibilité : consultez nos recommandations A internal Notes E EE ol = —1#— + 63% Ce) 


Ou encore: 
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ŒR RGui (64-bit) - [R Console] — O 


QR File Edit View Misc Packages Windows Help __ 5 X 


> svg string<-(bar chart relative variance (data = data barchart, 
_ cat = "dep, 

— baseline = 'plan', 

- real = 'profit, 

- y_ title = "Plan vs. actual', 

- y_style = 'plan') $5>$ 

- add title('The company XYZ', "Profit variance', 'in %', 

- ‘between plan and actual (plan=100%)')) 


> SVGsave(svg string, "c:/tmp/IBCS bar chart grouped.svg") 
> dev.off({) 
null device 
L 
> | 


Ce qui donnera: 


© Enregistrement automatique (@ Présentation] - PowerPoint A Rechercher (Alt+Q) Vincent Isoz 


Fichier Accueil Insertion Conception Transitions Animations Diaporama Révision Affichage MathType Développeur Compléments Aide © el 
v x = + L 
2-|f Ü © ° ——— ile halle el K 
L Coller RE Nouvelle  Réutiliser des ol sn S + = F3 Dessin | Édition  Dicter Niveau de 
+ s diapositive diapositives + £ Aa NX AA = = — Æ és pe * confidentialité 
Annuler Presse-papiers ls Diapositives Police Paragraphe Voix Confidentialité LS 
D-UHFTALUBSLDENSOB- BL: 
D TORORNE L'ORCRCE PORCENE OCORRRE OE O R TEE RE- ET CO ET CRCES: CRRE OCR PAR L'ORRRET-0 
| 
œ 
re 
+ The company XYZ 
- Profit variance in % 
2 between plan and actual (plan=100%) 
° Services 59 
È Production 15 
- Marketing 0 
Ÿ : 
5 Purchasing 20 
vw 
œ 
Diapositive 1 de1 [Q Afar(Djibouti)  Ÿ% Accessibilité: consultez nos recommandations A Internal Notes 12 D OR —— + 63% À 


On peut compiler plusieurs graphs ensembles: 
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| ŒR RGui (64-bit) - [R Console] — 


ŒR File Edit View Misc Packages Windows Help le 


> svg string<-(join charts( 
_- bar_ chart grouped(data = data barchart, 
- cat = data barchart$dep, 
_ foreground = 'prev year’, 
_ background = 'profit, 
_ markers = 'plan', 
_ series labels = c('"PY', '"AC', '"PL')), 
+ bar_ chart absolute variance(cat = data barchart$dep, 
+ baseline = data barchart$plan, 
+ real = data barchart$profit, 
+ y_ title = "Plan vs. actual", 
- y_style = 'plan'), 
+ bar _ chart relative variance(cat = data _barchart$dep, 
- baseline = data barchart$plan, 
- real = data barchart$profit, 
+ y_title = "Plan vs. actual', 
+ y_style = 'plan'), 
- nrows = 1, 
- ncols = 3)) 
> SVGsave(svg string, "c:/tmp/IBCS bar chart grouped.svg") 
> dev.off({() 
null device 
L 
> | 


Ce qui donne: 


Fichier Accueil Insertion Conception Transitions Animations Diaporama Révision Affichage MathType Développeur Compléments Aide © el 


© Q 7 ae sl l/re) 
Q ff G IS AV == 3= | : £t. 
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Diagrammes à barres 3D 
R 3.0.2 


Un cas classique afin de voir si nous pouvons faire en gros la même chose que certains 
tableurs. Encore une fois c'est une excellente démonstration comme quoi dans R il faut 
appliquer des recettes de cuisine car la syntaxe est impossible à deviner intuitivement sans se 
référer longtemps à la documentation. 


D'abord nous créons une table de contingence: 


RGui (64 b0 


R Fichier Edition Voir Misc Packages Fenétres Aide 
E 


> setwud{"C:/") 
> mydata<-read.csv("Ventes.csv",header=T,sep=";") 
> names (mydata) 
[1] "N..Client" "Activité" "N..de.Commande" 
[4] "Date.de.commande" "Article" "Quantité" 
[7] "Prix.par.pièce" "Rabais." "Prix.total.avec.rabais" 
[10] "Facture.payée" 
> mytable<-table(irticle,Facture.payée) 
> mytable 
Facture.payée 
Article Non Oui 
AST Intel 150 g 12 
AST Intel 200 13 19 
Compaq Presario 100 14 15 
IBM 500 12 15 
> | 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


Sa] 


> install.packages("lattice") 

Installing package into ‘C:/Video2Brain/Packages’ 

{as ‘lib’ is unspecified) 

essai de l'URL 'http://cran.rstudio.com/bin/windows/contrib/3.0/lattice 0.20-2$ 
Content type 'application/zip' length 724570 bytes (707 Kb) 

URL ouverte 

downloaded 707 Kh 


le package ‘lattice’ a été décompressé et les sommes MDS5 ont été vérifiées avef 
Avis : impossible de supprimer l'installation précédente du package ‘lattice’ 


Les packages hinaires téléchargés sont dans 
C:\Users\lsoz Vincent AppDataLocal\Temp\RtmpgPf4JN\ downloaded packages 
> library(lattice) 
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R Fichier Edition Voir Misc Packages Fenêtres Aide 


> install.packages("latticeExtra") 

Installing package into ‘C:/VideoZBrain/Packages’ 

(as ‘lib’ is unspecified) 

essai de l'URL 'http://cran.rstudio.com/bin/windows/contrib/3.0/latticeExtra 0.6$ 
Content type 'application/zip' length 2061881 bytes (2.0 Mb) 

URL ouverte 


downloaded 2.0 M 


le package ‘latticeExtra’ a été décompressé et les sommes MDS ont été vérifiées $ 


Les packages binaires téléchargés sont dans 
C:\Users\lsoz Vincent\AppDataiLocal\Temp\RtmpgPf4JN\ downloaded packages 
> library(latticeExtra) 
Le chargement a nécessité le package : RColorBrewer 
Message d'avis : 
In read.dcfifile.pathip, "DESCRIPTION"), c("Package", "Version'")) 
impossible d'ouvrir le fichier compressé 'C:/Video2Brain/Packages/lattice/DESCS 


et ensuite nous y allons joyeusement: 


e 


R R Console = RC EX | 


… 


> cloudimytable, panel.3d.cloud = panel.3dbars, 

à xbase = 0.4, vbhase = 0.4, zlim = c(D, max(mytable)), 

+ scales = list(arrows = FALSE, just = "right”})}, xlab = NULL, vylab = NULL, 
+ col.facet = level.colors(mytable, at = do.breaks (range (mytable), 20), 

+ col.regions = cm.colors, 

+ colors = TRUE), 

+ colorkey = list(col = cem.colors, at = do.breaks (range (mytable), 20)), 

+ | screen = list(z = 40, x = -30)) 

sr 


Figure 102 Graph à barres 3D 
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ou dans un tout autre style avec le package plot3d et la fonction hist3d( ) : 


GR RGui (64-bit) - [R Console] — 


ŒR File Edit View Misc Packages Windows Help = | le 


ÉBSOISOSINIE 


> library("plot3D") 
> hist3D (x = 1:5, y = 1:4, z = VADeaths, 
+ bty = "g", phi = 20, theta = -60, 


+ xlab = "", ylab = "", zlab = "", main = "VADeaths", 
_ col = "#0072B2", border = "black", shade = 0.8, 
+ ticktype = "detailed", space = 0.15, d = 2, cex.axis = le-9) 
> # Use text3D to label x axis 
> text3D(x = 1:5, y = rep(0.5, 5), z = rep(3, 5), 
_ labels = rownames (VADeaths), 
+ add = TRUE, adj = 0) 
> # Use text3D to label y axis 
> text3D(x = rep{l, 4), y = 1:4, z = rep(0, 4), 
_ labels = colnames (VADeaths), 
+ add = TRUE, adj = 1) 
> | 
Ce qui donne: 
E 
MR Graphics: Device F S|e|x. 
VADeaths 


/ 
Urban Female 
Urban Male 


{ 
Rural Female 


Rural Mâle 
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Exemple 121.: Diagrammes bullets (balles) 
R 3.4.1 


Les diagrammes bullets ("crées" par Stephen Few) sont des diagrammes à gauge 
(speedomètre/tachymètre) mais n'ayant pas subi de transformation polaires et dont la 
spécification complète est disponible ici: 


http:/www.perceptualedge.com/articles/misc/Bullet Graph Design _Spec.pdf 


Il n'existe pas à ce jour de package permettant des les créer mais voici un script R disponible 
sur Internet sous licence GPL reproduit ici tel quel!”: 


Bullet Graph 


Bullet graphs have been devised by Stephen Few 
À complete specification of bullet graphs can be retrieved at: 
http://www.perceptualedge.com/articles/misc/Bullet Graph Design Spec.pdf 


Author: Marco Torchiano 
email: marco.torchiano@polito.it 
twitter: @mtorchiano 


Version: 1.1 (20 December 2014) 


Copyright (c) 2014 by Marco Torchigno <marco.torchiano@polito.it> 

Ÿ 

R 
This program is free software: you can redistribute it and/or modify 
it under the terms of the GNU General Public License as published by 
the Free Software Foundation, either version 3 of the License, or 
(at your option) any later version. 


his program is distributed in the hope that it will be useful, 
ut WITHOUT ANY WARRANTY; without even the implied warranty of 
ERCHANTABILITY or FITNESS FOR À PARTICULAR PURPOSE. see the 
U General Public License for more details. 


Q ECO H 
D à 


You should have received a copy of the GNU General Public License 
along with this program. If not, see <http://www.gnu.org/licenses/>. 


x: the value of the indicator to be plotted as the main bar 
ref: the reference value to be plotted as a thick line 
limits: the boundaries of the limits to be plotted as background 
a four-element vector providing: base, 1st limit, 2nd limit, 


upper limit. 

The base and limit are used for defining the scale 
width: the default width of the main indicator as a portion of the 
graph width 

col: the color of the indicator bar 
palette: the colors for the background limits 


1? http://softeng.polito.it/software/R/BulletGraph.R 
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bulletgraph.palette <- function(n,colored)tf{ 
if(colored){ # this colors are up to my personal taste ;-) 


if(n==2) cols = c("firebrick","dodgerblue") 

if(n==3) cols = c("firebrick",'"orange","olivedrabl") 

if(n==4) cols = 
c("firebrick","orange","powderblue","olivedrabl") 

if(n==5) cols = 


c("firebrick",'"orange","powderblue","plum'","olivedrabl") 


if(n>5) cols = hsv((n:1 + n*0.3)/(n*1.3),.9,.8+(1:n/(n*5))) 
jelse{ # these are the gray levels recommended by Stephen Few 
if(n==2) cols = hsv(0,0,c(.65,.9)) 
if(n==3) cols = hsv(0,0,c(.6,.75,.9)) 
if(n==4) cols = hsv(0,0,c(.5,.65,.8,.9)) 
if(n==5) cols = hsv(0,0,c(.5,.65,.8,.9,.97)) 
1if(n>5) cols = hsv(1,0,seq(.4,.97,length.out=n)) 
} 
return(cols) 
} 
bulletgraph <- function(x,ref,limits, name=NULL, subname="", width=0.4, 


col=NULL, 


palette=NULL, colored=T)!{ 


if(length(limits)<3){ 
stop("limits must be a vector with at least three elements") 


} 


if(length(x) !=1){ 
stop (paste("x must be a scalar'",name)) 


} 


limits=sort(limits) 
1if(x<limits{[1] | x>limits{4]){ LC 


} 


stop("x must be within outëT limits") 


if(ref<limits[1] | ref>limits[4]){ 


} 


stop("x must be within outer limits") 


if (width<.OT width>1)!{ 


.n 
.n 


stop("width must be in the range [0 .. 1]") 


ull(name)) name = sys.call()[[2]] 


} 
if(is 
if(is 
} 
if(is 


.n 


ull (palette))f 
palette = bulletgraph.palette(length(limits)-1,colored) 


ull(col))!{ 


if(colored) col="steelblue3" 
else col = "black" 


n = length(limits) 


ranges 


barplot (ranges,col=palette,border=NA,horiz=T, 


xlim=c(min(limits),max(limits)),xpd=F) 


segments (ref,.3,ref,1.1,lwd=3) 
barplot(x[1],width= width,names.arg=name,cex.names=1, 


space=((1-width)/2+0.2)/width, 
add=T,horiz=T,border=NA,col=col,las-=1,xpd=F) 


mtext (subname,side=2,line=1,at=0.4,cex=0.6,adj=1,las-=2) 
if(limits[1]!=0){ 


matrix(tail(limits,-1)-c(0,head(tail(limits,-1),n-2)),n-1) 


warning("Bars should be drawn on à zero-based scale: using a 
jagged base to remark such non conformance.") 

jit = (limits[4] - limits[1])/100 

x = c(rep(c(limits{[1],limits{[1]+jit),6),0) 
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y = c(2:13/10,1.2) 
polygon(x,y,col="white",border="white") 


Avec l'exemple correspondant à exécuter: 


par(mfrow=c(3,1)) 

par(mar=c(2,9,.1,1)) 

# reproducing Stephen Few example in the specification document 
bulletgraph(x=270,ref-260,1limits-c(0,200,250,300), 

name= "Revenue 2005 YTD'",subname="{(U.S. $ in thousands)",colored=F) 
# colored version of the above 
bulletgraph(x=270,ref-260,1limits-c(0,200,250,300), 

name= "Revenue 2005 YTD'",subname="{(U.S. $ in thousands)") 


# an example with non-zero basis (no recommended) 
x = 0.75 

ref=0.83 

limits=c(0.4,.6,.9,1) 
bulletgraph(x,ref,limits,width=0.6) 


Ce qui donne: 


QR R Grophics Device 2 (ACTIVE Se 


Revenue 2005 YTD 


(US. $ in thousands) 


Revenue 2005 YTD 


(U.S. $ in thousands) 


Figure 103 Graph Bullet (munition) 
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Exemple 122.: Diagrammes mosaïque à densité pour tables 
R 3.2.1 


Nous allons voir ici une représentation utilisée beaucoup dans le domaine du management 
(risques) et dans le domaine prédictif du data mining et utilisant le package ggplot et 
particulièrement la commande scale_fill_gradient( ) . 


Nous partons de notre jeu de données habituel mais résumé à l'aide de la fonction 
group_by() du package dplyr: 


KR RGui {64-biti - [R Console] — ( X 
R File Edit View Misc Packages Windows Help 


library(ggplot2) 

library(grid) 

library(reshapez) 

library(dplyr) #pour le regroupement 
mydata<-read.csv("C:/tmp/VentesClean.csv",header=T,sep=":") 
countGroup <- group by(mydata, Activite, Article) 

count <- summarise (countGroup, count=sum(Quantite));:count 
Source: local data frame [29 x 3] 

Groups: Aictivite [727] 


VVNNNNNVY 


ictivite Article count 
(fotr) (fctr) (int) 

1 Alimentaire AST Intel 200 12 
Z Alimentaire Compaq Presario 100 23 
3 Alimentaire IBM 500 Li 
4 Assurances AST Intel 150 2% 
S Assurances AST Intel 200 4 
6 Assurances Compaq Presario 100 26 
F Assurances IBM 500 15 
] Banques AST Intel 150 10 
9 Banques Compaq Presario 100 32 


Banques IBM 500 32 


Après il suffit de faire le graphe: 
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> ggplot (count, aes(x = Article, y = Activite)) + 

+ scale fill gradient (name="Counts", low="white", high="violet") + 
+ theme (axis.title.y = element blanki()) + 
+ 

+ 

> 


ggtitle("Ventes par Activités et Articles") + 
geom_ tile(aes(fill = count)) 


Ce qui donne: 


Ventes par Activités et Articles 


Pharmaceutique — 


Machines/Outils — 


Éducation — 


Distribution - 


Construction — 


Banques - 


Assurances — 


Alimentaire — 


| l l 1 
AST Intel 150  AST Intel 20ŒÆompaq Presario 100 1BM 500 
Article 


Figure 104 Graph à densité pour table de contingences (ggplot) 
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Exemple 123.: Histogramme (densité) avec des dates 
R 3.0.2 


Faisons maintenant un histogramme avec les dates (c'est plus difficile qu'avec de simples 
nombres) en utilisant le fichier VentesCleanWithTime.csv qui contient pour rappel: 


| VentesCleanWithTime.csy - Bloc-note: 


Fichier Edition Format Affichage 2 


NClient;Activite; NDeCommande ; DateDeCommande;Article;Quantite;PrixParPiece;Ral « 
100; Assurances;1;:03.01.2000 10:19; Compaq Presario 100;12;1650;1.50%;19503;Ou 7 
123;Machines/Out115;:2;03.01.2000 O7:08:;:1BM 500;:2;2299;:0.00%;4598:Ou E 
109; Éducation; 3;:03.01.2000 14:35: AST Intel 150:5;:2690:0.00%;13450;Oui Le 
104 ;Éducation;4;:03.01.2000 04:14; AST Intel 200;3;3190;0.00%;9570;Oui 
117;Banques;5;04.01.2000 16:25;Compaq Presario 100;13;1650;1.50%;21128.25;Ou 
103; Assurances ;6:04.01.2000 11:01:AST Intel 150;:2;:2690;0.00%; 5380:Oui 

104; Éducation; 7;04.01.2000 21:30:AST Intel 200;:2;3190;0.00%;6380;:Oui 

111; Alimentaire;8;04.01.2000 02:20;:IBM 500;4;:2299:0.00%; 9196 ;Oui 

113; Construction;9;04.01.2000 23:06;Compaq Presario 100;4;1650;0.00%;6600;Ou 
116; Pharmaceutique;10;04.01.2000 16:14;IBM 500;2;2299;:0.00%;4598;Oui 
110;Distribution;11;05.01.2000 14:21:AST Intel 200:6;23190;:1.50%:18852.9;:Oui 
112;Machines/Out11s;12;:05.01.2000 03:29;Compag Presario 100,6;1650;1.50%; 975: 
123;Machines/Outi1s;:13;:05.01.2000 16:22;IBM 500:6:2299;:1.50%;13587.09;Ou1 
113;Construction;14:05.01.2000 16:09;:AST Intel 150:3;:2690;0.00%:;8070;Oui 
115;Distribution;15;05.01.2000 01:47;Compaq Presario 100;:8;:1650;1.50%; 13002 ;( 
124; Éducation;16;:05.01.2000 21:13;AST Intel 200,8;3190,1.50%;25137.2;Oui 

124; Éducation;17;05.01.2000 01:48; Compaq Presario 100;:11;:1650;1.50%;17877.75 + 


« | 0 


Alors pour ce faire: 


R R Console EEE 


> setwd{"C:/") 

> mydata=read.csv("VentesCleanWithTime.csv",header=T,sep=";:") 

> HistDates<-as.Date (mydata$DateDeCommande,format="$d.%m.%Y $H:#M") 
> hist (HistDates,"days",format="$a.%b",cex.lab=1,cex.axis=0.5) 

> 


Histogram of HistDates 


GSjan. OSjan. Cajan. (2jan. 15jaw. 1Sjaw. Zijaw. Z24jaw. Jan. jan. 


HistDates 


Figure 105 Graph à barres avec dates 


R Statistical Software 881/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Exemple 124.: Histogrammes superposés (fréquences) 
R 3.0.2 


Toujours dans les grands classiques, voyons comment faire de multiples histogrammes de 
distributions avec la commande hist(}) et de plus superposés avec transparence: 


# 


R & Console =|o|x| 
> pli<-hist (rnorm(S500,4)) G 
> p2<-hist (rnorm(500,6)) 

> plotipi,col=rgb(0,0,1,1/4j,xlim=c(0,10) ,xlab="density",main="Superposition histogrammes",panel.first=gridi{)) 

> plotip2,col=rgb(1,0,0,1/4),xlim=c(0,10),add=T) 

> | 


n 


Frequency 
20 40 60 80 100 


( 


density 


Figure 106 Graph histogrammes superposés (avec transparence) 


Nous pouvons aussi nous amuser à combiner un plot avec des histogrammes. Considérons le 
jeu de données suivant: 


Fichier Edition Format Affichage 2 


Crédit Lyonnais;France Télécom;Lafarge;Saint-Gobain; Total Fina Elf 
-0.017516 ; -0.328775 ; 0.023053 ; 0.003086 ; 0.000615 

-0.198426 ; -0.020374 ; -0.104156 ; -0.106509 ; -0.093423 
0.122761 ; 0.197863 ; 0.103410 ; 0.023046 ; 0.057627 

-0.034988 ; 0.063419 ; 0.038501 ; 0.054376 ; -0.086538 

-0.000267 ; 0.018141 ; 0.023415 ; 0.040521 ; 0.125614 


-0.002667 ; -0.172160 ; -0.060057 ; -0.023602 ; 0.013586 
0.021390 ; -0.180791 ; 0.009128 ; 0.084602 ; 0.042971 
0.142932 ; 0.153366 ; 0.030151 ; 0.042345 ; 0.041789 
0.072148 ; -0.232346 ; 0.027317 ; 0.015608 ; -0.049718 
-0.034822 ; -0.229599 : 0:037037 ; 0; -0.007729 

-0.039398 ; -0.545980 ; -0.075092 ; -0.043158 ; -0.014979 
0 OB2TAIS : 0.558825; -0O.LLOSNE : -0:329979 +: -0.108796 
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En saisissant la série de commandes suivantes, nous obtenons: 


setwd{i"C:/") 

mydata<-read.csv("VariationsTitres.csv",header=T,sep=";:") 
x<-mydata$Crédit.Lyonnais 

y<-mydata$France.Télécom 

xhist<-hist(x,plot=FALSE) 

yhist<-hist(y,plot=FALSE) 

top<-max(cixhisté$counts,yhist$counts)) 

nf<-lavout (matrixici2,0,1,931;:2,2,:Db9YCOowsTRUE), 03,1) 011,3); TRUE) 

par (mar=c(3,2,1,1)) 

plotix,y,xlab="",vlab="",col="red") 

grid) 

barplot(ixhist$counts,axes=FALSE,ylim=c(0,top),space=0,col="light green") 
par imar=c(3,0,1,1)) 

barplot (vhist$counts,axes=FALSE,xlim=c(0,top)i ,space=0,horiz=TRUE,col="light blue") 


> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> | 


ce qui donne (intéressant à comparer avec MATLAB...!): 


-0.20 -0.15 


Figure 107 Graph X-Y avec histogrammes en marges 


ou nous pouvons avoir une variante: 
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— | 


R à Console 


LA 


setwd(i"C:/") 
mydata<-read.csv("VariationsTitres.csv",header=T,sep=":") 
x<-mydata$Crédit.Lyonnais 

v<-mydata$France.Télécom 

par {fig=c(0,0.9,0,0.9)) 

plotix,v,xlab="Crédit Lyonnais",ylab="Télécom",pch=18,col="blue") 
grid({) 

parifig=ci(0,0.9,0.55,1) ,new=TRUE) 
boxplot(x,horizontal=TRUE,axes=FAlSE,col="royal blue") 
par(ifig=c(0.65,1,0,0.9) ,new=TRUE) 

boxplot {(y,axes=FALS$E,col="royal blue") 


VUYNNVNNMVNVNNNNN V 


4 b 


ce qui donne: 


"4 


1 
1 
1 
1 
1 
1 
1 
1 
1 
L 


-0.10 0.00 005 010 0.15 


Crédit Lyonnais 


Figure 108 Graph X-Y avec Box-Whisker (boîtes à moustaches) en marges 
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ou encore une variante utilisant l'association de rug() (densité marginale) et jitter( ) : 


setwd("Ci:/") 
mydata<-read.csv{("VariationsTitres.csv",header=T,sep=";:") 
x<-mydatafCrédit.Lyonnais 

y<-mydata$France.Télécom 

plotix,y,xlab="Crédit Lyonnais",vylab="France télécom") 
rugiside=1,jitter (mydataf$Crédit.Lyonnais)) #lignes de densité en X 
rugiside=2,jitter (mydataf$France.Télécom)) #lignes de densité en Ÿ 


> 
> 
> 
> 
> 
> 
> 
> | 


France télécom 


-0.20 -015  -010 -005 0.00 0.05 


Crédit Lyonnais 


Figure 109 Graph X-Y avec jitter en marges 
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Exemple 125.: Diagrammes à aires 
R 3.02 


Un grand classique du monde des tableurs qui se passe de commentaires à part qu'à ce jour le 
package ggplot2 avec la commande geom_area() ne semblent pas gérer les variables 
catégorielles sur l'axe des abscisses (d'où le numéro des jours de la semaine au lieu de leur 
nom): 


La 


R R Console 


PR ORNE NON 


library(ggplotzZ) 
setwd("C:/") 


mydata<-read.csv("VentesClean.csv",header=T,sep=":") 
mydata<-mydatal,c(-1:-3,-7:-10)] 
mydata$DateDeCommande<-as.numeric (format (as.Date (mydata$DateDeCommande,"#d.%m.s#")$ 
names (mydata) [1]<-paste ("Jour") 

mydata<-aggregate (mydata$Quantite,by=list (mydataf$irticle,mydata$Jour),FUN=sum) 
names (mydata) <-c{"irticles","JourSem'","Quantite") 

ggplot (mydata,aes(x=JourSem, y=Quantite,fill=irticles))+ 

geom area(color="black",size=0.2,alpha=0.4) 


Articles 


ULIAST Intel 150 


AST Intel 200 
Compaq Presario 100 


/l1eM 500 


_ 

o 

[==] 
1 


Quantite 


JourSem 


Figure 110 Graph à aires (ggplot) 
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Ou dans sa version normalisée en utilisant le package plyr avec la commande ddply( ) : 


library(ggplotZ);libraryi(iplyr) 
setwdi"C:/") 
mydata<-read.csv("VentesClean.csv",header=T,sep=";") 
mydata<-mydata[,c(-1:-3,-7:-10)] 
mydata$DateDeCommande<-as.numeric (format (as.Date (mydata$DateDeCommande, "$d.%m.%Y$ 
names (mydata) [1]<-paste ("Jour") 
mydata<-aggregate (mydata$Quantite,by=list (mydatafärticle,mydatafJour),FUN=sum) 
names (mydata) <-c{"Airticles","JourSem","Quantite") 
mydata _prop<-ddply(mydata,"JourSem",transform, Percent=Quantite/sum(Quantite) *100) 
mydata_ prop 
Articles JourSem Quantite Percent 
AST Intel 150 1 11 7.857143 
AST Intel 200 38 27.142857 
Compaq Presario 100 71 50.714286 
IBM 500 20 14.285714 
AST Intel 150 34 17.801047 
AST Intel 200 46 24.083770 
Compaq Presario 100 69 36.125654 
IBM 500 42 21.989529 
AST Intel 150 29 13.364055 
AST Intel 200 76 35.023041 
Compaq Presario 100 76 35.023041 
IBM 500 36 16.589862 
AST Intel 150 57 33.928571 
AST Intel 200 35 20.833333 
Compaq Presario 100 44 26.190476 
IBM 500 32 19.047619 
AST Intel 150 45 26.785714 
AST Intel 200 29 17.261905 
Compaq Presario 100 75 44.642857 
20 IBM 500 19 11.309524 
> ggplot (mydata prop,aes(x=-JourS$em,y=Percent,fill=ärticles))+ 
+ PC PC 
> 


VVNNNNNNNNY 


L 
2 
3 
4 
5 
6 
Tv 
8 
S 


Un en tn db db D D to) L ON NON N° H h H 


in 


Ce qui donne: 


Articles 


ULIAST Intel 150 
AST Intel 200 


Compaq Presario 100 


JourSem 


Figure 111 Graph à aires normalisé (ggplot) 
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Sciences.ch 


Voyons aussi comment faire des "diagrammes horizons". Pour comprendre de quoi il s'agit, 


considérez d'abord le simple graphique suivant: 


> y = x * sin(0.1l * x) 


> plot (x, y, type = "l") 

> abline(h = 0, col = "gray") 

> abline(h = 100, col = "lightgray", 1lty = 2) 
> abline(h = 200, col = "lightgray", 1lty = 2) 
> abline(h = -100, col = "lightgray", 1lty = 2) 
> ro = -200, col = "lightgray", 1lty = 2) 
> 


oO 
[= 
[où] 
[æ] 
(=) 
> o 
[æ] 
(=) 
[= 
[æ) 
Si 
[e) 
[= 
® 
0 50 100 150 200 250 
X 


Avec la fonction horizonplot() du package extraLattice le graphique devient: 


OEIES 


MERE 
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MR Console 


> library(latticeExtra) 
> horizonplot(ts(y)) 
> 


Q R Graphics: Device 2 (ACTIVE) 


Figure 112 Graph de type Horizon 
Donc nous voyons que l'idée est au fait de prendre: 
1. La valeur absolue 
2. Les points positifs sont bleus, les négatifs sont rouges 


3. Les points en-dessous/au-dessus de change ligne grise traitillé est reportée dans une 
couleur différente 


Donc voici un exemple plus complet qui montre que la lecture de ce type de graphique est 
loin d'être aisé: 
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MR Console 


n<-10 

t<-365 

dat<-ts(matrix(cumsum(rnorm(t * n)), ncol = n)) 

library(latticeExtra) 

horizonplot (ts(dat), horizonscale = 10, colorkey = TRUE, layout = ci{1i, n)) 


MR Graphics: Device 2 (ACTIVE) 


ou encore plus élaboré: 
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MR Console 


> library(ggplot2) 

> library(scales) 

> colfill <- c('#7F3B08!, 

> data ("msleep") 

> ggplot (msleep, aes(x=sleep total,y=..count..,fill=vore))+ 

geom density(position = position fill()) + 

scale fill manual (values = colfill,na.value ="black")+ 
theme _bw()+ 
scale y continuous (labels = percent format{(), 

expand = c(0,0))+ 


scale x continuous (expand c(0,0)) 


À Graphics: Device 2 (ACTIVE) 
100% 


10 
sleep_total 


Figure 113 Graph de type Horizon normalisé 
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Exemple 126.: (Diagrammes Microsoft) 
R 3.4.1 


Nous venons de voir quelques graphiques simples. Il peut être considéré comme normal 
(même si c'est pénible et intellectuellement réducteur) que des gens souhaitent absolument 
avoir des graphiques Microsoft depuis R. Pour cela, Microsoft a créé un package nommé 
mschart qui fonctionne mains dans la main avec le package officer et nous allons ouvrir une 
brève parenthèse sur le sujet sachant que nous avons à ce jour 4 graphes à disposition: 


ms_linechart(data, x, y, group = NULL) 
ms_barchart(data, x, y, group = NULL) 
ms_areachart(data, x, y, group = NULL) 


ms_scatterchart(data, x, y, group = NULL) 


Voici donc un exemple d'utilisation de ce package: 


UR RGui (64-bit) - [R Console] (mi 


GR File Edit View Misc Packages Windows Help ll" 
> library(officer) 

> library (mschart) 

> my_barchart <- ms barchart (data = browser _ data, x = "browser", y = "value", group = "“serie") 

> doc <- read pptx() 

> doc <- add slide(doc, layout = "Title and Content", master = "Office Theme") 

> doc <- ph _with_ chart(doc, chart = my_barchart) 

> print (doc, target = "c:/tmp/barchart.pptx") 

[1] "c:/tmp/barchart.pptx" 


Ce qui donnera: 


[L} barchar-pptx - Microsoft PowerPoint 


D” © Shape Fi * À Find 
& Shape Outiine » | #% Replace + 
Quick 


browser 


mseriel mserie2 mserie3 


Click to add notes 


Figure 114 Graph générés dans Microsoft PowerPoint 
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Et voici un exemple avec Microsoft Word: 


R RGui (64-bit) - [R Console] O 


ŒR File Edit View Misc Packages Windows Help Se 


> library(officer) 

> library (mschart) 

> my_barchart <- ms barchart (data = browser data, x = "browser", y = "value", group = "serie") 
> doc <- read_docx() 

> doc <- body add chart(doc, chart = my_barchart, style = "centered") 

> print (doc, target = "c:/tmp/barchart.docx") 

de "c:/tmp/barchart.docx" 

” 


Ce qui donne: 


m barchartdocx - Microsoft Word 


Table ttie ÊT No Spacngf Strongt À Heading 1 À Headng2 À Title 


Android Chrome Firefox IE Opera Safari 
browser 


mseriei mserie2 mserie3 


Figure 115 Graph générés dans Microsoft Word 


Notez qu'on peut faire de même en exportant des tables plus ou moins complexes et 
personnalisés avec le package flextable et sa fonction flextable( ): 


MR RGui (64-bit) - [R Console] — 0 
GR File Edit View Misc Packages Windows Help ti 


PTE] 


> library("flextable") 

> ft <— flextable (mtcars) 

> print (flextable (mtcars),"pptx") 
> print (flextable (mtcars), "docx")| 


Ce qui donnera: 
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[nv] 


Fichier Insertion Création Transitions Animatiol Diaporama Révision Affichage Aide Q Dites-le-nous pol Partager 


ep EN|E 


E « 


Cliquez pour ajouter des notes 


Diapositive 1 de 1 Anglais (États-Unis) Notes |] Commentaires 


Et respectivement: 
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Fichier c Insertion Conception Mise en page Références Publipostage Révision Affichage Aide Création Mise en page Q Dites-le-r & Partager 


[ES IRoboto _-]11 | AaBbCcI. 4aBbCcl AaBbCcl 


T centered M T graphic... Ttable title (| N 


Æm >: 


9.%#.10 1:# 12 13#1 14 


PAGE:1 Section:1 Page 1 sur 1 


SC 
Concernant l'export de nombreux modèles), vous pouvez/devez utiliser la fonction tidy( ) du 
package broom: 


R RGui (64-bit) - [R Console] — O 
OR File Edit View Misc Packages Windows Help FX 


EE 


> library("flextable") 

> library("broom") 

> fit <- aov(mpg - am + disp + wt, data = mtcars) 
> print (flextable (broom::tidy(fit)),"docx") 

> 


Ce qui donnera: 
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AaBbCcl AaBbCcl\ AaBbCcI | 
T centered M 7 graphic... HT Normal ls 


dfe sumsqe meansqe statistice p.valuer 
10008 405.151 405.151c 
1.0006 4206156 4206152 47.7676 
10008 53725 53725 61014 


| Residual | 


Len 28.000 246556€  8.806c c 
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Exemple 127.: Hexabins 
R 3.4.1 


Les diagrammes hexabins sont des diagrammes qui regroupent une densité de points sous la 
forme d'hexagones dont la couleur change avec la fréquence des points qui s'y trouvent. C'est 
une technique comme pour analyser des nuages de points lorsque le nombre de points est trop 
élevé. 


Voyons d'abord un exemple avec ggplot2 sans hexabin: 


> library(ggplot2) 
.seed(1234) 
= 50, 30) 


x*0.6 + rnorm (10000, O, 30) 
> df <- data.frame(x,y) 
> ggplot(df,aes(x=x,y=y)) + geom point (alpha = 0.3, col = "red")+geom smooth(method = "lm") 


Donc au vu de la densité de points ce n'est pas l'idéal pour un humain. 


Maintenant avec hexabin de ggplot2: 
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> library(ggplot2) 

> set.seed(1234) 

> x = rnorm(10000, 50, 30) 

> y = x*0.6 + rnorm (10000, O, 30) 

> df <- data.frame(x,y) 

> dieu tn ia bars + stat_binhex(colour="white",bins=20,na.rm=TRUE) +geom_smooth (me$ 
> 


Figure 116 Graph Hexabin 


Nous identifions alors beaucoup mieux en tant qu'humains où se trouve la plus grande 
concentration de points. 


Ou sans ggplot?2 avec le package hexabin et la fonction hexbin( ) : 
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MR Console 


library(hexbin) 

library (RColorBrewer) 

set.seed(1234) 

x = rnorm(10000, 50, 30) 

y = x*0.6 + rnorm (10000, O0, 30) 

df <- data.frame(x,y) 

r£f <- colorRampPalette(rev(brewer.pal(ll,'Spectral'))) 

plot (hexbin(df,xbins = 20),colramp=rf,mincnt=2, maxcnt=200) 


> 
> 
> 
> 
> 
> 
> 
> 
>| 


MR Graphics: Device 2 (ACTIVE) 


Figure 117 Graph Hexabin avec gradient de couleurs de densité 
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Exemple 128.: Courbe de Lorenz et indice de Gini 
R 3.0.2 


Le but ici va être de vérifier que nous retrouvons la même valeur de l'indice de Gini et la 
même courbe de Lorenz que celle calculée à la main dans le cours théorique de Techniques de 
Gestion. 


Nous partons alors des mêmes données: 


Fichier Edition Format Affichage 


Nous installons et chargeons-le package ineq: 


RGui {64-bit) - [RÇ 
KR Fichier Edition Voir Misc Packages Fenétres Aide 


> install.packages("ineqg") 

Installing package into ‘C:/Video2Brain/Packages’ 

{as ‘lib’ is unspecified) 

--- SVP sélectionner un miroir CRAN pour cette session --- 

essai de l'URL ‘'http://cran.rstudio.com/bin/windows/contrib/3.0/ineg 0.2-11.zip' 
Content type 'application/zip' length 63860 bytes (62 Khj 

URL ouverte 

downloaded 62 Kh 


le package ‘ineq’ a été décompressé et les sommes MDS5 ont été vérifiées avec succés 


Les packages binaires téléchargés sont dans 

C:\Users\Isoz Vincent\äppDatai Local Temp\Rtmpgb9T2q\ downloaded packages 
> library(ineq) 
>| 


« 


et nous chargeons le fichier de données: 
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Gui {64-bit) - [ 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> setwdi"C:/") 
> mydata<-read.csv{("IndiceDeGini.csv",header=T,sep=";") 


> names (mydata) 
C41 ni" 

> dimimydata) 
[1] 200 L 

> | 


et ensuite nous utilisons le package ineq avec les commandes Gini() et Le ) : 


R R& Console se |x 


> Giniimydatafni) £ 
[1] 0.6713213 

> plot iLeimydatafni) ,main=paste ("Indice de Gini=",round{iGini(imydataf$ni),2)), 

+ Miss cumulée bons'",vylab="$ cumulé pop") 

> 


Indice de Gini= 0.67 


Q 
[= 
Q 
22 
=. 
E 
=. 
D 
= 


04 0.6 


% cumulée bons 


Figure 118 Graph avec courbe et indice de Gini 
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Exemple 129.: Combinaisons de graphiques (subplots) 
R 3.0.2 


Avant de créer des graphiques multiples dans une même fenêtre il faut comprendre la 
structure de ces dernières. 


Mais d'abord, comme les combinaisons de graphiques peuvent prendre de la place, il est bon 
de savoir comment contrôler la taille de la fenêtre de plot avant d'y mettre quelque chose: 


FR R Console 


> dev.new(width=3, height=4) 
> | 


| R R Graphics: Device 5 (ACT... [= | (Æs) 


Voici comment on peut s'entraîner à comprendre les choses en utilisant les commandes par( ) 
et layout.show( ) : 
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> xi1(j #afficher une fenétre vide 
> parimfrow=ci2,2)) #coupe la fenétre en 2x2 blocs 
> layout.show(4) #permet d'afficher les 4 blocs résultants 


Que l'on peut déjà s'amuser à remplir par quelques plots vides: 
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R «8 Console 


*11/11 

par (mfrow=c(2,2)) 

layout.show(4) 

for (i in 1:4) plot (0, main = ji) 


06 06 10 1.2 1.4 06 06 10 12 1.4 


Index Index 


06 06 10 12 1.4 


Index 


ou toujours dans la même idée: 
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x1101 
par imfrow=c(3,2)) 
layout.show(6) 


Avec une petite complication bien utile pour comprendre les choses: 
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par (mfrow = ci2, 
par (col = "red') 
plot (O0, main = "col = \"red\"", sub = "sous-titre"] 

par (col = "black", col.axis = "red'") 

plot (0, main = "col.axis = \"red\"", sub = "sous-titre") 
par(col.axis = "black", col.lab = "red') 

plot (O0, main "col.lab = \"red\"", sub = "sous-titre") 
par (col.lab "black", col.main = "red') 

plot (O0, main = "col.main = \"red\i"", sub = "sous-titre") 
par(col.main = "black", col.sub = "red') 

plot (O0, main = "col.sub = \"red\"", sub = "sous-titre") 
par (col.sub = "black", fg = "red'") 

plot (0, main = "fg = \"redi"", sub = "sous-titre") 


3)) 


VNNNNNNNN NY NN 


col = "red" col.axis = “red” col.lab = “red” 


06 06 10 12 14 06 08 10 12 14 06 08 10 12 14 


Index Index Index 
sous-titre sous-titre sous-titre 


col.main = “red” col.sub = “red” fg = “red” 


06 08 10 12 14 06 06 10 12 14 06 06 10 12 14 


Index Index Index 
sous-titre sous-titre sous-titre 


ou encore en un peu plus compliqué: 


R Statistical Software 906/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


TR Ronde Se) 


+ 


KILL () 
layout (matrix(1:4,2,2),widths=c(1,3) ,heights=ci(3,1)) 


> 
> 
> layout.show(4) 
> 


ou encore en un peu plus compliqué: 
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À R Console 


xi1i) 


layout (matrix(c(2,0,1,3),2,2,byrow=TRUE),c(3,1),c(1,3),TRUE) 
par (mar=c(3,2,1,1))#ça c'est des marges internes 
layout.show(3) 


ou encore (on laisse tomber les marges car tant qu'on y met pas des graphiques, nous ne 
verrons pas la différence): 
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layout (matrix(c(1,1,2,1),2,2) ,widths=c(2,1) ,heights=ci1,2)) 
layout.show(Z) 


Dans ce qui suivra nous allons retrouver plusieurs fois des combinaisons de graphiques, 
voyons un exemple simple: 


setwd{("C:/") 
mydata<-read.csv("VentesClean.csv",header=T,sep=";:") 

par (mfrow=c(2,2)) 

plot imydata$NCommande,cumsumimydata$PrixTotalivecRabais), 
main="PTAR cumulé=f (commandes) ",xlab="N° Commande", 
ylab="PTAR cumulé" ,vylim=c(0,2000000) ,cex=1) 


j<-ecdf (mydata$PrixTotalivecRabais) 

plot(j, 

main="Prob. Cumulée",xlab="N° Commande",ylab="PTAR",cex=1) 

hist (mydata$PrixTotalivecRabais,main="Histogramme PTAR",xlab="PTAR") 
boxplot (mydata$PrixTotalivecRabais,ylab="PTAR",main="BoxPlot PTAR") 


L'ONU 0 US CD CE D dE 


ce qui donnera: 
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L Rx 
PTAR cumulé=f(commandes) Prob. Cumulée 
= 
[=] 
8 = 
= 
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Figure 119 Combinaison de graphiques (points, répartition, histogramme, box-whisker) 
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Exemple 130.: Joy Plots 
R 3.4.1 


Il s'agit ici d'utiliser le package ggjoy et le paramètre geom_joy dans ggplot2 pour faire des 


graphiques qui se passent de commentaires: 


> library(ggjoy) 

> library(ggplot2) 

> ggplot(iris, aes(x = Sepal.Length, y = Species)) + 
+ geom joy(rel min height = 0.005) + 

+ scale y discrete (expand = c(0.01, 0)) + 

+ scale x continuous (expand = c(0.01, O0)) + 

+ theme j0y() 

Picking joint bandwidth of 0.181 

> 


ce qui donne: 


Species > 


virginica 


versicolor 


setosa 


Figure 120 Graph Joy plot 


R RGui (64-bit) - [R Console] — 
R File Edit View Misc Packages Windows Help 
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ou Encore: 


R RGui (64-bit) - [R Console] — O X 


OR File Edit View Misc Packages Windows Help - FX 


library(ggjoy) 

library(ggplot2) 

ggplot (diamonds, aes(x = price, y = cut)) + 
geom_joy(scale = 4) + 

scale y discrete (expand=c(0.01, O)) + 
scale x continuous (expand=c(0.01, O)) + 
theme_j0y() 

Picking joint bandwidth of 458 

> 


+++ VV V 


< > 


Ce qui donne: 


5 
o 
Ideal 
Premium 
Very Good 
Good 
Fair 
0 5000 10000 15000 20000 
price 
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OU ENCOTE: 
MR RGui (64-bit) - [R Console] — (m] X 
ŒR File Edit View Misc Packages Windows Help | x 
G 
Lol 
> library(ggijoy) 
> library(ggplot2) 
> ggplot (diamonds, aes(x = price, y = cut, fill = cut, height = ..density..)) + 
+ geom joy(scale = 4, stat = "density") + 
+ scale _y_ discrete (expand = c(0.01, O)) + 
+ scale x continuous (expand = c(0.01, O)) + 
+ scale fill brewer (palette = 4) + 
+ theme joy() + theme (legend.position = "none") 
> | 


À Graphics: Device 2 (ACTIVE) ts ter) 


Ideal 


Premium 


Very Good 


Good 


Fair 
5000 10000 15000 
price 


OU ENCOIE: 
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R RGui (64-bit) - [R Console] — X 
ŒR File Edit View Misc Packages Windows Help SE 
RO E 
Ps 
> library(ggplot2) 
> library(ggjoy) 
> library(viridis) 
> ggplot(lincoln weather, aes(x = ‘Mean Temperature [F]°, y = ‘Month, fill = ..x..)) + 
+ geom joy_ gradient (scale = 3, rel min height = 0.01) + 
+ scale x continuous (expand = c(0.01, O)) + 
+ scale _ y discrete (expand = c(0.01, 0)) + 
+ scale fill viridis(name = "Temp. [F]", option = "C") + 
+ labs(title = 'Temperatures in Lincoln NE in 2016') + 
+ theme _joy(font_ size = 13, grid = TRUE) + theme(axis.title.y = element blank()) 
joint bandwidth of 3.37 
> 


Temperatures in Lincoln NE in 2016 


January 
February 
March 
April 

May 

June 

July 
August 
September 
October 


November 


December 


0 25 50 75 
Mean Temperature [F] 
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Exemple 131.: Sparklines 
R 3.02 


Maintenant que nous savons faire des combinaisons graphiques (lattices), nous pouvons jouer 
avec R pour faire des simili-sparklines (il existe un package pour qui se nomme sparkTable 
mais malheureusement à ce jour il ne peut qu'exporter le résultat en un fichier *.html, *.tex ou 
* pdf et non pas l'afficher dans R même). 


Voici un exemple que nous laisserons au lecteur le soin de personnaliser ou améliorer (nous 
mettons en entrée un vecteur aléatoire si l'utilisateur ne précise rien): 


sparkline<-function(ydata=rnorm(100,500,50),width=1.5,height=0.5,sigfigs=4) { n 
# vdata = vector of data to be plotted 
# width = width of sparlkline in inches, including text 
# height = height of sparkline in inches 
# sigfigs = number of significant figures to round min, max, and last values to 


len<-length(iydata) # determine the length of the data set 
ymin<-miniyvdata) # determine the minimum 
tmin<-which.min(ydata) # and its index 
vax<-max(ydata) # determine the maximum 
tmax<-which.max(ydata) # and its index 
yfin<-signif(ydatal[len] ,sigfigs) #determine most recent data point 
# define plot range to leave enough room for min and max circles and text 
plotrange=c (yvmin-0.1*{(ymax-vmin) , ymax+0.1f{ymax-vymin) ) 
plot (x=1:len, y=vdata,type="1",xlim=c(1i,lenti.2)j ,vlim=plotrange,col="grav", 
lud=0.5,ann=FALSE,axes-=FALSE) # plot sparkline 
points(ix=c(tmin,tmax),vy=c{ymin,ymax) ,pch=19,col=ci"red","blue"),cex=1) # plot min and max points 
text (x=len,y=vymin,labels=signif(ymin,sigfigs) ,cex=0.5,pos=4,col="red") # show minimum value 
text i{x=len,y=ymax,labels=signif(ymax,sigfigs) ,cex=0.5,pos=4,col="blue") # show maximum value 
text {ix=len,y={ymin+ymax)/2,labels=yfin,cex=0.5,pos=4) # show most recent value 
} + 


ml 


Et si nous appelons la fonction 4 fois: 
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| 
Mi j LL \ Lf sis 


ALL 1 | LL \ | 
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Figure 121 Graph Sparkline 
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Exemple 132.: Fonction de répartition empirique (FRE) 
R 3.02 


Une analyse de la FRE n'a pas le problème de l'analyse par densité où se pose la question des 
largeurs des intervalles. Il vaut donc mieux prendre l'habitude de lire les FRE plutôt que les 
FDP (fonctions de densité de probabilité). 


Voici un exemple d'utilisation de la commande ecdf( ) : 


R & Console ES ERES 


> setwd{"C:/") 

> mydata<-read.csv("VentesClean.csv",header=T,sep=";:") 

> j<-ecdfimydatafQuantite) 

> plot(j,xlab="Quantité",main="Fonction de répartition empirique") 
> grid) 

> 


FR R Graphics: Device 2 (ACTIVE) 0.) 


Fonction de répartition empirique 


20 


Quantité 


Figure 122 Graph de répartition empirique 


Nous pouvons cependnat faire mieux: 
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R R Console PAIE] 


> y<-rnorm(10,100,16) 

> plot(ecdf(y),xlab="y",vylab="Fonction de répartition empirique",col="dodgerblue4") 
> lines(seg(50,150,by=.1),pnorm(seg(50,150,by=.1),100, 16), col="red4",lwd=2) 

> 


Lt | te | 
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Nous pouvons cependant faire cependant encore mieux (je ne suis pas encore arrivé à 
résoudre le problème du décalage entre la box plot et la ECDPF) en utilisant la fonction ecdf( ): 
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setwd{"C:/") 
mydata<-read.csv("VentesClean.csv",header=T,sep=";:#") 

op<-par (mar=c(0.5,0,0,0) ,oma=c(0,0,0,0)+2) 

layout (matrix(c(1,1,1,2) ,nc=1)) 

i<-ecdf (mydata$Quantite) 

plot(j,xlab="Quantité",xlim=c(0,max (mydata$Quantite)),main="") 
abline(h=c(0,0.25,0.5,0.75,1),1ty=3) 

grid} 

abline (v=quantile (mydatafQuantite) ,col="blue",lud=3,1ty=2) 
points (quantile (mydata$Quantite),c(0,0.25,0.5,0.75,1),lwd=10,col="blue") 
boxplot (mydata$Quantite,horizontal=TRUE,col="pink",lwd=5s) 
abline (v=quantile (mydata$Quantite) ,col="blue", lwd=3,1lty=2) 


Figure 123 Graph avec fonction de répartition empirique avec box-plot en marge 
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Ou pour ceux qui préfèrent avec la package ggplot: 


KR Fichier Edition Voir Misc Packages Fenétres Aide 


EC) 


mydata<-read.csv("C:/tmp/VentesClean.csv",header=T,sep=";") 
X=mydatafQuantite 

n=lengthiX) 

x=seq(0,50) 

library(iggplotz) 


Message d'avis 

le package ‘ggplot2 a été compilé avec la version R 3.0.3 

> ggplot (data=data.frame(x=x),aes(x=x]))+stat function(fun-Vectorize(function(x) sum(X<=x) 4n), 
+ geom="step",col="red",size=1) + vlab("Fonction de Repartition'") 


[| 


—] 


0.50 — 


Cr 
l 


l 
{ 


. 
J 


Fonction de Repartition 


0.00 — 


Figure 124 Graph avec fonction de répartition empirique (ggplot) 
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Il est possible aussi à l'aide du package classInt et de la fonction classIntervals() d'avoir un 
résumé numérique qui parfois est plus utile qu'un graphique: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> mydata<-read.csv("C:/tmp/Ventes.csv",header=T,sep=":") 
> library(classiInt) 
> classintervals (mydataf$Quantité,7,style="equal") 
style: equal 
one of 74,613 possible partitions of this variable into 7 classes 
[1,5.571429) [5.571429,10.14286) [10.14286,14.71429) [14.71429,19.28571) [19.28571,23.85714) 
46 33 Le 4 6 
[23.85714,28.42857) [28.42857,33] 
L 2 


> | 


ou en se basant sur les quantiles: 


R Fichier Edition Voir Misc Packages Fenétres Aide 


> classintervals (mydataf$Quantité,7,style="quantile") 
style: quantile 
one of 74,613 possible partitions of this variable into 7? classes 
[1,3] [3,4) [4,6) [6,7) (7,10) (10,13) [13,33] 
15 9 22 12 19 13 19 


> | 
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Exemple 133.: Camemberts (fromages) 2D et 3D 
R 3.0.2 


Commençons par un camembert tout simple en utilisant la commande pie( ) : 


“< RGui {64-bit) - [R Ce 


FR Fichier Edition Voir Misc Packages Fenétres Aide 


> pie(rep(1i,200),labels="", col=rainbow(200) ,border=Ni) 
> 


cela donnera: 


Ensuite, faisons un camembert un peu plus intéressant. Résumons d'abord nos données de 
ventes par article: 
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R R Console sex] 

> setwd{("C:/") e 

> mydata<-read.csv("VentesClean.csv",header=T,sep=";") 

> mydata<-aggregate (mydata$Quantite,by=list (ictivite),FUN=sum) 

> colnames (mydata) <-c{"Secteur","Quantités") 

> mydata PR Graphics: Device 2 (ACTIVE) C/.©)f 
Secteur Quantités 

1 Alimentaire 46 

2 issurances 72 

< Banques 74 

4 Construction 157 

5 Distribution 109 

6 Éducation 150 

7 Machines/Outils 138 Construction Banques 

8 Pharmaceutique 138 

> pielas.numeric (mydata$Quantités) ,mydatafSecteur) 

> | Assurances 


Distribution 


Éducation 


Figure 125 Graph de type camembert 


Nous pouvons faire mieux heureusement: 


5, 


R R Console RE | 


slices<-mydatafQuantités 

lbls<-mydataf$Secteur 

pet<-round(slices/sum(slices) *100) 

lbls<-paste(lhbls,pct) #on concaténe les légendes aux * 
1bls<-paste(lbls,"*") #on y ajoute le symbole * 

pie(slices, labels = lbls, col=rainbow(length{(lbls)),main="Cemembert") 


A Aie A PS, di 2e à 


achines/Outils 


Camembert 


Construction 18 % Banques 8 % 


Assurances 8 % 


NT à 
Distribution 12 % Alimentaire 5 % 


, Pharmaceutique 16 © 
Education 17 % 


achines/Outils 16 % 


Alimentaire 


Pharmaceutique 
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ou encore mieux avec ggplot2: 


MR Console 


library(ggplot2) 
library(scales) 


> 
> 
> 
> tb <- as.data.frame (prop.table (table (diamonds$cut))) 

> colnames(tb) <- c("cut","Freq") 

> ggplot(tb) + geom bar(aes(x = "" ,y = Freq, fill = cut), stat = "identity", 

_ width = 7)+ 

+ coord polar(theta = "y")+ 

+ geom text (aes (label=percent (Freq),y= 1-(cumsum(sort (Freq))-0.5*sort(Freq)),x=3), 
_ 

- 

_ 

> 

R 


size=4,colour ="white",check overlap = TRUE) + 
theme (axis.title= element blank(),axis.text = element blank(), 
axis.ticks = element blank(),panel.grid= element blank()) 


R Graphics: Device 2 (ACTIVE) 


cut 

# Fair 

M cooc 

E Very Good 
M rcemium 
UM ea 


Figure 126 Graph de type camembert (ggplot) 


Pour faire un camembert 3D, nous chargeons installons le package plotrix: 
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R Fichier Edition Voir Misc Packages Fenêtres Aide 


> install.packages ("plotrix") 

Installing package into ‘C:/Video2Brain/Packages” 

{as ‘lib’ is unspecified) 

essai de l'URL 'http://cran.rstudio.com/bin/windows/contrib/3.0/plotrix 3.5-2.zip' 
Content type 'application/zip' length 624041 bytes (609 Kb) 

URL ouverte 

downloaded 609 Kb 


le package ‘plotrix’ a été décompressé et les sommes MDS ont été vérifiées avec succé 
Les packages binaires téléchargés sont dans 


C:\Users\lsoz Vincent\AippDataiLocal\i Temp RtmpOaWpdl\ downloaded packages 
> | 


4 


ce qui nous donnera avec la commande pie3D( ) : 


# 


R R Console EEE 


> slices<-mydata$Quantités 

> lbls<-mydata$fSecteur 

> pet<-roundislices/sumislices) *100) 

> lbls<-paste(lhbls,pct,"s") 

> pie3D(slices, labels=lbls,explode=0.1,main="Camembert 3D",labelcex=1) 
> 


R Graphics: Device 2 (ACTIVE) 


Camembert 3D 


Construction 


ces 8 % 


ntaire 5 % 


utique 16 % 


Machines/Outils 16 % 


Figure 127 Graph de type camembert en 3D 
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Exemple 134.: Diagramme en anneaux 
R 3.0.2 


Pour faire un diagramme en anneaux la procédure est très loin d'être intuitive. Il faut dans un 
premier temps avoir installé le package ggplot2. 


D'abord, nous allons préparer notre jeu des ventes en conséquence pour faire un exemple 
sympa: 


mydata<-read.csv("c:/VentesClean.csv",header=T,sep=";") 
#On agrège les factures payées 
mydataYes<-mydata[whichimydatafFacturePayee=="Oui"),] 
mydataïes<-aggregate (mydataYes$Quantite,by=1list (mydataYes$äctivite) ,FUN=length) 
colnames (mydataYes)<-c{"Secteur","NombresYes") 
#On agrège les factures non payées 
mydataNo<-mydata[which(imydatafFacturePayee=="Non"),] 
mydataNo<-aggregate (mydataNo$Quantite,by=1list (mydataNo$ictivite) ,FUN=length) 
colnames (mydataNo)<-c{"Secteur","NombresNo") 
#on fusionne les deux pour garder que le ratio des payées sur la totalité 
mydata<-chind(mydataïes[,1:2],NombresNo=mydataNol[,2],RatioPaied= 
mydataYes[,2]/(mydataNo[,2]-mydataYes[,2])*100):mydata 

Secteur Nombresïes NombresNo RatioPaied 


EN NVVVNNNNN Y 


1 Alimentaire 5 2 71.422857 
2 Assurances 7 3 70.000000 
3 Banques 4 5 44.44444 
4 Construction 12 9 57.142856 
5 Distribution 8 5 61.536846 
6 Éducation 13 6 68.42105 
7 Machines/Outils 9 9 50.00000 
8 Pharmaceutique 3 9 25.00000 
> myd<-mydatal,c(1,4)] 
> colnames (myd) <-c("category","percent") 
> myd$fcategory<-factor (myd$category,levels=rev(myd$category)) 
> myd 

category percent 
1 Alimentaire 71.42857 
2 Assurances 70.00000 
3 Banques 44.44444 
4 Construction 57.14286 
5 Distribution 61.536846 
6 Éducation 68.42105 
7 Machines/Outils 50.00000 
8 ss 25.00000 
> 


… 
EL 


Ensuite, nous écrivons le code pour faire le graphe: 
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F 


R Console os || © | & 
R 


library(ggplotzZ) 

plt<-ggplot (myd,aes(x=category,y=percent, fill=category)) + 

geom bar (width=0.685,stat="identity"])+coord polar (theta="y") + 
xlab("")+ ylab("")+vlimi(c(0,100))+ggtitle("Graph änneaux") + 

geom text (data=myd,hjust=1,sizes3,aes (x=category,y=0,label=category)) 


plt + scale fill manual (values=c{(rainbow(8))) + theme minimal() + 

theme (legend.position="none",panel.grid.major=element blank) 
spanel.grid.minor=element blank(j,axis.line=element blank(j,axis.text.y-element blank) 
saxis.text.x=element blank(),axis.ticks = element blank()) 


VO + HV + + + VO 


Ce qui donne (pour l'esthétique par rapport à Microsoft Excel on se passera de commentaires 
là aussi...): 


Graph Anneaux 


Machines/Outils 
Pharmaceutique] 


Figure 128 Graph en anneaux 
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Enfin voyons une autre méthode (merci à Daname) ne nécessitant pas de package. 
Considérons le fichier suivant: 


5] Portfolio.csv - Notepad — O X 


File Edit Format View Help 


Strategie, Investissement CT , Actions Domestiques 
Revenu,1,0,0,0,0.035,8.01 
Conservatrice,0.3,0.15,0.5,0.05,0.06,0.045 
Equilibree,0.1,0.35,0.45,0.1,0.079,0.096 
Croissance,0.05,0.5,0.25,0.2,0.088,0.132 


Dynamigue,0,0.6,0.15,0.25,0.095,0.159 
Agressive,0,0.7,0,0.3,0.0993,0.187 


et importons-le: 


R RGuiï (64-bit) - [R Console] 
R File Edit View Misc Packages Windows Help 


BROSSE 


> portefeuille <- read.csv("c:/tmp/Portfolio.csv ") 
> portefeuille 
Strategie Investissement.CT Actions.Domestiques Obligations.Domestiques 
Revenu 1.00 0.00 0.00 
Conservatrice 0.30 0.15 0.50 
Equilibree 0.10 0.35 0.45 
Croissance 0.05 0.50 0.25 
Dynamique 0.00 0.60 0.15 
Agressive 0.00 0.70 0.00 
Actifs.lnternationaux Rendements.Annuels Volatilites.Annuelles 
0.00 0.0350 0.010 
.05 0.0600 0.045 
.10 0.0790 0.096 
.20 0.0880 0.132 
.25 0.0950 0.159 
.30 0.0993 0.187 


On restructure un peu: 
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R RGui (64-bit) - [R Console] 


R File Edit View Misc Packages Windows Help 


| 


> fdistinguer les indicateurs des parts 


> fgrouper les actifs par stratégie de portfeuille 
> strategie<-split (portefeuille[2:5],portefeuille$Strategie) 


> strategie 


SAgressive 
Investissement .CT Actions.Domestiques 
6 [e) 0.7 
Actifs.Ilnternationaux 
6 0.3 
S$Conservatrice 
Investissement .CT Actions.Domestiques 
2 0.3 0.15 
Actifs.Internationaux 
2 0.05 
$Croissance 
Investissement .CT Actions.Domestiques 
4 0.05 0.5 
Actifs.Internationaux 
4 0.2 
$SDynamique 
Investissement .CT Actions.Domestiques 
2 [e) 0.6 
Actifs.Iinternationaux 
5 0.25 
$Equilibree 
Investissement .CT Actions.Domestiques 
3 0.1 0.35 
Actifs.Internationaux 
3 0.1 
SRevenu 
Investissement .CT Actions.Domestiques 
1 L 0 
Actifs.Internationaux 
1 [el 
> | 


Cbligations.Domestiques 
0 


Cbligations.Domestiques 
0.5 


Cbligations.Domestiques 
0.25 


Cbligations.Domestiques 
0.15 


Cbligations.Domestiques 
0.45 


Cbligations.Domestiques 
0 


(= X 


MILLE 


On choisit une des stratégies: 
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R RGui (64-bit) - [R Console] 
R File Edit View Misc Packages Windows Help 


> strategie$Conservatrice 
Investissement .CT Actions.Domestiques Obligations.Domestiques Actifs.Internationaux 


0.3 0.15 0.5 0.05 
> | 


Et maintenant allons-y pour l'astuce simple consistant à faire un fromage blanc sans bords 
dans un fromage normal sans bords lui aussi: 


R RGuï (64-bit) - [R Console] 
R File Edit View Misc Packages Windows Help 


labs<-paste (round(unlist (strategie$Conservatrice)*100,2),"%") 

couleurs <- rainbow(4) 

pie(unlist (strategie$Conservatrice),col=couleurs,labels=labs, 

main="Gestion Conservatrice" ,border=NA, radius=1) 

legend("bottomright",gsub(" \\. "," ",names(strategie$Conservatrice)),cex=0.7,fill=couleurs,bty="n") 
par(new =T) 

pie(unlist (strategieS$Conservatrice),radius=0.8,col="white",border=NA, labels=NA) 


>, 
> 
> 
+ 
> 
> 
> 
> | 


Ce qui donne: 
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R R Graphics: Device 2 (ACTIVE) 


Gestion Conservatrice 


Investissement.CT 
B Actions. Domestiques 
B Obligations Domestiques 
B Actifs.nternationaux 


Sinon dans la famille des diagrammes en anneaux nous avons aussi les graphiques en rayons 
de soleil (Sunburst) avec le package sunburstR et sa fonction sunburst( ) : 
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UR RGui (64-bit) - [R Console] = 


ŒR File Edit View Misc Packages Windows Help #8 x 


> library(sunburstR) 

> # read in sample visit-sequences.csv data provided in source 

> # https://gist.github.com/kerryrodden/7090426#file-visit-sequences-csv 
> sequences <- read.csv( 

+ system.file ("examples/visit-sequences.csv",package="sunburstR") 

+ sheader=F 

+ -SstringsAsFactors = FALSE 

_ 
> 
> 
> 


) 


sunburst (sequences) 


Ce qui donne: 


O Menu  B indexhtml X | + 


< C #8 B file:///C:/Users/Vincent%20lsoz/AppData/Local/Temp/Rtmpop46ds/viewhtml2e7064f7fc9/index.html 


{home ASE) rome JE) Citegend 


0.473% 


Figure 129 Graph de type Sunburst (rayon de soleil) 
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Exemple 135.: Diagramme radar (Kiviat) 
R 3.0.2 


Le diagramme radar va être créé à l'aide du package plotrix et de la commande 
diamondplot( ) . Il n'est pas évident de préparer la source de données pour ce type de 
diagramme car l'entrée doit être un data frame dont les noms des catégories doivent se trouver 
sur l'index de numérotation de ce même data frame (d'où l'utilisation de la commande 
row.names( ) ): 


E 


R R Console = |g|Xx 


p 


library(plotrix) 

setwdi"C:/"] 

mydataMain<-read.csv("Ventes.csv", header=T,sep=":") 

mydatal<-aggregate (mydataMain$Quantité,by=list (mydataMain$ictivité),FUN=sum) 
colnames (mydatal)<-ci"Secteur","Somme Quantité") 

rownames (mydatal)<-mydatal$Secteur 

mydatai[1]<-NULL 


Pa 
> 
> 
> 
> 
> 
> 
> 
> mydataz<-aggregate (mydataMain$Quantité[whichimydataMain$Facture.payée=="QOui")], 
+ by=list imydataMain$ictivité[which(imydataMain$Facture.payée=="Oui")]),FUN=sum) 

> colnames (mydataz)<-c("Secteur","Sormme Quantité Payées'") 

x 

: 

+ 

> 

» 

> 

> 


mydata3<-aggregate (mydataMain$Quantité[which(imydataMain$Facture.payée=="Non")], 
by=list (mydataMain$äictivité[which(imydataMain$Facture.payée=="Non")]),FUN=sum) 
colnames (mydata3)<-ci"Secteur","Somme Quantité Payées") 
mydata<-chindimydatal,mydata2[2],mydata3[2]) 


mydata 
Somme Quantité Somme Quantité Payées Somme Quantité Payées 


Alimentaire 46 36 10 
issurances 72 47 25 
Banques 74 29 45 
Construction 157 54 73 
Distribution 109 55 54 
Éducation 150 100 50 
Machines/Outils 135 68 70 
Pharmaceutique 135 13 125 
> 

> diamondplot (mydata,bg="white") 


> | 


Ce qui donne: 
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R R Graphics: Device 2 (ACTIVE) = | |x 


—— Somme Quantité 


== Somme Quantité Payées 


Alimentaire 


Jucation 


Distribution Banques 


Construction 


Figure 130 Graph de type radar 
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Ou encore, toujours avec le même package: 


libraryiplotrix) 

setwd("C:/") 

mydataMain<-read.csv("Ventes.csv",header=T,sep=";") 

mydata<-aggregate (mydataMain$Quantité,by=list (mydataMain$ictivité),FUN=sum) 
colnames (mydata) <-ci"Secteur","Somme Quantité") 

mydata 


NV MON NO 


Secteur Somme Quantité 
Alimentaire 46 
Assurances 72 
Banques 74 
Construction 157 
Distribution 109 
Éducation 150 
Machines/Outils 138 
Pharmaceutique 135 
SectorValues<-mydatal,2] 
SectorNames<-mydatal, 1] 
MaxValue<-max (mydata[,2]) 
radial.plot (SectorValues, labels=SectorNames,rp.type="p",main="Dissolved ions in water" 
-radial.lim=c(0,MaxValue) ,poly.col="vellou") 
157 
50 100 150 200 


VOO+ VV V V OO -J ao OU & © NH 


ES 


Ce qui donne: 


Dissolved ions in water 
Banques 


Construction _ Assurances 


| | | | 
Distribution TT Alimentaire 


Éducation 1 Pharmaceutique 


Machines/Outils 
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Exemple 136.: Diagramme d'Ishikawa (cause/effets) 
R 3.0.2 


Pour faire un diagramme d'Ishikawa nous allons d'abord charger le package qec qui nous sera 
très utile dans le chapitre de la maîtrise statistique de la qualité: 


Ru (64-bit 


R Fichier Edition Voir Misc Packages Fenêtres Aide- 


> install.packages("qce") 

Installing package into ‘C:/Video2Brain/Packages’ 

{as ‘lib’ is unspecified) 

--- SVP sélectionner un miroir CRAN pour cette session --- 

essai de L'URL ‘'http://cran.rstudio.com/bin/windows/contrib/3.0/qce 2.2.zip' 
Content type 'application/zip' length 280660 bytes (274 Kb) 

URL ouverte 

downloaded 274 Kb 


le package ‘que’ a été décompressé et les sommes MD5 ont été vérifiées avec succés 


Les packages binaires téléchargés sont dans 
C:\Users\lsoz Vincent\AippDataiLocal\Temp\RtmpMdb9OQd\ downloaded packages 
> library(qee) 
Le chargement a nécessité le package : MASS 
Package 'qce', version 2.2 
à ‘'citation("qce"])]' for citing this R package in publications. 
> 


Ensuite, nous faisons un exemple (simplement reprise de l'aide du package): 
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> cause.and.effect (cause=list (Measurements=ci"Micrometers", "Microscopes", "Inspectors"), 

+ Materials=ci"Alloys", "Lubricants", "Suppliers"), 

+ Personnel=ci"Shofts", "Supervisors", "Training", "Operators"), 
+ Environment=c("Condensation", "Moisture"), 

+ Methods=c({"Brake", "Engager", "Angle"), 

+ Machines=c{"Speed", "Lathes", "Bits", "Sockets")), 

+ effect="Surface Flaws") 
> 


Cause-and-Effect diagram 


Measurements Materials Personnel 


Surface Flaws 


Condensation 


Environment Methods Machines 


Figure 131 Graph détype Ishikawa 
Ÿ 
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Exemple 137.: Diagramme radial (rose des vents) 
R 3.0.2 


Voici un diagramme radial fait pour représenter des quantités sur un intervalle de 24 heures 


(le script est inclus dans le framework des participants aux cours). 
PS: Merci à Vincent ZOONEKYND 


R R Console 
mydata<-read.csv("VentesCleanWithTime.csv",header=T,sep=";") 


mydata$DateDeCommande<-format (mydatafDateDeCommande,format="#H"] 
names (mydata) [4] <-paste ("HeureDeCommande") 
mydata<-aggregate (mydata[1],by=list (mydata$HeureDeCommande) , FUN=length) 
colnames (mydata) <-c{"Heures","Comptage") 
x<-mydata$fComptage 

r.chart.clock.plot<-function (x, col = rainbowin), ...) { 
if(min(x)<O0)x<-x - min(x) 

ifimax(x)>1)x<-x/max (x) 

n <- lengthix) 

ifiis.nullinames(x))) namesix) <- O:(n-1) 

m<= 1:05 

pilot (0, 

type='n!, # do not plot anything 

xlim=c{i-m,m), vlim = ci-m,m), 

axes=F,xlab = !'',vyleb = !!, ...) 

a<-pi/2 - 2*pi/200*0:200 

polygon(cos(a),sin(a)) 

v<-0.02 

a<-pi/2-2#*pi/n*Oin 

segments ((i+v) fcosi(a),(i+v) fsin(a), 

(1-v) fcos(a),(1-v) fsin(a)) 

segments {(cos(a),sin(a) ,0,0,col="light grey",lty = 3) 

ca<- -2#pi/nt(0:50)/50 

Or (i in 1:n) 

a<-pi/2-2#*pi/nt(i-1) 

b<-pi/2-2#pi/nti 

polygon(c(0,x[i] ‘cos (a+ca),0),c(0,x[i] *sin(a+ca),0) ,col=col[i]) 
v<-0.1 

text ({((l+v) fcos(a), (1+v)'sin(a), names(x){[i]) 

} 

} 

r.chart.clock.plot(x,main="Number of Sales") 


RÉ DD DD DD) 


n 


Ce qui donne: 


IR R Graphics: Device 2 (ACTIVE) Fe]. 


Number of Sales 


Figure 132 Graph de type Rose des vents 


mydata$DateDeCommande<-as.POSIXct (as.character (mydata$DateDeCommande),format="#d. 


ul 
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Exemple 138.: Diagramme de Pareto et analyse ABC 
R 3.0.2 


Le but ici va être de vérifier que nous pouvons reproduire le diagramme de Pareto que nous 
avions fait dans R. 


Nous partons du fichier *.csv suivant: 


| Pareto.csv - Ble 


Fichier Edition Format Affichage 


MT: tre’ : "ID" 
SQL 
SQL 
SQL 
SQL 
SQL 
SQL 
SQL 
SQL 
SQL 
SQL 
SQL 
SQL 
SQL Server'";:1 
Windows Server":2 
windows 
windows 
Windows 
Windows 
windows 
windows 
windows 
windows 
windows 
windows 
windows 
Windows 
Windows 
Windows Server":2 

fl! 


et d'abord nous l'importons et le résumons: 
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KR Fichier Edition Voir Misc Packages Fenêtres Aide 


> setwd{"C:/") 

> mydata<-read.csvi{("Pareto.csv",header=T,sep=";:") 

> dimimydata) 

[1] 2528 2 

> names (mydata) 

[ 1] "Titre" "ID" 

> mydata<-aggregate (mydata$lD,by=list (mydatafTitre) ,FUN=length) 
> colnames (mydata)j<-ci"Sujets","Fréquences") 

> mydata 


Sujets Fréquences 
{Z) HTML 62 
BRisk L 
idche icrobat 16 
idobe Illustrator 50 
idobe InDesign 45 
idobe Photoshop 
idobe Photoshop Elements 
ilfresco 
Crystal Ball 
CSS 
Cursus Gestion 
Gestion de projets 
IEM Lotus 
ITIÉ 
Mathématique appliquée 
Micro-Edition 
MS Exchange Server 
M5 Office 
MS Office iccess 
M5 Office Communicator 
MS Office Excel 


1 
2 
3 
4 
5 
6 
7 
8 
9 


H H 
kh © 


HHHHHHH 
© -J on On Bb © © 


Remarque: Pour une analyse ABC il suffit de calculer une colonne en pourcents du total des 
fréquences et d'assigner une lettre à ABC à chaque intervalle de notre choix: 
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mydata<-read.csv{("C:/tmp/Pareto.csv",header=T,sep=";:") 
mydata<-aggregate (mydata$ID,by=list (mydatafTitre) ,FUN=length) 
colnames (mydata) <-ci"Sujets","Fréquences") 
mydatafCumulé<-mydata$Fréquences/sumimydata$Fréquences) 
mydata$ABC <- ifelse (mydata$Cumulé>=0.05,"Cr", 
ifelse(mydata$Cumulé<O.01, "a", "B"j) 
mydata[order (mydata$Cumulé,decreasing TRUE) ,] 
Sujets Fréquences 
HS Office Excel 514 
HS Office 304 
MS Office Word 229 
M5 SharePoint Server 223 
HS Office Project 183 
M$ Windows 134 
M5 Office PowerPoint LL3 
M5 Office Outlook 101 
MS Office diccess re 
MS Office Project Server 72 
idobe Photoshop 64 
{X) HTML 62 
ITIL 57 
Adobe Illustrator 50 
Adobe InDesign 45 
M5 Office Visio 35 
XML/XSL/XSD/DTD 34 
M5 Windows Server 28 
VBA (MS Office) 27 
Gestion de projets 1 
Oracle Database 23 


"3 


Cumulé 
-2033227848 
-.1202531646 
-0905854430 
.-0882120253 
-0723892405 
-0530063291 
-0446993671 
-0399525316 
-0296677215 
-0284810127 
-.0253164557 
-0245253165 
.0225474684 
-.0197784810 
-0176006329 
-0138449367 
-0126582278 
-0110759494 
-0106803797 
-0098892405 
-0090981013 


IBM Lotus 

idobe icrobat 
PRINCEZ 

HS SQL Server 

M5 Exchange Server 
CSS 


(e) 
(a) 
(a) 
(e) 
(e) 
(e] 
(e] 
(e) 
(e) 
(e) 
(a) 
(e) 
(e] 
[a] 
(e) 
(e) 
(el 
(e) 
(e) 
(e] 
(e] 
(e) 
(e] 
(e] 
(e) 
(e) 
(e] 


.-0075158226 
-0063291139 
.-0063291139 
.-0051424051 
-0035601266 
-0027689873 


kbkbkbkhkktk DU mm mHmHmHmmAaAnnnnA 


Enfin nous générons le diagramme de Pareto avec la commande pareto.chart( ) : 
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[> dim(mydata) 

[1] 43 2 

> defect<-mydata$ Fréquences 

> names (defect)<-mydata$Sujets 

> pareto.chart (defect, cumperc = seq(0, 100, by = 5), 


Pareto chart analysis for defect 


Office Excel 
Office 

Office Word 
SharePoint Server 
Office Project 
Windows 

Office PowerPoint 
Office Outlook 
Office iccess 

HS Office Project Server 
Adobe Photoshop 

(X) HTML 

ITIL 

Adobe Illustrator 
Âdobe Inbesign 

5 Office Visio 
XML/XSL/XSD/DTD 

HS Windows Server 
VBA (MS Office) 
Gestion de projets 
Oracle Database 

IBM Lotus 

Adobe Acrobat 


SEFEE 


FEU 


1000 1500 2000 2500 


Frequency 


500 


Frequency 
5.140000e+02 
3.040000e+02 
2.290000e+02 
2.230000e+02 
1.830000e+02 
1.340000e+02 
1.130000e+02 
1.010000e+02 
7.500000e+01 
7.200000e+01 
6.400000e+01 
6.200000€e+01 
5.700000e+01 
5.000000e+01 
4.500000e+01 
3.500000e+01 
3.200000e+01 
2.800000e+01 
2.700000e+01 
2.500000e+01 
2.300000e+01 
1.900000e+01 
1.600000e+01 
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ylab2 = "A finer tickmarks grid") 


Cum.Freq. 
5.140000e+02 
8.180000e+02 
1.047000e+03 
1.270000e+03 
1.453000e+03 
1.587000e+03 
1.700000e+03 
1.601000e+03 
1.876000e+03 
1.948000e+03 
2.012000e+03 
2.074000e+03 
2.131000e+03 
2.181000e+03 
2.226000e+03 
2.261000e+03 
2.293000e+03 
2.321000e+03 
2.348000e+03 
2.373000e+03 
2.396000e+03 
2.415000e+03 
2.431000e+03 


Percentage 
2.033226e+01 
1.202532e+01 
9.058544e+00 
8.821203e+00 
7.238924e+00 
5.300633e+00 
4,.469937e+00 
3.995253e+00 
2.966772e+00 
2.648101e+00 
2.531646e+00 
2.452532e+00 
2.254747e+00 
1.977848e+00 
1.780063e+00 
1.384494e+00 
1.265823e+00 
1.107595e+00 
1.068036e+00 
9.889241e-01 
9.098101e-01 
7.515623e-01 
6.329114e-01 


[æ, 
20509 NEO 1)1=-cOQOSTUDU _ HSLLOZ=SOSSSUNLUe 
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Figure 133 Graph de Pareto avec analyse ABC 
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Et pour ceux qui tiennent vraiment au diagramme ABC, en voici une première version avec la 
fonction ABCplot() du package ABCAnalysis: 


GR RGui (64-bit) - [R Console] _ [E] 


| File Edit View Misc Packages Windows Help x 
| 


library("ABCanalysis") 
mydata<-read.csv("c:/tmp/Pareto.csv",header=T, sep=";") 
mydata<-aggregate (mydata$ID,by=list (mydata$Titre),FUN=length) 
colnames (mydata)<-c("Sujets","Fréquences") 

ABCplot (mydata$Fréquences) 


> 
|> 
> 
> 
> 
> | 


Ce qui donne: 


ABC plot 
o 
oo 
oO 
œo 
Le] 
gp à 
Le] Le) 
TD 
® © 
> o 
«© 
© w 
£ Oo 
a 
© 
l'est Le] 
Le] 
=] 
8 © 
£ o 
[où] 
o \ 
data 
- identity 
oO uniforin, 
equilibrièn 
o “ 
o 
00 01 02 03 04 05 06 07 08 09 10 
fraction of data 


Figure 134 Graph de type Analyse ABC 


R Statistical Software 943/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Ou avec le package TSTools et sa fonction abe( ) : 


R RGui (64-bit) - [R Console] — O X 


ŒR File Edit View Misc Packages Windows Help 5x 


> #devtools::install_ github("trnnick/TStools") 
> library("TStools") 
> mydata<-read.csv("c:/tmp/Pareto.csv",header=T, sep=";") 
> mydata<-aggregate (mydata$ID,by=list (mydataS$Titre),FUN=-length) 
> colnames (mydata)<-c("Sujets","Fréquences") 
> abc(as.matrix (mydataS$Fréquences)) 
ABC analysis 
Importance % 
A (20%): 74.209 
B (30%): 21.321 
C (50%): 4.47 
> PEER EEE 
> 


Ce qui donne graphiquement: 


Le 


Œ 8 Graphics: Device 2 (ACTIVE) EE 
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Exemple 139.: Diagrammes Box Plots 
R 3.0.2 


Il ne nous faut pas manquer le traditionnel Box Plot avec la commande boxplot() et nous y 
ajoutons une touche de rug( ) ..: 


R R Console 


> setwdi"C:/") 

> mydata<-read.csv{("VentesClean.csv",header=T,sep=";") 

> boxplot (mydata$Quantite,col="royalblue3",horizontal=TRUE) 
> 

> 


rugimydatafQuantite,side=1) 


Figure 135 Graph de type Box-Whisker (boîte à moustaches) simple 


ou encore (avec des intervalles de confiance de la médiane à 95%): 
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> setwd{("C:/") 
mydata<-read.csv("VentesClean.csv",header=T,sep=":") 
#fattention si la dispersion est trop grande cela ne marche pas 
boxplot (mydata$PrixParPiece-mydata$FacturePayee,notch=T) 
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R R Console 


setwd{"C:/") 
mydata<-read.csv{("VentesClealfk 
attach(mydata) 

boxplot (Quantite-irticle) 
title{"Différents Box Plot") 


NE AE 


Différents Box Plot 


AST Intel 150 AST Intel 200 Compaq Presario 100 IBM 500 


Nous pouvons aussi faire varier l'épaisseur des box plot en fonction des effectifs avec le 
paramètre varwidth: 
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> setwd("C:/") 
> mydata<-read.csv("VentesClean.csv",header=T,sep=";:") 
> boxplot (mydata$Quantite-mydatafärticle,varwidth=T,main="Différents Box Plot") 
>| 


AST Intel 150 Compaq Presario 100 


Nous pouvons faire plus technique aussi: 


boxplot (mydata$Quantite, col = grey(0.8), main = paste("Quantité de”, 

nrow(imydata), "commandes"), ylab = "Unités", 

las = 1) 

rug(imydata$fQuantite, side = 2) 

abline(h = median(mydatafQuantite), col = "navy") 

text (1.35, median(mydata$Quantite), "Médiane", col = "navy"] 

Q1 <- quantile (mydata$Quantite,0.25) 

abline(h = Q1, col = "“darkred'") 

text (1.25, quantile (mydata$Quantite,0.25), "Qi : premier quartile", col = "darkred") 
Q3 <- quantile (mydata$Quantite, 0.75) 

ablineih = 3, col = "darkred'") 

text(1.25, quantile (mydataf$Quantite,0.75), "O3 : troisieme quartile", col = "darkred'") 
arrows(x0 = 0.7, yO = quantile(mydata$Quantite, 0.75), x1 = 0.7, yi = quantile (mydata$Quantite,0.25), length = 0.1, code = 
text (0.7, median(mydata$Quantite), "h", pos = 2) 

mtext ("L'écart inter-quartile h contient 50 * des individus'",side = 1) 

ablineih = Q1 - 1.5*IQRimydata$Quantite], col = "darkgreen"]| 

text (1.35, Q1 - 1.5*IQRimydata$Quantite), "O1 -1.5 h", col = "darkgreen" 

abline(h = ©3 + 1.5*IQORimydatafQuantite), col = "darkgreen") 

text (1.35, Q3 + 1.5*IQR(mydata$Quantite), "O3 +1.5 h", col = "darkgreen") 


> 
+ 
& 
> 
> 
> 
> 
> 
_ 
> 
> 
> 
> 
> 
-a 
> 
> 
> 
> 
> | 


ce qui donne: 
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Sciences.ch 
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Unités 


15 


10 


R R Graphics: Device 2 (ACTIVE) 


Quantité de 109 commandes 


000 


EE 


L'écart inter-quartile h contient 50 % des individus 


à 


Ou encore avec le package ggplot on peut mélanger des boxplot avec des courbes de densité: 
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MR Console 


library("ggplot2") 
library("DAAG") #pour le jeu de données 
data(ais) 
head(ais) 

rcc wcc h bmi ssf pcBfat 1bm ht wt sex sport 
3:96 7.5 37. 20.56 109. 19:75 63:32 195:9 76:9 f B Ball 
& 41 6.3: 36: * 20.67 102. 21.30 S8.S5 189.7 74.4 B_ Ball 
4.14 36. à 21.86 104. 19.88 55.36 177.8 69.1 B_ Ball 
4.11 27 . 21.88 126. 23.66 57.18 185.0 74.9 B_ Ball 
4.45 41. à 18.96 80. 17.64 53.20 184.6 64.6 B_ Ball 
4.10 27 : 21-04: 75; 15,58; 53,77 174.0 16357 B_ Ball 
quichplot (wt, ht,xlab="Weight [kg]",ylab="Height [cml",data=ais, 
geom = ©c ("“boxplot" ,; "point" , "density2d" ),facets=.-sex) 
Warning message: 
Continuous x aesthetic -- did you forget aes(group=...)? 


VVYVVV 


+ Vous NH 


QU R Graphics: Device 2 (ACTIVE) 


DEN 
AMI 
CAEN ) 

222 


Height [em] 


OU: 
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V 


data (ToothGrowth) 
head (ToothGrowth) 
len supp dose 
4.2 VC 
11:5 VC 
7:3 VC 
8 
Es 


V 


5- VC 


6 VC 


OOOOO0O 
U1 O1 O1 O1 On nm 


10.0 VC 
ToothGrowthS$dose <- as.factor (ToothGrowthS$dose) 
library ("ggplot2") 
ggplot (ToothGrowth, aes(x=dose, y=len)) + 

geom boxplot ()+ 

geom_ jitter(position-position jitter(0.2)) 


AV ++vvvVaoauswnNE 


len 


Voyons encore un autre exemple relativement famaux avec la fonction 
simple.hist.and.boxplot() du package UsingR: 
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F 


ET EIRE 
> library("UsingR") 
> x<-rnorm(1000,mean=10,sd=2) 
> simple.hist.and.boxplot (x) 
> 
fl pe, ne) go) 
EEE 


Histogram of x 
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Diagrammes en violons (violin plot) 


Les diagrammes en violon essayent de combiner les avantages des boîtes à moustaches et des 
estimateurs de la densité locale. 


Nous installons d'abord deux packages qui sont sm et vioplot: 


MRC 64 bit RC 
R Fichier Edition Voir Misc Packages Fenêtres Aide 


ÉBROISEE 


> install.packages ("sm") 

Installing package into ‘C:/VideoZ2Brain/Packages’ 

{as ‘lib’ is unspecified) 

essai de l'URL ‘'http://cran.rstudio.com/bin/windows/contrib/3.0/sm 2.2-5.4.zip' 
Content type 'application/zip' length 731003 bytes (713 Kb) 

URL ouverte 

downloaded 713 Kb 


le package ‘sm’ a été décompressé et les sommes MDS ont été vérifiées avec succés 


Les packages binaires téléchargés sont dans 
C:\Users\lsoz Vincent\AppDataiLocal\Temp\ RtmpOaWpdl\ downloaded packages 
> install.packages("vioplot") 
Installing package into ‘C:/Video2Brain/Packages’ 
{as ‘lib’ is unspecified) 
essai de l'URL ‘'http://cran.rstudio.com/bin/windows/contrib/3.0/vioplot O.2.zip' 
Content type 'application/zip' length 13307 bytes (12 Kb) 
URL ouverte 
downloaded 12 Kb 


le package ‘vioplot’ a été décompressé et les sommes MDS5 ont été vérifiées avec suc$ 


Les packages binaires téléchargés sont dans 
C:\Users\1lsoz Vincent\AppDataLocal\Temp\ RtmpOaWpal\ downloaded packages 


> | 


et nous y allons en utilisant la commande vioplot( ) : 
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L ADS 2: AR AS de QE 


R Console 


libraryi(vioplot) 

library(sm) 

setwd{("C:/") 
mydata<-read.csv("VentesClean.csv”",header=T,sep=";") 
vioplot (imydata$Quantite,names=""] 
title(main=paste ("Taille de", nrow(mydata),'"commandes")) 


Taille de 109 commandes 


15. 20 25 30 


[= 
— 


5 


Figure 136 Graph Box-Whisker de type violon 


Nous pouvons faire mieux aussi: 
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Ye 


xi<-mydata$Quantite[mydata$ärticle=="IBM 500"] 
x2<-mydataf$Quantite[mydata$färticle=="AST Intel 150"] 
x3<-mydata$Quantite[mydata$ärticle=="AST Intel 200"] 
vioplot(x1,x2,x3,names=c ("IBM 500","AST Intel 150","A5T Intel 200")) 
title ("Diagramme violon avec quelques articles") 


Diagramme violon avec quelques articles 


[= 
om 
LN 
[qi 
[= 
[œil 
LD 
>. Tu 


10 


5 


IBM 500 AST Intel 150 AST Intel 200 
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Diagrammes de Gardner-Altman 


Voir page 1312. 
Diagramme pirate 


Un diagramme pirate est une façon moderne de visualiser la relation entre une variable 
indépendante catégorielle et une variable dépendante continue. Contrairement aux méthodes 
de traçage traditionnelles, comme les barplots et les boxplots, un diagramme pirate 
(pirateplot) est un triptyque qui présente des données brutes (toutes les données comme des 
points), des statistiques descriptives (comme une ligne horizontale à la moyenne ou toute 
autre fonction que vous souhaitez) et un intervalle de densité de Bayesian à 95% lissé. 


Avec nos données cela donne en utilisant le package yarrr et la fonction pirateplot( ) 
correspondante: 


R 
La 


File Edit View Misc Packages Windows Help 


> library(yarrr) 

> mydata<-read.csv("c:/tmp/VentesClean.csv" ,header=T,sep=":") 
> pirateplot (formula = Quantite - Article, 

+ data = mydata, 

main = "Quantités par Article") 


+ 


L'4 


Ce qui donne: 
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Quantités par Article 


35 


25 


20 


Quantite 


15 


Li + + 


10 Le : 
. 4 Ci —— 


DE he T T 
AST Intel 150 AST Intel 200 Compaq Presario 100 IBM 500 


Article 


Figure 137 Graph de type Pirate 


Ou encore: 


M RGui (64-bit) - [R Console] _ O 
ŒR File Edit View Misc Packages Windows Help _Æ x 


ÉSOS OS |OIE 


> library(gghalves) 

> library(dplyr) 

> d <- data.frame(time = rep(LETTERS({1:2], each=50), value = c(rnorm(50, 1), rchisq(50, 2))) 
> 

> ggplot (data = d, aes(x=time, y=value)) + 


+ theme bw() + 

+ geom half point(aes(fill = time, color=time),side = "l", size = 0.3, alpha=0.8) + 

+ geom half boxplot(color="black", fill="white", side = "1", width = 0.5, alpha = 0.5, nudge = 0.1, outlier.size = 0) + 
+ geom half violin(aes(fill = time,colour=time),side = "r") + 

+ A ee fun.args = list(mult=0), geom="crossbar", color = "red", width=.2) 

> 


Ce qui donne: 
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EE 
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Exemple 140.: Pyramide des âges 


R 3.0.2 


Un grand classique dans les tableurs aussi. Dans R il faut encore une fois utiliser la package 
plotrix mais cette fois-ci avec la commande pyramide.plot() . Voici un exemple repris tel 


quel du PDF du package: 
 R Console [= | © | 
> library(plotrix) 
> xy.-pop<-ci3.2,3.5,3.6,3,6,3.5,3.5,3.9,3.7,3,9,3.5,3,2,2.8,2.2,1,8, 
Æ 1:5;:1.9,0.7,0:4) 
> NES DODS- CSL: T,4,258,9:8, 3.594 75830: 09,86, 252400; dt: 
+ 1.3,1,0.681 
> agelabels<-ci"0-4","5-9","10-14","15-19","20-24","25-29","30-34", 
+ "35-39","40-44","45-49","50-54","55-59","60-64","65-69","70-74", 
+ "75-79", "60-44", "85+") 
> meol<-color.gradient (c(0,0,0.5,1),c(0,0,0.5,1),c{1,1,0.5;,1),16) 
> fcol<-col0r.gradient icii,1,:0.5,1),010,5,0:5,0.5,11,01(0.5,0.5,0.5,1),16) 
> par (mar=pyramid.plot (xy.pop,xx.pop,labels=agelabels, 
+ main="Austrial actual population pyramid 2002",lxcol=mcol,rxcol=fcol, 
+ gap=0.5,show.values=TRUE,unit="#")) 
> [” (roar=oldmar,bhg="transparent") 
> 


… 


Ce qui donne: 


IR R Graphics: Device 2 (ACTIVE) 


Austrial actual population pyramid 2002 
Male Age Female 


04 [_] 85+ 0.8 


Figure 138 Graph de type pyramide des âges 
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Exemple 141.: Chronologie et Diagramme de Gantt 
R 3.4.1 


Voyons comment créer d'abord une chronologie avec la fonction timevis() du package 
timevis: 


R RGui (64-bit Console [] 


8 File Edit View Misc Packages Windows Help the 


E 


|> library(timevis) 


> data <- data.frame( | 
+ id = ]l:4, 

+ content = c("Item one" , "Item two" ,"Ranged item", "Item four"), 

+ start = c("2016-01-10", "2016-01-11", "2016-01-20", "2016-02-14 15:00:00"), 

+ end = c(NA , NA, "2016-02-04", NA) 

A, 

|> timevis(data) 

> 

>| 


Cela crée alors dans le navigateur: 


me à 
O Menu  B indexhtmi X ME FT X 
< C 5 D file:///C:/Users/Vincent%20lsoz/AppData/Local/Temp/RtmpsP4LMw/viewhtml199875da373a/index.html 
Item one A VE 
Item two Ranged item Item four 
e_—+ 8 
11 16 21 26 1 6 11 1 
January 2016 February 2016 


Nous sommes évidemment très loin de ce que peut faire un outil comme Microsoft Project 
(voir mon livre sur le sujet) ou même Microsoft Visio. Mais c'est déjà pas mal pour certain 
besoin basique. 
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Passons maintenant au Gantt qui encore une fois est beaucoup moins flexible que Microsoft 
Project. 


Pour cela, nous allons utiliser la fonction GanttChart() du package PlotPriNetworks: 


[ 


| RGuï (64-bit) - [R Console - O0 
R File Edit View Misc Packages Windows Help x 


ESOISOSIOIE 


library(PlotPriNetworks) 

projectil=data.frame ( 

task=c("Market Research","Concept Development","Viability Test", 

"“Preliminary Design","Process Design","Prototyping","Market Testing","Final Design", 
"Launching"), 
start=c("2015-07-05","2015-07-05","2015-08-05","2015-10-05","2015-10-05","2016-02-18", 
"2016-03-18","2016-05-18","2016-07-18"), 
end=c("2015-08-05","2015-08-05","2015-10-05","2016-01-05","2016-02-18","2016-03-18", 
"2016-05-18","2016-07-18","2016-09-18")) 

project2=data.frame ( 

from=c(1,2,3,4,5,6,7,8), 

to=c(2,3,4,5,6,7,8,9), 

Cype=c("33","#9","F73","33","F73","Tr3","r3","rS3"), 

delay=c(7,7,7,8,10,10,10,10)) 

GanttChart (projectl,project2) 


VEN ++ VV 


Ce qui donne: 
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r 


Market Research - 


Concept Development - 


Viability Test - 


Preliminary Design - 


Process Design - 


Prototyping - 


Market Testing - 


Final Design - 


Launching - 


2015-07 2016-01 2016-07 


Figure 139 Graph de type Gantt (ggplot) 
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Exemple 142.: Organigramme 
R 3.4.1 


Bon là encore on est très loin des possibilités d'un logiciel comme Microsoft Visio mais au 
cas où voici comment faire un organigramme simple avec R: 


UR RGui (64-bit) - [R Console] — 


| ŒR File Edit View Misc Packages Windows Help = FX 


SIT] 


library(diagram) 

par (mfrow=c(l,l)) 

par (mar=c(0,0,0,0)) 

#ffinitialize new grphics device 
openplotmat (}) 

##number of elements per row 
elpos<-coordinates (c(1l,1, 2, 2, 2, 3,2 )) 
##draw arrows from each row to next row 
treearrow(from=elpos{l,],to=elpos!(2,],lwd=6) 
treearrow(from=elpos[2,],to=elpos[3:4,],lwd=6) 
treearrow(from=elpos[3,],to=elpos![5,],lwd=6) 
treearrow(from=elpos{4,],to=elpos!(6,],1lwd=6) 


treearrow(from=elpos{(5,],to=elpos(7:8,],lwd=6) 


treearrow(from=elpos[7,],to=elpos[9:10,],1lwd=6) 
treearrow(from=elpos[8,],to=elpos!{ll,],lwd=6) 


treearrow(from=elpos[(9,],to=elpos!{12,],1lwd=6) 
treearrow(from=elpos{10,],to=elpos![13,],lwd=6) 


ffcreate a generic 3-lined label for each textbox 
labels = vector (length=13) 
labels[1] = "Vincent Isoz (CEO)\n Scientific Evolution Sàrl" 


labels[2] = "Daname Kolani\n Quantitative Finance Consultant" 
for(i in 3:14) !{ 
labels[{i] = "Firstname Lastnameïn Function" 


} 
##plot text boxes 
for ( i in 1:13) textround (elpos{i,],radx=0.08,rady=0.04,lab=labels{i],cex=0.6) 


VV NVNVNVNVNNNVNNNNNNNNNN NN NN NN NNN NN NV 


Ce qui donne: 
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Vincent Isoz (CEO) 
Scientific Evolution Säri 


Daname Kolani 
Quantitative Finance Consultant 


Figure 140 Graph de type Organigramme 
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Exemple 143.: Gaufres 
R 3.4.1 


Voyons quelques graphiques faits avec la fonction waffle() du package waffle: 


RE Console EEE] 


A 


> library(waffle) 

> savings <- c(‘Mortgage ($84,911) =84911, ‘Auto andntuition loans ($14,414) =14414, 
+ ‘Home equity loans (510,062) =10062, ‘Credit Cards (58,565) =8565) 

> waffle(savings/392, rows=7, size=0.s, 


colors=c("#c7d4b6", "#a3aabd", "#a0Od0de", "#97b5cf"), 
title="Average Household Savings Each Year", 
xlab="l1 square == 5392") 


MR Graphics: Device 2 (ACTIVE) 


Average Household Savings Each Year 

DIENCNLIUIINEIDNSLLOIUIREINSLRCLIRBRERSRRSSSER E Mortgage (584,911) 

BUSRGLLILESNTNRUISSENSEONSSEINELSOR RIRES BA 0 anontuiion loans (514.414) 
ei Home equity loans (510,062) 

SSSR ennne  Creat carce (62.565) 

1 square == 5392 


Figure 141 Graph de type Gaufres 


ou encore: 
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RE Consoic 1e) 


parts <- c('Un-breached\nUS Population‘ (3168-11-79), ‘Premera ‘11, ‘Anthem 79) 
waf£le (parts, rows=8, size=l, colors=c("#96969€", "#157Sbf", "#00Sbda"), 


> 
> 
> 
+ ticlie="Health records breaches as fraction of US Population”, 
+ | xlab="One square == ln ppl") 

» 


MR Graphics Device 2 (ACTIVE) 


Health records breaches as fraction of US Population 


RER ER E 
ÉSÉSSNSESSMSSBRESSSSHESSESE — 
SOuSEsTsun DRSDRBRRnnnnn Mister 


Premera 


ES + D ÉRRnE RH re BED Baren 
ÉÉÉEERÉÉEEEEEES ELEC CLEO EE El 
TL ee 0110 


One square == 1m pp! 
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Exemples 144.: Hémicycle 


R 3.5.1 


Ici rien d'extraordinaire. Juste un copié collé de la vignette du package ggparliament et de ses 
différentes couches (calques) ggplot2 en particulier de geom_parliament_seats( ). 


Donc d'abord présentons le jeu de données inclus dans le package et formattons-le un peu 
avec dplyr: 


le Edit View Misc Packages W 


R 
RF 
SÉOEESEIE 


VH+VVVV 


library("ggparliament") 
library("ggplot2") 

library("dplyr") 

unformatted data <- election data 4% 


filter(country == "Germany" & year == "2017") %>% 
arrange (party_long) 
unformatted_ data 


year country house party_long party _ short seats government colour 
1 2017 Germany Bundestag Alliance 90/The Greens GRUNE 67 0 #64A12D 
2 2017 Germany Bundestag Alternative for Germany AFD 94 1 #009EE0 
3 2017 Germany Bundestag Christian Democratic Union CDU 200 1 #000000 
4 2017 Germany Bundestag Christian Social Union in Bavaria CSU 46 0 #008AC5 
5 2017 Germany Bundestag Free Democratic Party FDP 80 1 #FFEDOO 
6 2017 Germany Bundestag Social Democratic Party SDP 153 0 #EB001F 
7 2017 Germany Bundestag The Left LINKE 69 0 #BE3075 
> 
> formatted_ data <- unformatted data %>% 
+ arrange(-government, -seats) 
> formatted parl_ data <- formatted data 3% 
+ parliament_data(.,parl_ rows = 12,party_ seats = .$seats,type = "semicircle") 
> dim(formatted_parl_data) 


[1] 709 12 


> head(formatted parl data) 


year country house 
2017 Germany Bundestag Christian Democratic Union 
2017 Germany Bundestag Christian Democratic Union 
2017 Germany Bundestag Christian Democratic Union 
2017 Germany Bundestag Christian Democratic Union 
2017 Germany Bundestag Christian Democratic Union 
2017 Germany Bundestag Christian Democratic Union 


VHbRHbHEH 
us wN EH 


Enfin, voici la partie pour le graphique: 


CDU 
CDU 
CDU 
CDU 
CDU 
CDU 


200 
200 
200 
200 
200 
200 


party_long party_short seats government 


1 
4 
1 
Es 
L 
c 


colour x 
#000000 -2.000000 
#000000 -1.909091 
#000000 -1.818182 
#000000 -1.727273 
#000000 -1.636364 
#000000 -1.545455 


HD D D D D 


ÿ row 
-449213e-16 12 
-337885e-16 11 
-226557e-16 10 
-115229e-16 9 
-003901e-16 8 
-892573e-16 T 


& & W W W 


-141593 
-141593 
-141593 
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R' CEE 
> ggplot (formattsd parl data, aes(x, y, colour = parzy short)) 
+ ge2m parliament seatsi) + 
g=om_ highliight _gcyernment (gcyernment == 1 
+ draw majurilylicesholdin — 355, label — FALSE, Lype — "samiciscle") + 
+ 1:b=(cciour-"Larzy", titic-"Cormany 2017 Élection kKesults") + 
+ theme_ggparliamen- (| E 
# scilc_ colour _manual(valusz — formatted parl dita$colour, limits — formaztod parl data$party_ short) 
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Exemples 145.: Diagrammes de Taylor 
R 4.1.1 


Les diagrammes de Taylor sont des diagrammes mathématiques conçus pour indiquer 
graphiquement laquelle de plusieurs représentations approximatives (ou modèles) d'un 
système, d'un processus ou d'un phénomène est la plus réaliste. Ce diagramme, inventé par 
Karl E. Taylor en 1994 (publié en 2001) facilite l'évaluation comparative de différents 
modèles. Il est utilisé pour quantifier le degré de correspondance entre le comportement 
modélisé et observé en termes de trois statistiques : le coefficient de corrélation de Pearson, 
l'erreur de l'erreur quadratique moyenne (RMSE) et l'écart type. 


Nous allons voir que le package plotrix intègre ce diagramme via la fonction 
taylor.diagram( ): 


le x 


| Lie Ce Ve (x) 


> library("plotrix") 

> str(precipitation<-read.csv("c:/tmp/Precipitations.csv",header=T)) 
"data.frame': 1000 obs. of 5 variables: 

XX. ? int 1239345 6 7 9 9 10 ..;: 

Ref: num 12.1 13.2 12.4 13.6 13.2 ... 

ML # nom 6:95 10:57 7:79 9.25 11.57 ::. 

M2 : num 5.03 5.56 5.62 6.86 5.92 ... 

M3 : num 15 13 15.7 14.9 14 ... 


L 2 


OÙ UN UN 


taylor.diagram(precipitation$Ref, precipitation$Ml, col 
taylor.diagram(precipitation$Ref, precipitation$M2, col 
taylor.diagram(precipitation$Ref, precipitation$M3, col 


*plue", pch = 1,sd.arcs-T, ref.sd=T) 
"red", pch = 2, add = TRUE) 
“green”, pch = 3, add = TRUE) 


VVYVVV 


legend(2,2,cex=0.8,pt.cex=1 
riegend=c{("Precipitations Model 1l'","Precipitations Model 2","Precipitations Model 3") 
spch=c{(1,2,3),col=c{"blue","red","green")) 


V++v 


kr D 


M R Graphics: Device 2 (AC RES 
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Ou alternativement: 


> library("plotrix") 
> 
> str(precipitationc-read.csv("c:/tmp/Precipitations.csv",header=T)) 
‘“data.frame': 1000 obs. of 5 variables: 
int 12348567 8 9 10 .:. 
num 12.1 13.2 12.4 19.6 13.2 ... 
num 68.35 10.57 7.78 9.25 11.57 ... 
num 5.03 5.56 5.62 6.86 5.92 ... 
num 15 13 15.7 14.9 14 ... 


taylor.diagram(precipitationSRef, precipitationSMl, col = "blue", pch = l,sd.arcs=T, ref.sd=T 
pos.cor=F,xlab="") 

taylor.diagram(precipitation$Ref, precipitation$M2, col = "red", pch = 2, add = TRUE) 
taylor.diagram(precipitationSRef, precipitationSM3, col = "green", pch = 3, add = TRUE) 


Taylor Diagram 


Correlation Coefficient 


Standard Deviation 
Centered RMS Difference 
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Exemples 146.: Surfaces 3D 
R 3.4.1 


Une vieille fonction qui nous est bien connue (sinus cardinal) pour introduire la commande 
persp( ) (les plot de surface 3D sont très utiles dans l'industrie où l'on mesure des défauts de 
surfaces à quelques dixièmes de microns ou même moins!): 


R & Console 


> x<-seq{(-10, 19, length=30) 

> y<-x #pour avoir une boîte carrée 

f<-functionix,y)i{ 

r<-sqrt(x"2+y"2) 

10*sin(r)/r 

; 

z<-outer (x, y, £) 
perspi(x,y,z,theta=30,phi=30,expand=0.5,col="lighthlue") 


VV+++V 


Figure 142 Graph 3D de type surface 


Ou avec un peu d'ombre: 
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R Console 


> x<-seq(-10,10,length=30) 

> y<-x 

f<-function(x,yi{ 

c<-sqrt(x"2+y"2) 

10*sin(r)/r 

} 

z<-outer (x,y,f£) 

persp(z,phi=30,theta=30,xlab="X",vylab="Y",zlab="2",col="lighthlue",shade=0.5,main="Sinus Cardinal",expand=0.5) 


VYV+++V 


« 


Sinus Cardinal 


ou dans encore inutilement plus beau: 


x<-seq(-10,10, length=30) 

y<-x 

f<-function(x,vy){ 

r<-sqrt(x"2+y"2) 

10*sin(r)/r 

} 

z<-outer(x,y,f) 
persp(z,theta=30,phi=30,xlab="Xx",vlab="Y",zlab="7",shade=0.5,expand=0.s, 
ticktype="detailed",main="Sinus cardinal",col=rainbow(1000)) 


D 


> 
> 
> 
+ 
+ 
k 
> 
> 
+ 
> | 


Ce qui donne (voir page suivante): 
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R R Graphics: Device 2 (ACTIVE) =. eme rm 


Sinus cardinal 


Ou encore avec un autre style visuel (voir page suivante): 
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Sciences.ch 


e 


R & Console sex] 


> £ <- expand.gridix = -10:10, y = -10:10) 

> £$z <- 10f*sin(sqrt(f$x"2 + f$y"2))/sqrt(if$x"2 + £$y"2) 

> vireframe(z - x * y, data = f,scales = list (arrows = FALSE), 
+ Fr = TRUE, colorkey = TRUE, screen = list(z = 30, x = -60)) 
-lf 


TS 
> 


nr 


CAE 11 URSS 
dns 
mo 


nt N 


library(fields) 
x<-seq(-10,10,length=30) 


Y<-x 

f<-function(x,y){ 

r<-sqrt(x*2+y"2) 

10*sin(r)/r 

} 

z<-outer (Xx,y,f£) 

ncol<-100 
drape.plot(x,vy,z,col=rainbow(ncol) ,expand=0.5, 
theta=30,phi=20,add.legenda=TRUE) 


M HONONONOŒE SE MON ON ONTY 


Figure 143 Graph 3D de type surface avec gradient de couleurs 
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Sinon avec le package rgl, nous pouvons animer une surface en utilisant respectivement les 
commandes rgl.surface( ) , plot3d() et spin3d( ) et rgl.snapshot() pour exporter en tant 
qu'image: 


L 


R R Console 


library(rgl) 

setwd("C:/tmp"} 

x<-seq(-10,10, length=30) 

y<=x 

f<-function(x,y){ 

r<-sqrtix"2+y"2) 

10*sin(r)/r 

} 

z<-outer {(x,Y,£) 
jet.colors<-colorRampPaletteic{("#00007F", "blue", "#OO7FFF", "cyan", 
"#7FFF7F", "yellow", "#FF7F00", "red", "#7FO0000")) 
colorzijet <- jet.colors(100) 
rgl.surface(x,y,Zz,alpha=0.75, back="lines", 
color=colorzijet[ findinterval(z, seqimin(z), max(z), length=100))]) 
bg3a{("white") 

bbox3d(color=c("white","black")) 
titleïdiceolor="black","r,#r rx lab®, tzlab", "ulabr) 
grid3d("y"] 

#on exporte en tant qu'image 

rgl.snapshot ("3DPlot.png") 
play3d(spin3d(axis=c(0,1,0) ,rpm=4),duration=20) 


VVNNVNNNNM NN ENV ++ +NNNN Y 


Figure 144 Graph 3D de type surface avec gradient de couleurs et interactif 


Remarque: Il vaut mieux faire une capture d'écran que d'exporter en tant qu'image car la 
qualité de celle-ci est discutable. 
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Ou sinon si nous revenons à la fonction baleine à bosse que nous avons rencontré lors de 
l'optimisation non linéaire, nous pouvons tracer les isoclines à l'aide de la commande 
contour ) : 


R R Console 


x<-seq(-2,2,length=30) 
y<-seq(-1,1,length=30) 

f<-function(x,y){ 
x"2#(4-2.15%x"2+1/3tx"4)+xty+y"2%(-4+4%y 2) 
} 

z<-outer (x,y,£) 

contour (x,y,Z,nlevel=30) 


YVNNVN+HNNYY 


Figure 145 Graph de projectiogVec isoclines de fonction f(x,y) 


ou avec la commande filled.contour( ) : 


R Cart + 


x<-seq(-2,2,length=30) 
v<-seq(-1,1,length=30) 

f<-function(x,yi{ 

x 2#(4-2.1#x"2+1/3tx"4) +xtyty"2#(-4+4ty2) 
} 

z<-outer (x, y, ff) 
filled.contour (x,y,2) 


LS EE 


Figure 146 Graph de projection de densité de fonction f(x,y) 
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Ou en utilisant des couleurs propres au domaine de la topographie: 


f 
R & Console EEE 


x<-seq(-2,2,length=30) 
y<-seq(-1,1,length=30) 

f<-function(x,y){ 

x"2#(4-2.1#x 2+1/3%x" 4) +xty+y"2%(-44+4%y2) 
} 

filled.contour(x,y,z,color=topo.colors) 


VMV+H+NNYV 


FR R Graphics: Device 2 (ACTIVE) 
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5 
4 
3 
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1 
0 


0 
—_ 


. \ C e 
ou en cumulant ce que nous venons de voir avecla commande image( ) : 


= 


R & Console EEE 
> x<-seq{(-2,2,,length=30) £ 
> y<-seq(-1,1,length=30) 

> f<-function(x,yi{ 

+ x*2#(4-2.1x"2+1/3%x 4) +xty+y"2%(-4+4%y"2) 

+ } 

> z<-outer(x,y,f) 

> image(x,y,2) 

> contour (x,y,z,add = TRUE) 

>. qEidi) 

« Fe {| RR Graphics: Device 2 (ACTIVE) 
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ou avec un style plus propre au domaine de la géomatique avec la commande image.plot( ) 
du package fields: 


R R Console s | © | x 


> library(fields) 
> x<-segq(-2,2,length=30) 

> y<-seq(-1,1,length=30) 

> f<-function(x,y)i{ 

+ x 2#(4-2.1%x"2+1/3%x"4) +xTy+y" 25 (-4+4%y"2) 

+3 

FRS MERE Te IR R Graphics: Device 2 (ACTIVE) cs |[nt=3| (853) 
> dim(z) _— 
[1] 30 30 

> image.plot(z) 

> contour (z,add=TRUE) 
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Figure 147 Graph de projection de densité et isoclines de fonction f(x,y) 


0.0 


ou toujours avec la même fonction et le même package, mais sur le jeux de données volcano 


! . : 
(c'est plus sympa...):  s 
Ÿ 
R 
R La) = Lu 
> library(fields) 
> image.plot (volcano) 
> se (volcano, add=TRUE) 
> 
R se (x) 
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Ou en utilisant le package plot3D et sa fonction image2D( ) : 


le 


R° sex) 

> require (plot3D) 

Le chargement a nécessité le package : plot3D 

> image2D(volcano, shade = 0.2, rasterlmage = TRUE, main = "volcano", 

+ contour = list(col = "white", labcex = 0.8, lwd = 3, alpha = 0.5), 

+ colkey = list(length = 0.5, width = 0.5) ) 

>| 

R: ON ES, 
volcano 
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Surface 3D filaire (remplie ou pas) 


Commençons par le cas simple et moche mais fonctionnel grâce au package lattice et à sa 
fonction wireframe( ): 


 RGui (64-bit) - [R Console] — OI X 
ŒR File Edit View Misc Packages Windows Help _|5s|x 


(a 


cela pourrait être un fichier CSV avec trois colonnes 
fce serait pareil! 


mydata <- read.table(text= "x Y value 
(e) 0 41:35 

(+) 1 4.23 

0 2 4.24 

Æ 0 4.34 

1 1 4.23 

1 2 4.22 

2 (a) 4.34 

2 1 4.22 
2 2 4.22", header = TRUE) 


library("lattice") 
wireframe (value - x + y, data = mydata, 
screen = list(z = 90, x = -60), 


#on enlève les flèches immondes et on met la graduation 
scales = list( arrows = FALSE, col="black"), 
#on remplit les polygones 
drape = TRUE, 
fon met la légende de couleurs 
colorkey = TRUE, 
#fon enlève les bordures horribles 
par.settings = list (axis.line = list (col = "transparent ')) 


VO HER RON NON EH HE OV VV 


Ce qui donne: 
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4.32 


4.30 


4.28 


4.26 


4.24 


4.22 


Nous pouvons faire plus élaboré avec un package supplémentaire nommé wzRfun se trouvant 
sur Github et qui permet de dessiner les contours des courbes de niveau: 


° RGui (64-bit) - [R Console] 


MR File Edit View Misc Packages Windows 


> library("devtools") 

> install github(repo = "walmes/wzRf£fun", ref = "master") 

Skipping install of ‘'wzRfun' from a github remote, the SHAL (db9f86d49) S 
1 ‘force = TRUE‘ to force installation 

> 


Help 


R, 


< 
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Ainsi, nous pouvons typiquement avec un script du genre suivant: 


CR RGui (64-bit) - [R Console] — O X 
ŒR File Edit View Misc Packages Windows Help _|#|Xx 


EC] 


library("lattice") 
library("latticeExtra") 
library("RColorBrewer") 
library("wzRfun") 


colr <- brewer.pal(ll, "Spectral") 
colr <- colorRampPalette(colr, space = "rgb") 


grid <- expand.grid(x = seq(-1, 1, by = 0.1), 
y = seq(-1, 1, by = 0.1)) 
grid$z <- with(grid, 1 + 0.01 * x + 0.05 * y - 
0.5*x*y-0.5* x°2 - 0.2 * y”2) 


wireframe(z - x + y, data = grid, 
scales = list( arrows = FALSE, col="black"), 
zlim = extendrange(grid$z, £ = 0.5), 
panel.3d.wireframe = panel.3d.contour, 
nlevels = 18, col = "gray30", 
type = c{"on", "top", "bottom"), 
col.regions = colr(101), drape = TRUE, 
par.settings = list (axis.line = list(col = 'transparent')) 


) 


VO HO HO HO HO VOV OV OH VV OV OV OV OV OV VV 


Ce qui permet d'obtenir le résultat suivant: 
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Surface 3D par densité de noyaux 2D 


Revenons sur un exemple vu plus haut avec la fonction kde2d() du package MASS et 
faisons-en une représentation 3D: 


R R Console es.) 


library(MAS5) È 
mydata<-read.csv{("C:/VariationsTitres.csv",header=T,sep=";") 
krnsmooth<-kde2dimydata$Crédit.Lyonnais,mydata$France.Télécom,n=50) 
perspikrnsmooth$x,krnsmooth$y,krnsmooth$z,theta=120,shade=TRUE, 
xlab="Crédit Lyonnais",ylab="France Télécom",zlab="Densité", 
ticktype="detailed" ,col=rainbow(1000)) 


V++VVVY 


Ce qui nous donne: 


FR o 


Re nids x dite 2 (ACTIVE) -|e ss 
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Surface 3D animée 


Nous retrouvons ici encore une fois le package animation pour exporter une surface d'une 
fonction analytique exportée sous forme d'un *.gif animé: 


= 


R R Console 


> library{ianimation) 
> x<-seq({-2,2,length=30) 
> y<-seqi-1,1i,length=30) 
> f<-function(x,v){ 
+ x*2#(4-2.1%x"2+1/3tx"4)+xty+y"2#(-4+4ty"2) 
LD à 

> z<-outer (x,y,£) 
> 

+ 

+ 

+ 

+ 

+ 


bols) > 


saveGIFii{ 
for(ii in 1:360){ 
perspix,y,z,theta=i,phi=i,expand=0.4,shade=0.5,expant=0.s, 
ticktype="detailed",col=rainbow(1000)) 
} 
}, interval = 0.1, ani.width = 550, ani.height = 550) 
Executing: 
"C:\Program Files\ImageMagick-6.8.8-Cl6\convert.exe" -loop 0 -delay 10 
C:/Users/1S0ZV1-1/AppData/Local/Temp/RtmplvEi2j/Rploti.png 
C:/Users/150ZV1-1/AppData/Local/Temp/RtmplvEi2j/Rplot2.png 


Après quelques minutes, cela donne une animation de l'image suivante: 


Figure 148 Graph de surface 3D animée 
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Surface 3D avec points 


Il peut arriver que l'on ait des points de mesures d'une surface dont l'expression analytique est 
connue (ou non). Dès lors, la question est de savoir si nous pouvons mettre des points visibles 
sur une surface données. 


Pour voir cela, nous allons reprendre toujours la fonction sinus cardinal et représenter les 
points que nous avons calculés. 


Nous allons utiliser le package rgl avec les commandes surface3d( ) , spheres3d() , 
grid3d() et decorated3d( ) : 


R R Console = | © ||eim) 


libraryi(rgl) 

#on remet à zéro la fenétre RGL s'il y en avait d'ouverte avant 
#très utile pour rafraichier un graphe rgl sans avoir à fermer 
#la fenétre précédente 

clear3d() 
mydata<-read.csv{("C:/MesuresSpatiales.csv",header=T,sep=";") 
x<-seq(-10,10, length=30) 

Y<-x 

z<-10f*sin(sqrt(x"2+y"2))/sqrt(x"2+y"2) 

f<-function(x,y){ 

r<-sqrt(ix*2+y"2) 

10*sinir)/r 

} 

z<-outer (X,Y,f) 

x_mesure<-mydata$x;y mesure<-mydata$y;z mesure<-mydata$z 
jet.colors<-colorRampPalette(c{("#00007F", "blue", "#O07FFF", "cyan", 
"#7FFF7F", "yellow", "#FF7FO0", "red", "#7FO0000")) 
colorzjet<-jet.colors (100) 


surface3d(x,y,z,color=colorzjet[findinterval(z,seq(imin(z) ,max(z) ,length=100))],alpha=.s) 
spheres3d(x mesure,y mesure,z mesure,col="red",radius=0.5) 

grididiside=c (rar, Fan. man] } 

decorate3di) 


ON ON RP ON UN PORC ON CCE VO NE NC 


Ce qui donne (voir page suivante): 
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Figure 149 Graph de surface 3D avec points 
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Surface 3D sphériques (harmoniques sphériques) 


Nous poursuivons avec le package plot3D et sa fonctions surf3D() mais cette fois pour faire 
un type de graphique important en cosmologie et physique quantique: les harmoniques 
sphériques! 


Voyons d'abord un cas simple basé sur la fonction legendre( ) intégrée au package pracma 
utile pour la cosmologie: 


& RGui (64-bit) - [R Console] _ ol 


| GR File Edit View Misc Packages Windows Help _ FX 


EBOISCSIOIE 
| 


V 


library("pracma") #for legendre function 
library("plot3D") 

theta<-seq(from = 0, to = pi, by = pi/320) 
phi<-seq(from = 0, to = 2*pi, by = pi/160) 


m<-length(phi); n=length(theta) 
Phi<-matrix(rep(phi,each=n),nrow=n) 
Theta<-matrix(rep(theta,m),nrow=n) 


degree <-— 6 
order <-— 4 
amplitude <-— 0.5 
radius <- 5 


Ymn <—- t(legendre (degree,cos(Thetal,1]))) 
Yan = Ymn{,order+i] 
yYy = Ymn 


for (kk in 2:dim(Theta)!{1])!{ 
yy<-chbind(yy, Ymn) 

} 

yy<-yy*cos (order*Phi) 


order <- max(max(abs(yy))) 


rho = radius + amplitude*yy/order 

r = radius*sin(Theta) # convert to Cartesian coordinates 
x = r*cos(Phi) 

y = r*sin(Phi) 

z = radius*cos (Theta) 


surf3D(x, y, z, colvar=rho, colkey = FALSE, box = FALSE) 


VVNNVNNVNNVNNVNNVNNNNNNNN NN N NN NN NN NN NN NN NN NV NV 


Ce qui donne: 
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Figure 150 Graph harmoniques sphériques 


et un autre exemple utile pour les orbitales atomiques de l'atome hydrogénoïde (rotateur 
rigide): 


| # File Edit View Misc Packages Windows Help FF x 


library("plot3D") 
theta<-seq(from = 0, to = pi, by = pi/320) 
phi<-seq(from = 0, to = 2*pi, by = pi/160) 


m<-length(phi); n=length(theta) 
Phi<-matrix(rep(phi,each=n),nrow=n) 
Theta<-matrix(rep(theta,m),nrow=n) 


VVNVNVVNVNNVNVNVNNVNNVNN NV NN NV 


r<-(Re(-1/2*sqrt(15/(2*pi))*exp(-1i*Phi) *sin(theta) *cos (Theta) ) ) "2 
x<-r*cos (Phi) 

y<-r*sin(Phi) 

z<-r*cos (Theta) 


surf3D(x,y,Zz,colvar=r,colkey=TRUE, box=TRUE,bty="b2",main="A Spherical Harmonic") 
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Ce qui donne: 


A Spherical Harmonic 


0.08 


0.06 


0.04 


0.02 


R Statistical Software 990/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Graphiques 4D 


Lorsque nous avons une série de capteurs qui mesurent des données dans l'espace, nous avons 
donc déjà 3 coordonnées pour placer la magnitude de la variable d'intérêt. Mais ceci permet 
seulement de la placer et non de représenter la magnitude. Nous parlons alors dans ce cas de 
graphique 4D! 


Voici un exemple d'un graphique 4D avec des coupes ("slices" en anglais) utilisant le package 
plot3D et la fonction slice3D( ) : 


R RGui (64-bit) - [R Console] . 


ŒR File Edit View Misc Packages Windows Help sx 


> library(plot3D) 

> x <- y <- z <- seq(-4, 4, by = 0.2) 

> M <- mesh(x, y, Zz) 

> R <- with (M, sqrt(x"2 + y"2 + z”"2)) 

> p <- sin(2*R) /(R+le-3) 

> alpha = 0.5 

|> slice3D(x, y, z, colvar = p, col = jet.col(alpha = 0.5), xs = 0, ys = c(-4, 0, 4), zs = NULL, à = 2) 
> 


Ce qui donne: 


r 


QRR Graphics: Device 2 (ACTIVE) a || © 


Figure 151 Graph de type 4D avec slices (coupes) 
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Exemples 147.: Diagramme à points 3D 
R 3.02 


Plot 3D de points simple 


Le but ici est de voir que nous pouvons reproduire le graphique à points 3D que nous avions 
fait avec Microsoft Excel et Minitab. Nous partons donc du fichier suivant: 


| | 7 3DScatterPlot c 


3DScatterl 


Fichier Edition Format Affichage 2? 


Y:Z 

.93564 3862 ; 2.885004026:; 3.008999055 
.813481061:4.97149998 ; -0.084647805 
.79702672:4.463819473:0.259006697 
.990516381;2.539726835:2.2321069841 
.055565715: 2.066402123;-2.889042164 
.396100595;2.689646723:2.794449895 
.976843336:4.880718189:;-1.69820117 
.182500637;3.641119026;1.829835817 
.430100709;4.041333974;0.689061165 
.367539816;4.472881818 ; -0.129477017 
.165035375;3.236725216;2.249574048 
.8/0444 344 ;3.744697106; -2.488533056 
.833366645; 3.890095017;-3.019456754 
.813/15296;4.453610854 ; -1.197691923 
.018696278;3.79416265;2.230406321 
.483888005;5.57/4418055;-0.475325489 
.854029432;:2.292131536;2.454167757 
.497307898;5.427921169; -0.433077012 
.201658959;4.264301058 ; -0.134534505 
.083249407;4.708790847;0.478454105 
.866800737;5.240548807;-0.893737612 
.697478955;3.477756997;2.777715847 
.810289408 ;4.290315971;-1.347201306 
.229263889;4.200666149; -2.078626077 


. CU LU Lu ni BB Lu B BR tu Lu NB BB BR Nu NI tu B BF 


Nous installons le package scatterplot3d: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> install.packages ("scatterplot3d") 

Installing package into ‘C:/Video2Brain/Packages’ 

{as ‘lib’ is unspecified) 

essai de l'URL 'http://cran.rstudio.com/bin/windows/contrib/3.0/scatterploté 
Content type 'application/zip' length 337734 bytes (329 Kb) 

URL ouverte 

downloaded 329 Kb 


le package ‘scatterplot3d’ a été décompressé et les sommes MDS5 ont été vérif$ 


Les packages binaires téléchargés sont dans 
C:\Users\1lsoz Vincent\ippDataiLocal\Temp\RtmpcJ81Xb\ downloaded pack$ 
> library(scatterplot3d) 
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et nous y allons en utilisant la commande scatterplot3d() du package: 


> setwd{"C:/") 

> mydata<-read.csv("3DScatterPlot.csv",header=T,sep=":") 
> dimimydata) 

[1] 240 3 


> names (mydata) 
[1] LS TA my ze 
> scatterplot3dimydatafx,mydata$y,mydata$z,angle=20,col.axis="bhlue", 
+ col.grid="lighthlue" ,main="3D Scatter Plot'",pch=21,box=T,cex.symbols=2) 
> | 


« 


ce qui donne: 


3D Scatter Plot 


mydata$z 


mydata$y 


mydata$x 


Figure 152 Graph à points 3D 


Version un peu améliorée (merci à Alboukadel Kassambara) avec la fonction scatter3D() du 
package plot3D: 
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library("plot3D") 
mydata<-read.csv("c:/tmp/3DScatterPlot.csv",header=T,sep=";") 
scatter3D(mydata$x,mydata$y,mydata$z,angle=20,phi = O0,pch = 18, 

col = ramp.col(c("blue", "yellow", "red'")),clab = c("Height”", F"Hiqun (cm)"), 
bty ="g",ticktype = "detailed") 

#on ajoute les valeurs 

text3D(mydata$fx, mydata$y, mydata$z, labels = rownames (mydata), 

| add = TRUE, colkey = FALSE, cex = 0.5) 


> 
> 
> 
+ 
+ 
> 
> 
+ 
> 


Ce qui donne: 


Width (cm) 


3 


Figure 153 Graph à points 3D avec légendes 
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Avec le package rgl et la fonction rgl.spheres() nous pouvons faire plus simple typiquement 
lorsque l'on travaille dans le domaine de l'astrophysique ou astronomie: 


| a 


R R Console | © | 


Ce qui donne: 


mn RGL device 26 [Focus] EE) 
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Plot 3D de points mesurés dans le temps (splines 3D) 

Lorsque l'on travaille dans l'aéronautique, ou l'aérospatiale ou la mécanique on a souvent 
besoin de représenter l'évolution d'un point dans l'espace et dans le temps (typiquement aussi 


la position d'un drone civil en fonction du temps). 


Nous partons des points mesurés suivants: 


| MesuresSpa 


./34;:2.518;-0.134 
604;9.059;0.919 
532;11.584;-0.248 
015;1.886; -0.325 
615:4:596;3:275 
15956-015;2:074 
359;8.01%;2.6873 


Nous avons alors: 


R R Console 


library(scatterplot3d) 

setwd("C:/") 
mydata<-read.csv("MesuresSpatiales.csv",header=T,sep=":") 
ts<-seq(from = min(imydata$t),max mydata$t),length=100) 
trajectory<-apply(mydata[,-1],2,function(u) spline (mydataf$ft, u, xout 
p<-scatterplot3d(trajectory, type="1", lud=3) 
pipoints3d(mydata[,-1], type="h" }) 


VYVNNNVNUV 


Figure 154 Graph 3D à points avec splines de trajectoires 
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Ou encore pour rendre la rotation du diagramme interactive, nous pouvons utiliser le package 
rgl avec les commandes plot3d() , points3d() , spheres3d() et segments3d() et enfin 
planes3d( ) : 


e : 


R 8 Console 
> libraryirgl) ; 
> setwd({"C:/") 

> mydata<-read.csv("MesuresSpatiales.csv",header=T,sep=";") 

> ts<-seqifrom = minimydataf$t),max(mydata$t),length=100) 

> trajectory<-apply(mydata(,-1],2,function(u) splineimydataf$t, u, xout = ts j)$y ) 

> plot3d(trajectory, type="l", lud=5, col="navy" ) 

> points3d(imydatal[,-1]) 

> spheres3d(imydatal,-1], radius=.1, col="orange") 

> seqments3d( matrix(t{(chind(imydatal,-1] ,mydatal,2:3],0)),nc=3,hbyrow=TRUE)) 

> Re ner mb # Plane z=0 

> . 
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Plot 3D de vecteurs 


Nous allons voir ici comment représenter des vecteurs dans l'espace en utilisant le package 
plot3D et la fonction arrows3D ) : 


GR RGui (64-bit) - [R Console — C] 
R File Edit View Misc Packages Windows Help -_ 5 


library("plot3D") 

#points de départs des 4 vecteurs 

x0 <-— c(0, 0, 0, 0) 

y0 <- c(0, 0, 0, 0) 

zO <- c(0, 0, 0, 0) 

#fpoints d'arrivées des 4 vecteus 

xl <-— c(0.89, -0.46, 0.99, 0.96) 

yi <- c(0.36, 0.88, 0.02, 0.06) 

zl <- c(-0.28, 0.09, 0.05, 0.24) 

cols <- c("#1B9E77", "#D95F02", "#7570B3", "#E7298A") 


arrows3D(x0, y0, z0, x1, yl, z1l, col = cols, 
lwd = 2, d = 1, main = "“Arrows 3D", bty ="g", 
ticktype = "“detailed") 
# Ajouter un point en (0,0,0) 
points3D(x0, y0O, z0, add = TRUE, col="darkred", 
colkey = FALSE, pch = 19, cex = 1) 
# Ajout de légendes aux vecteurs 
text3D(x1l, yi, zi, c("Sepal.L'", "Sepal.W", "Petal.L'", "Petal.W"), 
| colvar = x1”2, col = cols, add=TRUE, colkey = FALSE) 


VÆNV ENV ENV VNVVN NN NN NN NV 


v- 
Ce qui donne: 
x 
R EIRE 
Arrows 3D 
epalW 
02— 
01— 
#00" etalW 
0.1 
-0.2- 
08 
} tal. L 06 
00 SepalL 
04 
+ / d > 
05 02 
\ 
00 


Figure 155 Graph 3D avec vecteurs 
En ajoutant les deux commandes suivantes, on peut rendre le graphique interactif!: 


hbrary("plot3Drgl") 
plotrgl() 
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Exemple 148.: Diagramme à bulles 
R 3.0.2 


Diagrammes à bulles imbriquées 


Je n'ai pas trouvé de package permettant de faire ce type de graphiques. J'ai donc du le coder 
complétement de À à Z. 


Donc voici comment faire un tel graphique: 


_ 5 ; _ - _— a 
R RGui (64-bit) - [R Console] O x | 
R File Edit View Misc Packages Windows Help -_ 6 x| 

E 

> library("ggforce") 

> #avoir la première colonne dans l'ordre alphabétique croissant! | 

> (d <- read.table(text = "circle;x 

+ Espagne;800 

+ France; 400 

+ Italie;:200 

+ Suisse;:100", header = TRUE, sep = ";")) 

circle 4 

1 Espagne 800 

2 France 400 

3 Italie 200 

4 Suisse 100 

> 

> fconvert area to R 

> d$r <- sgrt(d$x / pi) 

> d$x0 <- max(d$r) / 2 

> d$y0 <- d$r 

> d$texty<-2*d$r-1 

> d$label<-paste (d$circle,d$x,sep="\n") 

à | 

> d | 

circle x à x0 yo texty label 

1 Espagne 800 15.957691 7.978846 15.957691 30.91538 Espagne\n800 

2 France 400 11.283792 7.978846 11.283792 21.56758 France\n400 

3 Italie 200 7.978846 7.978846 7.978846 14.95769 Italie\n200 

4 Suisse 100 5.641896 7.978846 5.641896 10.283799 Suisse\n100 

> 

> 

> ggplot (data=d, aes(x0 = x0, y0 = y0, r = r, fill = circle)) + 

+ geom circle() + 

- geom text (data=d,aes(x=x0,y=texty, label=label),color="white")+ 

+ theme(axis.text=element blank(), 

+ axis.title.x = element blank(), 

+ axis.title.y = element blank(), 

_ axis.ticks=-element blank(), 

- panel.grid=element blank(),panel.background = element rect (fill = 'white')) 

> 


Ce qui donne: 
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ff 


Sciences.ch 


R R Graphics: Device 2 (ACTIVE) EEE 


circle 


El Espagne 
France 
Italie 


[] Suisse 


Suisse 
100 


Diagrammes à bulles 2D 


Là aussi rien de bien technique... Le but étant de voir si nous arrivons à faire un diagramme à 
bulle comme dans n'importe quel tableur (évidemment ce sera encore une fois beaucoup 
moins esthétique que le résultat obtenu dans le cours Microsoft Excel). 


En reprenant les données du cours Microsoft Excel directement dans la console, nous 
écrivons: 
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Le 


R R Console 0 


plotix,y,type="n",asp=1) 

v<=-010.2,0.15,-0.05;0.18,0.25,0,3] 

x<=-C(0,0:15,0.05,0.23,D0.45,0.4,0.25) 
size<-c(10000,20000,50000, 5000, 6000,80000, 45000) 

size<-size/max(size) 

radius<-sqrt(size/pi) 

name<-c{i"broduit à", "Produit B","Produit C","Produit D","Produit Er,"Produit F","Produit G") 
symbolsix,y,circles=radius, fg="white",bg=col,vlim=c(-0.1,0.3)j ,xlim=c(-0.1,0.6) 
;:X*lab="Parts de marché",ylab="Croissance",main="Diagramme à bulle") 

grid} 

text (x,y,name,cex=1.5,font=4) 


VVYV+HNVNNNNNNV 


EN 


(2 $) 


: 


Ce qui donne: 


R R Graphics: Device 2 (ACTIVE) SEE 


Diagramme à bulle 


03 
1 


Croissance 


Parts de marché 


Figure 156 Graph à bulles 2D 


ou avec le package ggplot2 avec les mêmes données: 
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library(ggplot2) 

Croissance<-c(0.2,0.15,-0.05,0.18,0.25,0,0.3) 
PartsMarche<-c(0,0.15,0.05,0.2,0.45,0.4,0.25) 
Volume<-c(10000,20000,50000,5000, 6000,80000,45000) 

Names<-ci"Produit À","Produit B","Produit C","Produit D","Produit E", 
"Produit F","Produit G") 


mydata<-as.data.frame.matrix(chind(Names,Croissance, PartsMarche,Volume)) 
mydatafCroissance<-as.numeric(as.character (mydata$Croissance)) 
mydata$PartsMarche<-as.numeric(as.character (mydata$PartsMarche)) 
mydata$Volume<-as.numeric(as.character (mydata$Volume)) 


ggplot (mydata, aes(x=PartsMarche, y=-Croissance,size=Volume, label=Names,color=Names) ) + 
geom point (shape=21,coulour="black",fill="cornsilk")+ 

geom_ text (size=3)+ylab("Croissance")+xlab("Parts de marché") + 

scale size area(max size=20)+scale x continuous(limits=c(-0.05,0.5)) 


> 
> 
> 
> 
| > 
es 
> 
> 
> 
> 
> 
> 
> 
Fs 
es 
es 
> 


Ce qui nous donne: 


x, 
F 


/ “, 
Rrodui $ Volume 


Les 


Prégut A 


Croissance 


Produit A 


Produit B 

; Produit C 

F Produit D 

\Produit F } Produit E 
à. 4 | 

di & Produit F 

Produit G 


l 


(l (l 
0.2 0.3 0.4 
Parts de marché 


Figure 157 Graph à bulles 2D (ggplot) 


Par contre avec R il est beaucoup plus facile et rapide de faire le graphique à bulle suivant que 
nous avions aussi construit dans Microsoft Excel avec les données suivantes: 
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Fichier Edition Format Affichage 


Lieu;Année;Population 
Genève ; 1998 ; 300000 
Genève ; 1999; 310000 
Genève ; 2000; 314000 
Vaud; 1998 ; 700000 


Vaud;1999;: 723000 
Vaud; 2000; 710000 
Berne; 1998 ; 1000000 
Berne ;1999;1025000 
Berne ; 2000; 980000 


Donc maintenant en utilisant toujours le package ggplot2: 


library(ggplotz2) 

setwd({"C:/") 

mydata<-read.csv("BullesQualitatives.csv",header=T,sep=":") 
mydata$innée<-as.character (mydata$ ännée) 

ggplot (mydata,aes(x=Lieu, y=Année) ) + 

geom_ point (aes(size-=Population]) ,shape=21,colour="black",fill="cornsilk")+ 

scale size area(max size=20,guide=FALSE) + 

#ittention!!! Pour poser les chiffres dans les bulles il faut y aller au ttonnement 
geom text (aes(y=as.numeric (Année) -1997, label=Population), 
vijust=i,colour="grey60",size=4) 


> 
> 
> 
> 
> 
+ 
+ 
+ 
+ 
+ 
> 


Cela nous donne: 
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Sinon globalement on peut faire évidemment beaucoup mieux comme l'illustre l'exemple 
suivant: 


| R RGui (64-bit) - [R Console] — X 


ŒR File Edit View Misc Packages Windows Help - 6x 


[> library("tibble") 

|> library("ggplot2") 
library ("dplyr") 
library ("ggrepel") 
load ("gapdata.RData") 


df <- filter(gapdata,year == 2007) 
colfill <- c('#7F3B08','#A50026", 
"#40004B','#276419','#313695) 
ggplot(df) + aes(x = gdpPercap, y=-lifeExp, label=country)+ 
geom point (aes(fill= continent,size-=log10(pop)),shape = 21)+ 
geom text_repel(size=2,colour = "black", 
arrow = arrow(length = unit(0.01, "npc')), 
box.padding = unit(0.5, 'lines'), 
force = 1, max.iter = 3e3, 
|+ segment.color = 'gray') 
|Warning message: 
ggrepel: 87 unlabeled data points (too many overlaps). Consider increasing max.overlaps 
[> 


LÉ EVENNVVNVV NV 


+ 
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Sciences.ch 


Ce qui donne: 


R R Graphics: Device 2 (ACTIVE) s | © | X 
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Diagrammes à bulles 3D 


Pour obtenir un diagramme à bulle 3D, nous pouvons utiliser le package plotly avec la 
fonction plot_1y( ) : 


R RGui (64-bit) - [R Console] CO 


QR File Edit View Misc Packages Windows Help SE: 


library(plotly) 
plot_ly(mtcars, x=mtcars$mpg, y=mtcars$cyl, z=mtcars$disp, type = "scatter3d', 
marker = list (symbol = 'circle', sizemode = 'diameter',line = list(width = 2, color = "#FFFFFF')), 
size=mtcars$hp, color = -mtcars$carb, colors = colors)%>% 
layout (title = "Cars stuff', scene = list(xaxis = list(title = "'MPG'), yaxis = list(title = 'Cyl'), 
zaxis = list(title = 'Disp'))) 
No scatter3d mode specifed: 
Setting the mode to markers 
Read more about this attribute -> https://plot.ly/r/reference/#scatter-mode 
Warning messages: 
1: In if (distinct) c'duplicated(t(col2rgb(c)))] else c : 
the condition has length > 1 and only the first element will be used 
2: In results{!nas] <- f(x{!nas]) 
number Of items to replace is not a multiple of replacement length 
> 


++++Vv 


Ce qui nous donne: 


© menu B indexhtmi X | + 7 


< C #8 D file:///C:/Users/Vincent%20lsoz/AppData/Local/Temp/RtmpsNFEaa/viewhtml3d503c9f15d7/index.html 


Cars stuff L æ Ji 
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Figure 158 Graph 3D à bulles 


Le résultat peut certainement être amélioré maïs je ne suis pas un grand fan des graphiques 
donc n'hésitez pas à partager vos créations! 
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Diagramme de Rosling (bulles animées) 
R 3.2.1 


Suite au Buzz effectué par la présentation de Rosling sur Internet je pense qu'il est inutile de 
préciser de quoi il s'agit... Donc pour voir comment reproduire cela, considérons le jeu de 
données suivant: 


] Rosling.csv - Notepad — El X 
File Edit Format View Help 


,"country","year","population","lifeexpectancy","birthrate" 
"1" ,"Abkhazia",1961,"",NA,NA 
"59" , "Afghanistan" ,1961,"9164945",36.30334,7.67 
"99" ,"Akrotiri and Dhekelia",1961,"11519",NA,NA 
"148" ,"Âland" ,1961,"20949" ,NA,NA 
"149" ,"Âland",1961,"20949" ,NA,NA 
"246" ,"Albania" ,1961,"1685901",63.10964,6.08 
"295" , "Algeria" ,1961,"11404859",51.70588,7.65 
"344" ,"American Samoa",1961,"20478",NA,NA 
"393" ,"Andorra",1961,"14376",NA,NA 
"442", "Angola" ,1961,"5367287",42.14676,7.35 
"491", "Anguilla" ,1961,"5901" ,NA,NA 
"540" ,"Antigua and Barbuda" ,1961,"55403",63.29464,4.39 
"589" , "Argentina" ,1961,"20953079",64.85582,3.1 
"638", "Armenia" ,1961,"1934239",61.77374,4.51 
"687", "Aruba" ,1961,"55435",66.074,4.66 
"736" , "Australia" ,1961,"10494911",71.3158,3.55 
"785", "Austria" ,1961,"7105654",69.9058,2.79 
"834", "Azerbaijan" ,1961,"4030130",57.9743,5.6 
"883", "Bahamas" ,1961,"115108",60.88874,4.5 
"932" ,"Bahrain",1961,"167924",54.503,7.13 
"981", "Bangladesh" ,1961, "49593610" ,45.2564,6.76 
"1030" ,"Barbados" ,1961,"231674",64.47752,4.31 


où chaque pays se répète plusieurs fois comme le montre la capture suivante: 
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File Edit Format View Help | 
"12545" ,"Yemen",1961,"5251663",34.56968,7.31 A 


"12594", "Yugoslavia" ,1961,"18316990",NA,NA 
"12643", "Zambia" ,1961,"3142848",52.92892,7.07 
"12692", "Zimbabwe" ,1961,"3876638",54.38324,7.22 
"2" ,"QIMERE)" , 1962, "",NA,NA 

"51", "Afghanistan" ,1962,"9343772",36.92308,7.67 
"100" ,"Akrotiri and Dhekelia",1962,"11601",NA,NA 
"150" ,"Âland",1962,"20918" ,NA,NA 

"151", "Âland",1962,"20918" ,NA,NA 

"247" ,"Albania",1962,"1737645",63.99368,5.96 
"296" , "Algeria" ,1962,"11690152",52.28756,7.65 
"345" ,"American Samoa",1962,"21118",NA,NA 

"394", "Andorra" ,1962,"15376" ,NA,NA 

"443", "Angola" ,1962,"5465905",42.76212,7.39 
"492", "Anguilla" ,1962,"5948",NA,NA 

"541" ,"Antigua and Barbuda",1962,"56311",63.73668,4.34 
"590" , "Argentina" ,1962,"21287682",64.94084, 3.09 
"639", "Armenia" ,1962,"2002170",62.09688,4.44 
"688", "Aruba" ,1962,"56226",66.444,4.47 

"737", "Australia" ,1962,"10691220",71.0896,3.43 
"786", "Austria" ,1962,"7151077",69.6996, 2.8 
"835", "Azerbaijan" ,1962,"4167558",58.3076,5.59 
"884", "Bahamas" ,1962,"121083",61.16288,4.45 


TL 
SN 


Avec la fonction Rosling.bubbles() du packäbe animation nous arrivons à obtenir quelque 
chose proche du de la présentation de Rosling à part que les couleurs changent à chaque 
itération et il n'y a pas de légendes sur les bullets donc pour l'instant c'est moins bien que 


Microsoft Excel: 


R File Edit View Misc Packages Windows Help x 


Reel] 


> require (animation) 

> x <- read.csv("c:/tmp/rosling.csv", header = T, sep = ",") 

> x$X <- NULL 

> Rosling.bubbles(x=x$Fertility, y=x$Life,data =sqrt(x$Population/pi), 
+ type = "circles", 

text = 1961:2009, 

#bg = as.factor(x$Region), 

inches=0.5, 

text.cex= 5, 

xlim=range(x{,4], na.rm=TRUE), ylim=range(x{,5], na.rm=TRUE), 
main="Hans Rosling's dynamic motion chart", 
xlab="Fertility rate", ylab="Life expectancy") 


V++ ++ + + + 


Ce qui donne une animation année par année: 
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R R Graphics: Device 2 (ACTIVE) 


Hans Rosling's dynamic motion chart 
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Figure 159 Graph à bulles de Rosling (animé) 
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Exemple 149.: Intervalles de distributions par densité de 


noyaux (kernel smoothing) 
R 3.0.2 


Voyons comment faire un simple kernel smoothing pour commencer avec la fonction 
density( ): 


FE > | 


R e OR ES 
> draws<-rnorm(1000,10,0.3) 
> hist (draws,prob=TRUE) 
> lines (density(draws)) 
> | | 
MR Graphics: Device 2 (ACTIVE ER ES 
Histogram of draws 
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Pour ce qui est des plots des surfaces de probabilité cumulée utilisant les méthodes de densité 
par noyaux (nous avons vu lors de notre découverte des graphiques comment faire le même 
travail pour l'expression exacte de distributions lorsque nous n'utilisions pas la méthode de 
densité par noyaux) et les quantiles: 
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draws<-rnorm(1000,10,0.3) 

dens<-density(draws) 

plot (dens) 

gq75 <- quantile(drauws, .75) 

qg25 <- quantileidraws, .25) 

xi <- miniwhichidens$x >= g75)) 

x2 <- max(which(idens$x < g25)) 

vith(idens, polygon(x=cix[cixi,xi1:x2,x2)]), y= c(0, v[xi:x2], 0), col="gray")) 


VVNVNMVNVNNNNV 


density.default(x = draws) 


D 


N= 1000 Bandwidth = 0.06555 


Figure 160 Graph d'intervalle de fonction de distribution 


S'il s'agit non pas des quantiles mais du support et que nous ne voulons pas 1 seul intervalle 
mais plusieurs, voici la méthode: 
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draws<-rnorm(1000,10,3) 
dens<-density(draws) 
pilot (dens) 


qLi<-5;qUi<-8;qL2<-12;qUu2<-15 


x1i<-min(which(dens$x>=qL2)) 
x2<-max (which(dens$x<qU2)) 
x3<-min(whichidens$x>=qL1)) 
x4<-max (which(dens$x<qui)) 


vith(dens,polygon(x=cix{cixi,x1:x2,x2)]),y=c(0,v{(x1:x2],0) ,col="gray")) 
wvith(dens,polygonix=c(x{cix3,x3:x4,x4)]),v=c(0,v(x3:x4],0) ,col="gray")) 


NES NINNVNNVEN 


Li 


density.default(x = draws) 
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N=1000 Bandwidth = 0.6851 
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Nous pouvons plotter l'intervalle des quelques quantiles pour la simulation de la fonction de 
densité: 


draws<-rnorm(1000,10,0.3) 

fiti<-density(draws) 

fit2<-replicate (10000, { 

x<-sample (draws,replace=TRUE) :; 
density(x,from=min(fiti$x) ,to=max{(fit1$x))$y 

}i 

fit3<-apply(fit2,1i,quantile,c(0.025,0.975)) 
plotifiti,ylim=range(fit3)) 
polygon(cifiti$x,revifiti$x)),c{ifit3[1,],revifit3[2,]l)), 
col="grey" ,border=FALSE) 

lines (fiti) 


VON OH ONONONO Æ + + VO OV OV 


LT 


density.default(x = draws) 


9.5 10.0 10.5 11.0 


N= 1000 Bandwidth = 0.06464 


Figure 161 Graph polygone avec densité d'erreurs 


R Statistical Software 1013/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Probabilité cumulée d'un intervalle d'une distribution estimée par 
noyaux 


Voilà un exemple très important dans la pratique industrielle qui utilise la commande 
KernelSmoothing.cdf() du package DiagTest3Grp: 


R & Console os | © | ZX 


> library(DiagTest3Grp) 

> draws<-rnorm(10,10,0.3) 

> #on checher la meilleure bande basse du noyau gaussien 
> #parce que la commande KernelSmoothing.cdf exige qu'elle soit donnée 
> b<-bw.SJ(draws) 

> b 

[1] 0.1252895 

> dens<-density(draws,buwu=b) 

> plotidens,main="CDF noyaux de densité") 

> #Et on calcule la probabilité cumulée de [-infini,10.5] 
> KernelSmoothing.cdf(xx=draws,c0=10.5,bu=h) 

[1] 0.9848071 

> 


« CDF noyaux de densité 


94 96 98 100 102 104 106 


N=10 Bandwidth = 0.1253 


Figure 162 Graph de fonction de densité par la méthode des noyaux 
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Exemple 150.: Diagrammes combinés à lattes (facettes) 
R 3.0.2 


Nous allons ici utiliser un package relativement courant qui est la package lattice 


Voyons quelques exemples: 


R & Console EEE 


+ 


setwd("C:/") 
mydata<-read.csv("VentesClean.csv",header=T,sep=";:") 
library(lattice) 

histogram(-mydataf$Quantite | mydataf$dirticle) 


VVYMNNV 


FR R Graphics: Device 2 (ACTIVE) -=-/- 0.55) 


… 


30 
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30 
mydata$Quantite 


Figure 163 Graph à lattes (avec histogrammes) 


OU: 
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L: R Console 


setwd{"C:/") 
mydata<-read.csv("VentesClean.csv",header=T,sep=":") 
densityplot (-mydatafQuantite | mydata$irticle) 


Compaq Presario 100 IBM 500 


AST Intel 150 AST Intel 200 


40 


mydata$Quantite 


ou encore: 


L: R Console 


> setwd({"C:/") 
> mydata<-read.csv("VentesClean.csv",header=T,sep=":") 
> bwplot(-mydatafQuantite | mydata$irticle) 
>| 


Compaq Presario 100 IBM 500 


AST Intel 150 AST Intel 200 


mydata$Quantite 


Figure 165 Graph à lattes avec Box-Whisker 
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ou encore dans un autre style: 


a 


R R Console [s) E EF 


> library(lattice) 

> setwd{"C:/") 

> mydata<-read.csv("VentesClean.csv",header=T,sep=";") 

> bwplot (mydata$Quantite-mydata$FacturePayee | mydataf$irticle) 
> 


« 


Compaq Presario 100 IBM 500 


AST Intel 150 AST Intel 200 


mydata$Quantite 


Un cas magnifique que l'on peut faire (avec ggplot) c'est la découverte du paradoxe de 
Simpson avec ggplot2. Donc d'abord on effectugñine simple analyse de la régression: 


r 


M R Console CH 'RCHIES 
> library(ggplot2) 
> ggplot (data = iris, aes(Sepal.Length, Sepal.Width)) + geom point (aes(colour = (Species))) + geom smooth(method = "lm") 
> 
k 
GR Graphics: Device 2 (ACTIVE Lez 
45- 
. 
. 
. 
40- 0 
. 
. . . . 
. . 
. . . 
35- CC . 
. . CRC . . . Éness 
E les, 
5 2 a À (Species) 
+ * setosa 
Es + versicolor 
[0] *  virginica 
30- 
CCR CCC . 0 . 
. . . . . 
. . . . 
25- . . . . . 
L Li 
L2 L] L LL 
. . 
20- . 
6 
Sepal.Length 
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Sciences.ch 


Et ensuite on clusterise l'analyse: 


le 


+ 
R EE 
ggplot (data = iris, aes(Sepal.Length, Sepal.Width)) + geom point() + facet_grid(. - Species) + geom smooth(method = "lm") 

Îl = 
R sex) 

setosa versicolor virginica 
45- 
. 
L 
40- 
.. 
L2 
3.5 
. .. 

= 
& 
DT . 
È L L1 
œ 
eo 
LA 
o 

3.0- 

25: e . . . 

. . 
. L] 
20- 
i i ï i 
5 6 8 6 5 6 à 8 
Sepal.Length 


et voilà donc un magnifique exemple de paradoxe de Simpson! 


Sinon encore une fois, toujours avec le package GGally et la fonction ggpairs( ) déjà vue 


plus haut, nous avons: 
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ms 


QU R Console Fe |) 
> library("GGally") 
> mydata<-read.csv("c:/tmp/VariationsTitres.csv",header=T, sep=";") 
> ggpairs (mydata) 
> | 
| 
R hi TIVE EE ES 
Crédit Lyonnais France Télécom Lafarge Saint. Gobain Total. Fina.Elf 
6- o 
a: 
# | = 
4- Corr Corr Corr Gorr = 
0.0478 0.733 0.537 0,593 E 
2: = 
= 
0- 
06- . 
=) 
03 s 5 
. d Corr Corr Corr 8 
00-+ . qe DE co a 
ST CAFS -0.0386 -0.5 -0.158 & 
0.3- . s 
0.6- ° 
0.10- . . 
0.05 EN EU ES TE Al on Es 
0.00 - . . LOT Corr w 
0.739 0,529 e 
0.05 - . . 
L] L] 
0.10-e = . = 
01- me . z SE 
0.0 AGE . . PE F. e Le] 
sa, . L pe 5 
Co CE End 
01-e . . LOT © 
592 
és 0,592 È 
= ] 
-03 . CR 
L2 L1 L2 L1 
0.10 = 
0.05 . n . Bs . É … Es 
Q . . . n 
0.00 + ue F Pre . ? = 
0.05 - . . . . = 
0.10-° _ += . 2 . . k 
-0.2 -0.1 0.0 0.1 06 -0.3 0.0 0.3 06-010 -005 000 005 0.10 -03 -02 01 00 0.+0.10 -0.05 000 005 0.10 


Ou sinon un exemple impressionnant basé sur le jeu de données diamonds: 
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MF Cuicul tels) 


library (GGally) $ 
data(diamonds, package="qgzpliotz") 
diamconds.samp < diamonds[samcle (1:dim(diamords) [1],200),] 
yypaizs( 

diamondis .samp{,l:5s], 

mapping — ggplot2::acs {color — œti, 

upper = list(consinuous = wrap("density", alphs = 0,5), combo = "box"}), 

lower = 1istr(conscinnons = wrap("noints", aïpha = 1-3), combo = wrap("dor", alpha = 0.4)), 

diag = l:sticortinuous = wrap |"densityDiag")), 

title = "Diands" 


RE Gimrres Devue 2 
Diamonds 


ca’at au cclor clarits 
Fair Good #y Gocremiir deal D E F G kH J M SI2 SH YS2VS: VS2VS1 IF 


+. il éd 4 # LUTTE RE 


= 
= 
ru 
5 
e 
= 
S 
a 
æ 
ñ 
r 
+ 
F3 
Æ 
5 
E 
CA 
m 
a 
ca 
ss 
ê 
F 


R Statistical Software 1020/3133 


Vincent ISOZ, Daname KOLANI 


Sciences.ch 


Exemples: Diagrammes de flux 
R 3.0.2 


Flux parallèles (diagrammes de Sankey/Alluvial) 


Bon ce n'est pas élégant et 1l n'existe pas de package à ce jour (2016) permettant d'automatiser 


la procédure à notre connaissance, mais voici déjà le script: 


parallelset <- function(..., freq, col="gray", border=0, layer, 
alpha=0.5, gap.width=0.05) f{ 
p <- data.frame(..., freq, col, border, alpha, stringsAsFactors- 
n <- nrow(p) 
if(missing(layer)) { layer <- 1:n } 
p$layer <- layer 
np <- ncol(p) - 5 


d <- pl , l:np, drop=FALSE] 
p <- pl , -c(l:np), drop=FALSE] 
p$Sfreq <- with(p, freq/sum(freq)) 
col <- col2rgb(p$col, alpha=TRUE) 
if(!identical(alpha, FALSE)) { col["alpha", ] <- p$alpha*256 } 
p$col <- apply(col, 2, function(x) do.call(rgb, c(as.list(x), 
maxColorValue = 256))) 
getp <- function(i, d, f, w=gap.width) { 


a <—- c(i, (1:ncol(d))[-1il]) 

o <— do.call(order, dfa]) 

x <— c(0, cumsum(f[o])) * (1-w) 

x <- chind(x[{-length(x)], x[-1]) 

gap <- cumsum( c(O0OL, diff(as. numer it(d [o,il)) != 0) ) 
gap <- gap / max(gap) * w Ÿ 


(x + gap) [order(o),] 
} 
dd <- lapply(seq along(d), getp, d=d, f=p$freq) 
par(mar = c(0, 0, 2, 0) + 0.1, xpd=TRUE ) 


pilot (NULL, type="n",xlim=c(0, 1), ylim=c(np, 1), 
xaxt="n", yaxt="n", xaxs="i", yaxs="i", xlab='"', ylab="'", 
frame=FALSE) 
for(i in rev(order(p$Slayer)) ) { 


for(j in 1:(np-1) ) 


FALSE) 


polygon(c(ddf[3j1]1l[i,]l, rev(dd[[j+1]111i,1)), c(j, j, j+1, 3j+1), 


col=p$col[i], border=p$border!{il]) 
} 
text(0, seq along(dd), labels=names(d), adj=c(0,-2), font=2) 
for(j in seq along(dd)) { 
ax <- lapply(split(dd[[j]]l, df,jl), range) 
for(k in seq along(ax)) { 
lines(ax[[k]], c(j, j)) 
text (ax[[k]][1], + labels=names (ax) [k], adj=c(0, -0.25)) 


} 


data(Titanic) 
myt <- subset(as.data.frame(Titanic), Age=="Adult", 
select=c("Survived","Sex","Class'",'"Freq")) 
myt <- within(myt, !{ 
Survived <- factor(Survived, levels=c("Yes","No")) 


levels(Class) <- c(paste(c("First", "Second", "Third'"), "Class"), "Crew") 
color <- ifelse(Survived=="Yes","#008888","#330066") 
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}) 


with(myt, parallelset (Survived, Sex, Class, freq=Freq, col=color, 
alpha=0.2)) 


Ce qui donnera: 


Survived 
Yes No 


Sex 
Male Female 


Class 
First Class Second Clahird Class Crew 


Ou encore plus simple, avec le package alluvial et la fonction alluvial( ) : 
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R RGui (64-bit) - [R Console] — 

GR File Edit View Misc Packages Windows Help x 
| 
> library(alluvial) 

> data(Titanic) 

> tit <- as.data.frame (Titanic) 

> 

> 

> alluvial( tit{,1:4], freq=tit$Freq, border=NA, 

+ hide = titS$Freq < quantile(titSFreq, .50), 

+ col=ifelse( tit$Class == "3rd" & tit$Sex == "Male", "red", "gray") ) 

>| 


Ce qui donne: 


MR Graphics: Device 2 (ACTIVE) Res) 


Figure 167 Graph de Sankay horizontal de type alluvial 
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Pour le domaine médical on peut faire une version plus élaborée. Considérons alors le jeu de 


donnés suivant: 


R Statistical Software 


M alu data.csv - Notepad 


File Edit Format View Help 


Id_ Patient,Temps Drogue, Groupe 


1,Baseline, Drogue 
1,Visite 1,Drogue 
1,Visite 2,Drogue 
1,Visite 3,Drogue 
1,Visite 4,Drogue 
2,Baseline, Drogue 
2,Visite 1,Drogue 
2,Visite 2,Drogue 
2,Visite 3,Drogue 
2,Visite 4,Drogue 
3,Baseline Drogue 
3,Visite 1,Drogue 
3,Visite 2,Drogue 
3,Visite 3,Drogue 
3,Visite 4,Drogue 
4,Baseline, Drogue 
4,Visite 1,Drogue 
4,Visite 2,Drogue 
4,Visite 3,Drogue 
4,Visite 4,NA,X 

5,Baseline, Drogue 
5,Visite 1,Drogue 
5,Visite 2,Drogue 
5,Visite 3,Drogue 
5,Visite 4,Drogue 
6,Baseline , Drogue 
6,Visite 1,Drogue 
6,Visite 2,Drogue 
6,Visite 3,Drogue 
6,Visite 4,Drogue 
7,Baseline, Drogue 
7,Visite 1,Drogue 
7,Visite 2,Drogue 
7,Visite 3,Drogue 
7,Visite 4,Drogue 
8,Baseline, Drogue 
8,Visite 1,Drogue 
8,Visite 2,Drogue 
8,Visite 3,Drogue 
8,Visite 4,Drogue 
9,Baseline Drogue 
9,Visite 1,NA,X 

9,Visite 2,Drogue 
9,Visite 3,NA,X 

9,Visite 4,Drogue 


19,Baseline, Drogue 
18,Visite 1,Drogue 
18,Visite 2,Drogue 
18,Visite 3,Drogue 


En 1, Colt 100% Windows (CRLF) 


A,X 


2 LL 1 LL LI LL L] 


Li 


Li] L1 LI 2 L1 1 


Li 


PONS GP HUE Np >>> 
XX X X X X X XX XX XX XX XX XX XX XX XX 


1 


LE LI LE L1 LE] LL L1 LL 1 


L1 


1 LI 1 L1 1 1 = Li LL] 


LL] 


NOEL» PD OU» UC UP. DR. D. 
X X X X X XX X XX XX XX XX XX XX XX XX XX XX XX XX XX XX 


c;x 


C,X 


2 
A 
A 
C 
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Ecrivons le script suivant: 


UR RGui (64-bit) - [R Console] 


R File Edit View Misc Windows 


Packages 


Help 


library("ggplot2") 

library("dplyr") 

library("ggalluvial") 

allu data <- read.csv("c: /tmp/allu data.csv",header=T,sep=",") 


h_just <— 0.35 
font_size <- 2.2 


ggplot (data = allu data $5>$ mutate (Drogue = ifelse(is.na(Drogue), 
aes(x = Temps, stratum=Drogue, alluvium = Id Patient)) + 
geom_ flow(aes(fill = Drogue), 
stat = "flow", 
width = .5, 
aes.flow = "forward", 
color="darkgrey") + 
geom stratum(aes(fill = Drogue, 
theme bw() + 
theme (legend.position="top") + 
labs(title = "Changement du traitement dans le temps") + 
theme (plot.title = element text(hjust = 0.5)) + 
geom_text (aes(label = after _ stat(sprintf("#d ($.1f$#)", n, 100*prop))), 


"No treatment", 


color=Drogue), alpha = .8, width = .5) + 


stat = "stratum", 
size=3.1) + 
geom_text (aes(label = after stat(ifelse(flow == "from", n, “"))}, 
nudge x = h_ just, 
stat = "flow", 
size = font size, 
col = "black", 
show.legend = FALSE) + 
geom_ text (aes(label = after stat(ifelse(flow == "vor, nn, "r2%)S 
nudge_ x = -l*h_ just, 
stat = "flow", 
size = font _ size, 
col = "black", 


show.legend = FALSE) + 
ylab("Count") + 


facet_wrap(-Groupe, nrow = 2) 


VO HO OO EE EH VV VV VV VV VV 


as.character (Drogue))), 


Ce qui donne: 
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| R Graphics: Device 2 (ACTIVE) CCE 
Changement du traitement dans le temps 


Drogue Œ Drogue A El Drogue B F1 Drogue C El Drogue D [El No treatment 


Baseline Visite 2 Visite 3 
Temps 
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Théorie des graphes 


Exemple 1.: Graphe de matrice d'adjacence 
R 3.0.2 


Nous souhaitons voir ici si nous pouvons reproduire avec R le graphe suivant utilisé dans le 
cours théorique de théorie des graphes à partir de sa matrice d'adjacence: 


eé<-c(0,0,0,0,0,0,0) 
AdjM<-chindiel,e4,e2,e3,e5,e7,e6) 
rownames {(adjHM) <=c li "ei", red”, re2 ", re3 ”, res", re7", re6") 
colnames {AdiM) <= li rai, ea", re2 mn: re3 ee ras, ren, reé") 
Aid" 
el e4 e2 e3 es e7 e6 
(e] D © D 0 
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Nous installons ensuite le package Rgraphviz: 


R Fichier Edition Voir Misc Packages Fenétres Aide 


> install.packages ("Rgraphviz'") 
Installing package into 


{as ‘lib’ is unspecified) 
Message d'avis : 
package ‘Rgraphviz’ 
> | 


is not available 


‘C:/Video2Brain/Packages’ 


(for R version 3.0.2) 


Mais nous avons un message d'erreur. Pas de soucis! L'astuce va consister à définir la source 
nous même avec la commande setRepositories() et de prendre BioC Software: 


À RGui (64-bit) - [R Console 


R Fichier Edition Voir 


> install.packad 
Installing packa 
{as ‘lib’ is uns 
—--- SVP sélectic 
Message d'avis : 
package ‘Rgraph 

> setRepositorie 


Misc Packages 


CRAN 

CRAN (extras) 
BioC software 
BioC annotation 
BioC experiment 


BioC extra 


Omegahat 
R-Forge 
rforge.net 


Alors vous pouvez installer le package: 


Fenêtres 


Aide 


L/Packages’ 
ir cette session --- 


or R version 3.0.2) 
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R Fichier Edition Voir Misc Packages Fenêtres Aide 


--- SVP sélectionner un miroir CRAN pour cette session --- 
Message d'avis : 

package ‘Rgraphviz’ is not available (for R version 3.0.2) 
> setRepositories() 

> install.packages ("Rgraphviz'") 

Installing package into ‘C:/Video2Brain/Packages’ 

{as ‘lib’ is unspecified) 


also installing the dependencies ‘BiocGenerics’, ‘graph’ 


essai de l'URL 'http://www.bioconductor.org/packages/2.13/h$ 
Content type 'application/zip' length 3685432 bytes (376 Kb) 
URL ouverte 

downloaded 376 Kb 


essai de l'URL 'http://wuwuw.bioconductor.org/packages/2.13/h$ 
Content type 'application/zip' length 1367270 bytes (1.3 Mb) 
URL ouverte 

downloaded 1.3 M 


« | mt 


Maintenant nous chargeons le package et faisons un plot de notre graph en utilisant la 
commande am.graph( ) : 


e 


R R& Console = || © || 2 


+ 


> library(Rgraphviz] 
> am.graph<-new("graphiM",adjMat=t (1djM) ,edgemode="directed") 
> am.graph 

À graphiM graph with directed edges 

Number of Nodes = 7 

Number of Edges = 13 

> plot (am.graph,attrs=list (node=list({fillcolor="lighthlue"), 
+ nds. 
> 


Figure 168 Graph de matrice d'adjacence 


et bingo!!! 


R Statistical Software 1029/3133 


Vincent ISOZ, Daname KOLANI 


Sciences.ch 


Exemple 2.: Graphe de matrice d'adjacence et poids des sommets 


selon algorithme du Google Page Rank 
R 3.3.2 


Nous allons voir ici si nous retombons avec R sur la mesure invariante d'un réseau tel que 


déterminé dans le cours théorique. 


Rappelons que nous partons de: 


Ce qui donne en matrice d'adjacence dans R: 


FR RGui (64-bit) - [R Console] 
ŒR File Edit View Misc Packages Windows Help 


-|#|2x 


> adj matrix<-t(matrix(c(0,1,1,1,1,0,0,0,0,0,0,0, 

+ 1,0,1,0,0,0,0,0,0,0,0,0, 

+ 1,0,0,1,0,0,0,0,0,0,0,0, 

+ 1,1,0,0,0,0,0,0,0,0,0,0, 

+ 0,0,0,0,0,1,1,1,0,0,0,0, 

+ 1,0,0,0,0,0,1,0,0,0,0,0, 

+ 0,0,0,0,1,0,0,0,0,0,0,0, 

+ 0,0,0,0,0,0,1,0,1,0,0,0, 

+ 0,0,0,0,1,0,0,0,0,1,1,1, 

+ 0,0,0,0,0,0,0,0,2,0,1,0, 

+ 0,0,0,0,0,0,0,0,1,0,0,1, 

+ 0,0,0,0,0,0,0,0,1,1,0,0 

+ ),nrow=12, 

+ ncol=12)) 

> adj matrix 

[,1] [1,2] [,3] [1,4] [(,5] [1,6] [,7] [,8] [,9] [,10] [,11] [,12] 

[1,] 0 1 1 1 1 0 0 0 (e) 0 0 0 
[2,] 1 0 1 0 0 (e) 0 0 (e) (9) [e) 0 
[3,] 1 0 0 1 0 0 0 0 (e) (s) [e) 0 
[4,] 1 1 0 0 0 0 0 0 0 0 0 0 
[5,] 0 0 0 0 0 £ 1 1 (e) 0 0 0 
[6,] 1 0 0 0 0 0 1 0 0 0 0 0 
[7,] 0 0 0 0 1 0 0 0 (e) 0 (e) 0 
[8,] 0 0 0 0 0 0 1 (e) 1 0 0 0 
[9,] 0 0 (e) 0 1 (e) 0 0 (e) 1 1 1 
[10,] 0 0 0 0 0 0 0 0 1 0 1 0 
[11,] 0 0 0 0 0 0 0 0 1 0 0 1 
Bi 0 0 0 0 0 0 0 0 1 1 0 0 

> 
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Et maintenant nous utilisons la fonction graph_from_adjacency_matrix() du package 
igraph pour obtenir un objet graph: 


R RGui (64-bit) - [R Console] 


R File Edit View Misc Packages Windows Help 


> library(igraph) 
> g <- graph from adjacency matrix(adj matrix) 
> g 
IGRAPH D--- 12 28 -- 
+ edges: 
[1] 
[11] 
x 4 ->11 11-> 9 11->1 
> 


Ensuite, nous calculons enfin la mesure invariante avec la fonction page_rank() toujours du 
package igraph( ): 


 RGui (64-bit) - [R Console] un [m X 
R File Edit View Misc Packages Windows Help 


> page rank(g) 

$vector 
[1] 0.12030505 0.06619969 0.06619969 0.06619969 0.15021128 0.05505986 
[7] 0.10186075 0.05505986 0.12030505 0.06619969 0.06619969 0.06619969 


$value 
[1] 1 


$Soptions 
NULL 


Nous ne sommes donc pas trop loin des 34 premières itérations données dans Microsoft 
Excel! 


Et finalement au besoin voici le graph: 
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> plot(g) 
> 
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Exemple 3.: Graphe de migration 
R 3.0.2 


Nous allons maintenant utiliser la matrice de transition de probabilités définie dans le cours 
théorique sur la théorie des graphes: 


et correspondant à la matrice d'adjacence du graphe précédemment construit pour en faire une 
représentation graphique sous la forme d'un graphe de migration. 


D'abord nous construisons la matrice de transition correspondante dans R: 
LO 
eŸ 


mat=t(matrix(c(0,0,0,0,0,0,0, 
0,0,0.094,0,0,0,0, 
1:0:954;:00662.0:,75;0:0;0; 
0,0,0:218,0,0,0;0, 

5,6:9,0:1475;1,0:D0; 
0,0.034,0.,017,0:096%;,0, 1,0, 
0,0.012,0.009,0.04,0,0,1),nrow=7)) 
noms<-c{"E1","E2" nE3m, "EAN, "ES", "E6","E7") 
rownames {(mat)<-n 

colnames (mat) <-noms 
mat 

Ei E2 E3 E4 ES E6 E7 
Ei O0 0.000 0.000 0.000 © O0 
-000 0.094 0.000 
-.954 0.662 0.750 
-000 0.218 0.000 
-000 0.000 0.175 
-034 0.017 0.035 
-012 0.009 0.040 
> N=dimimat) [1] 
> 


MONO + + + + + V 


(e) 
(e) 
(e) 
(a) 
(e) 
(e) 


ti 

in 
O00C0C0O0kO 
O00O0000COo 
000000 0o 
O0hkOOO 
OkOOO0O 
HOOOOCOO 
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Une fois ceci fait, nous chargeons les packages plyr, migest et circlize et utilisons les 
circos.par() , chordDiagram( ) et circos.trackPlotRegion( ) comme suite (ce n'est de loin 
pas évident à deviner): 


library(plyr) 
library(imigest) 
library(circlize) 


circos.par(gap.degree = 5) #espace vide entre les arcs extérieurs 
chordDiagram(imat, grid.col = 1:N, directional = TRUE, annotationTrack = "grid", 
preâllocateTracks = list(list(track.height = 0.05), 

list (track.height = 0.05)j)j) 
circos.trackPlotRegionitrack.index = 1, panel.fun = function(x, y) { 
xlim = get.cell.meta.data("xlim") 
ylim = get.cell.meta.data("ylim") 
sector.index = get.cell.meta.data("sector.index") 
circos.text (mean(xlim), mean(ylim), sector.index, facing = "inside", niceFacing = TRUE) 
}, bg.border = Ni) 
circos.trackPlotRegion(track.index =2, panel.fun = function(x, y) { 
circos.axis{("bottom", major.tick.percentage = 0.2, labels.cex = 0.4) 
}, bg.border = NA) 
circos.clear {() 


L> 
> 
> 
> 
> 
> 
+ 
+ 
> 
+ 

ù + 
+ 
D + 
+ 
D > 

+ 

+ 
> 
> | 


Ce qui donne le graphe suivant qui après quelques secondes d'analyse est facilement à 
interpréter: 
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La qualtié est mauvais il vaut donc mieux faire un export pour avoir un résultat HD: 


> dev.copy2pdfifile = "c:/tmp/migration.pdf", height=10, width=10) 
windows 
2 R 


> | 


Ce qui donne: 


Fichier Edition Affichage Fenêtre Aide 


OutildY Remplir et signer Commentaire 
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Exemple 4.: Réseaux de relations 
R 3.0.2 


Considérons le fichier suivant: 


Bank;Partner,émount Interest; Vear Month; Day 
1:18,5;7.9:2007;:1;3 
1:38:3;7.9:2007;1;3 
8:9:035:7.8:2007;1;3 
15:20:2:8:2007;1;3 
2:9:13:78:2007;1;3 
18:9:08:7.8:2007;1;3 
18:2:5:7.75:2007,1;3 
3:20,4;7.95:2007;1;3 
3:38:1.8:7.9:2007;,1;3 
26:10:,2,7.9:2007,1;3 
26:19:1.7,7.9:2007;1;3 
32:19:0.6,7.9:2007;,1;3 
35:9:12:7.8:2007;1;3 
36:19:1.3;7.9:2007;1;3 
37,18:0.33,7.6,2007;,1;3 
419:5:7.95:2007;1;3 
4,20,3,7.95:2007,1;,3 
4:20,4.6,7.95:2007;1;3 
4,38:2;7.95:2007;1;3 
5:20;3:8:2007;1,3 
6,19:1.5:7.85:2007;,1;3 
6,20,1.3,7.85:2007;1;3 


4 


De relations interbancaires. Nous le chargeons dans R: 


R Statistical Software 


1036/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


KR Fichier Edition Voir Misc Packages Fenêtres Aide 


> mydata<-read.csv{("C:/BankNetwork.csv",header=T,sep=":") 
> strimydata) 
‘'data.frame!: 21314 obs. of 7 variables: 
$ Bank 5: int 1 18 15 2 18 18 3 3 26 
Partner : int 18 38 9 20 9 9 2 20 38 10 
mount : num 5 3 0.35 2 1.3 0.8 5 4 1.8 2 
Interest: num 7.9 7.9 7.8 8 7.8 7.8 7.75 7.95 7.9 7.9 
Year : int 2007 2007 2007 2007 2007 2007 2007 2007 2007 2007 
Month a 208 LL À À LL L À À L À 
Day Ant, 3 3 3 33 392 3 33 
> headimydata) 
Bank Partner ämount Interest Year Month Day 
18 5.00 7.9 2007 1 
38 .00 -.9 2007 
9 .35 -8 2007 
20 .00 .0 2007 
.30 .-8 2007 
. 80 -8 2007 


Nous faisons la synthèse sur les partenaires car toutes les banques sont listées dans les 
partenaires et nous comptons combien de fois gHàcun apparaît en tant que partenaire ainsi les 
plus importantes seront les plus représentatives sur le graphe final: 
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> Banklnfluence<-tapply(imydata$ämount,mydata$Partner, length) 
> BankIinfluence<-data.frame (Bank=names (BankIinfluence) ,size=BankInfluence) 
> BankInfluence 
Bank size 
L 49 
529 
519 
1730 
391 
sc Nr 
55 
34 
2769 
1228 
40 
1913 
628 
61 
391 
387 
1041 
1995 
1377 
15485 
49 
78 
91 


1 
2 
3 
4 
5 
6 
7 
E) 
9 


H H 
kH © 


DNNNHHHHHHHH 
GO D +H © 10 © -J o in & © D 


54 


Nous normalisons cela de façon empirique afin d'avoi une taille convenable sur le graph final 
(normalisation faite par essais successifs) et nous construisons à l'aide de la commande 
graph.data.frame() du package igraph l'objet réseau qui sera utilisé un peu plus loin pour 
le graph: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> BankInfluencefsize<-Banklnfluencef$size/100 


> library(igraph) 


> BankNetwork<-graph.data.frame (mydata,vertices=BankInfluence]) 
“| 
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Nous pouvons ensuite vérifier si par hasard le graphe est totalement connexe (si chaque 
banque est liée à toutes les autres banques, ou autrement dit si chaque banque à fait affaire 
avec toutes les autres banques au moins une fois): 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


EC) 


> is.connected(BankNetwork) 
[1] TRUE 
> | 


Ensuite nous faisons le plot: 


R R Console 


> BankNetwork<-simplify(BankNetwork,edge.attr.com="sum") 
> plot (BankNetwork,edge.arrow.size=0.4) 
> l( 


Figure 170 Graph de Réseau (relations) 


Nous pouvons obtenir la liste des relations avec la commande E(}) (pour "Edges"): 
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> headiE(BankNetworkK)) 
Edge sequence: 


[1] 
[2] 
[3] 
[4] 
CS] 
[6] 
> | 


Nous pouvons faire de même en cercle mais comme il y a des milliers de relations dans le cas 
présent ce n'est évidemment guère lisible: 


pilot (BankNetwork,edge.arrow.size=0.4,layout=layout.circle) 
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Nous pouvons également regrouper certains éléments par couleurs mais lorsqu'il y a beaucoup 
de liaisons ces dernières sont difficilement visibles: 


> plot (BankNetwork,edge.arrow.size=0.4, 
+ vertex.label.cex=1,mark.groups=list (c(9,20,18,12,4,17,10,19,$ 
+ c(2,3,44,5,13,35))) 


Figure 171 Graph de réseau avec clustering 


Nous pouvons ensuite faire quelques petits calculs élémentaires. Par exemple pour chaque 
banque, connaître le nombre de liens entrants+sortants avec la commande degree ) : 
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né, RGui (64-bit) - [RC 
R Fichier Edition Voir Misc Packages Fenêtres Aide 


> degree (BankNetwork) 
L 2 3 4 5 Fr: 8 9 10 
943 1419 1185 2921 1361 55 411 3797 2279 
17 18 19 20 21 23 24 25 26 
2091 3581 1727 3548 709 316 1017 54 2180 
33 34 35 36 37 39 40 41 42 
44 37 6817 259 327 131 10915 42 55 
49 50 
209 313 
> #on vérifier que la somme donne bien le double du nombre de lignes 
> #du fichier initial 
> sum(degree (BankNetwork) ) 
[1] 42628 
> ia qui est conforme! 
F 


R Fichier Edition Voir Misc Packages Fenêtres Aide 
CI 


> degree (BankNetwork,mode="in") 
1 2 3 4 5 6 8 9 10 
529 519 1730 391 377 34 2769 1228 
18 19 20 21 22 24 25 26 
1995 1377 1548 49 78 872 54 188 
34 35 36 37 38 40 41 42 
37 488 44 210 145 382 42 55 
50 
47 
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Exemple 5.: Réseaux de relations dynamique 


R 3.0.2 


En matière d'exploration, ce que nous avons vu précédemment n'est guère convivial et 
dynamique, et ce particulièrement pour les gens travaillant dans le marketing, les relations 


politiques internationales, la crimonologie ou le data journalisme. 


D'abord voyons un échantillon de la structure des deux jeux de données qui vont être utilisés 
dans cet exemple! Il y a d'abord: 


R «6 
R File 


[R Console 


Edit View Misc Packages 


Windows Help 


EEE EE 


> load(file="DynamicNetwork.RData") 


| > edges 
| from 
1 Myriel 
2 Myriel 
3 Myriel 
4 MlleBaptistine 
5 Myriel 
6 Myriel 
7 Myriel 
8 Myriel 
9 Myriel 
10 Myriel 
11 Labarre 
12 MmeMagloire 
13 MlleBaptistine 
14 Myriel 
15 Valjean 
16 Valjean 
17 Valjean 
18 Valjean 
19 Tholomyes 
20 Tholomyes 
24 Listolier 
22 Tholomyes 
23 Listolier 
24 Fameuil 
25 Tholomyes 
26 Listolier 
27 Fameuil 
28 Blacheville 
29 Tholomyes 
30 Listolier 
31 Fameuil 
32 Blacheville 
33 Favourite 
34 Tholomyes 
35 Listolier 
36 Fameuil 
37 Blacheville 
38 Favourite 
39 Dahlia 
40 Tholomyes 
41 Listolier 
42 Fameuil 
43 Blacheville 
44 Favourite 
45 Dahlia 
46 Zephine 
47 Marguerite 
48 Valjean 


to width 


Napoleon 
MlleBaptistine 
MmeMagloire 
MmeMagloire 
CountessDeLo 
Geborand 
Champtercier 
Cravatte 
Count 
OldMan 
Valjean 
Valjean 
Valjean 
Valjean 
Marguerite 
MmeDeR 
Isabeau 
Gervais 
Listolier 
Fameuil 
Fameuil 
Blacheville 
Blacheville 
Blacheville 
Favourite 
Favourite 
Favourite 
Favourite 
Dahlia 
Dahlia 
Dahlia 
Dahlia 
Dahlia 
Zephine 
Zephine 
Zephine 
Zephine 
Zephine 
Zephine 
Fantine 
Fantine 
Fantine 
Fantine 
Fantine 
Fantine 
Fantine 
Fantine 
Fantine 


© N 4 4 4 U U U U 4 U GW W L U1 W WU Lo 1 L U WE EEE EBBHMHMHEUWUMHMHNEÉEHEH EH 0 © EH 


La] 
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R RGui (64-bit) - [R Console] 
ŒR File Edit View Misc Packages 
id 
1 Myriel 
2 Napoleon 
3 MlleBaptistine 
4 MmeMagloire 
5 CountessDeLo 
6 Geborand 
7 Champtercier 
8 Cravatte 
9 Count 
10 OldMan 
11 Labarre 
12 Valjean 
13 Marguerite 
14 MmeDeR 
15 Isabeau 
16 Gervais 
17 Tholomyes 
18 Listolier 
19 Fameuil 
20 Blacheville 
21 Favourite 
22 Dahlia 
23 Zephine 
24 Fantine 
25 MmeThenardier 
26 Thenardier 
27 Cosette 
28 Javert 
29 Fauchelevent 
30 Bamataboiïis 
31 Perpetue 
32 Simplice 
33 Scaufflaire 
34 Womani 
35 Judge 
36 Champmathieu 
37 Brevet 
38 Chenildieu 
39 Cochepaille 
40 Pontmercy 
41 Boulatruelle 
42 Eponine 
43 Anzelma 
44 Woman2 
45 MotherInnocent 
46 Gribier 
47 Jondrette 
48 MmeBurgon 
49 Gavroche 


Windows Help 


label group size 


Myriel 
Napoleon 
MlleBaptistine 
MmeMagloire 
CountessDeLo 
Geborand 
Champtercier 
Cravatte 
Count 

OldMan 
Labarre 
Valjean 
Marguerite 
MmeDeR 
Isabeau 
Gervais 
Tholomyes 
Listolier 
Fameuil 
Blacheville 
Favourite 
Dahlia 
Zephine 
Fantine 
MmeThenardier 
Thenardier 
Cosette 
Javert 
Fauchelevent 
Bamatabois 
Perpetue 
Simplice 
Scaufflaire 
Womani 

Judge 
Champmathieu 
Brevet 
Chenildieu 
Cochepaille 
Pontmercy 
Boulatruelle 
Eponine 
Anzelma 
Woman2 
MotherInnocent 
Gribier 
Jondrette 
MmeBurgon 
Gavroche 


OUEN RHEÉE EE & GE 8 0 0 WU U WU W W & WE EH EH EH HD D NN ND EH EE DR 


12 
33 
49 
10 
19 
20 
39 

6 
41 
38 
34 


Maintenant, voyons donc ce qu'est capable de faire le package visNetwork et sa fonction du 
même nom visNetwork( ): 
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R 
R File Edit View Misc Packages Windows Help - 6 


Bel 


> library("visNetwork") 

> library("dplyr") 

> visNetwork(nodes-=nodes, edges=edges,height="800",width="1200",main="Network") %>% 
visOptions (nodesldSelection=TRUE) %>% 

visEdges (arrows="from") %5>$ 

visIinteraction(navigationButtons=TRUE) %>% 

visOptions (manipulation=TRUE) %5>% 

visIinteraction(navigationButtons = TRUE) %>% 
visLegend(width=0.1,position="right",main="Group") 


V+++ +++ 


Ce qui ouvrira dans le navigateur: 


B indexhtml *X) + 


88 1e file:///C:/Users/Vincent%20lsoz/AppData/Local/Temp/RtmpovnC9e/viewhtmI84822743911/index.html 


Network 
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Exemple 151.: Carte de chaleur (heatmap) 
R 3.0.2 


Nous allons voir ici si avec R nous retrouvons le même dendrogramme que dans le cours 
Minitab en utilisant le même jeu de données (rappelez-vous qu'avec Minitab nous avions 
obtenu avec la distance euclidienne les mêmes résultats que ceux calculés à la main dans le 
cours théorique): 


Fichier Edition Format Affichage 2 
Observation; Revenus;Surface; Propriétaire 


NJ NINN 


NJ NI 2 NN MN 8 NI C9 NI 
NI 


La commande heatmap( ) et le résultat associé sont donnés par (voir page suivante): 


R R Console sex) 


p 


> mydata<-read.csv("T:/R Charts/Graphs/Dendrogramme.csv",header-=T,sep=";") 

> heatmap(as.matrix(mydata[,2:3]),distfun-function(x) dist(x,method='euclidean'), 
+ Colv=NA,col=cm.colors(256) ,scale="column",xlab="Specification variables", 

+ ylab="Observation number" ,main="Heatmap" ,cexCol=1) 


> | 


Ce qui donne (voir page suivante): 
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Heatmap 


= 
ro] 
pe) 
E 
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= 
oO 
nt 
© 
ra 
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ao 
pe) 
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Specification variables 


Figure 172 Graph dendrogramme avec carte de chaleur 


Le résultat est esthétiquement discutable... et si nous comparons à Minitab: 
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Dendrogramme 
Liaison simple; Distance euclidienne 


q 
a) 
€ 
q 
LA 
de 
Q 


ME MS TES M EE EST Se ETES EN TA NN 
Observations 


Nous n'obtenons pas la même chose! Nous verrons cependant dans le chapitre data mining 
lors de l'exemple du CAH quels sont les paramètres à mettre dans R pour retomber sur ce que 
nous avons démontré dans le cours théorique. 


Cependant on peut faire mieux que l'horrible commande heatmap() qui consiste à utiliser la 
commande pheatmap() en association avec leS packages pheatmap et gplots: 
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R R Console 


library(pheatmap) 
library(gplots) 


setwd{("C:/") 
mydata<-read.csv("Dendrogramme.csv",header=T,sep=";") 
rownames (mydata) = paste (mydata$Observation) 

x<-as.matrix (mydata) 

pheatmap (mydata[,2:3],clustering distance rowus = "euclidean", 


VHNVNNNNYV 


show rownames = TRUE,cluster cols=FALSE, display numbers = TRUE) 


ou dans un style beaucoup plus sobre et simple: 
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Sinon nous pouvons revenir à du plus classique avec les packages ggplot2 et ggdendro et en 
utilisant les commandes hclust() et ggdendrogram( ) : 


e 


R & Console s|e|x| 


library(ggplotz2) 

library(ggdendro) 

setwd{i"C:/") 
mydata<-read.csv("Dendrogramme.csv",header=T,sep=";") 
hclt<-hcelust (dist (mydata) ) 

gadendrogram(helt, rotate=FALSE,size=2,theme dendro=FALsE) 


VVMVNNNVNN OV 


Figure 173 Graph de type dendrogramme (simple) 


ou Encore sans packages: 
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> hclt<-hclust (dist (mydata) ) 
> plot(hcit)| 


Cluster Dendrogram 


dist(mydata) 
hclust (*, "complete") 


et toujours sans package additionnels: 
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> plot(hcit) 
> rect.hclust{(hcilt,k=s) 
> group5<-cutreel{(hcit,5) 


Cluster Dendrogram 


dist(mydata) 
hclust (*, "complete") 


ou une interprétation sous forme tabulaire: 


R RGui (64-bit) - [R Console] — D  X 
R File Edit View Misc Packages Windows Help - 8 x 


> aggregate (mydata, list (group5) mean) 
Group.1 Observation Revenus Surface Propriétaire 


1 1 2.666667 62.10 20.26667 1.000000 

2 2 9.000000 85.55 20.20000 1.166667 

3 3 6.500000 109.05 18.40000 1.000000 

4 4 16.666667 66.20 17.66667 1.833333 

5 5 17.857143 46.80 18.57143 1.857143 

> | 

< > 
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> library(dendroextras) 
> plot (colour clusters(hcit,k=5)) 
> | 


Sinon on peut bien évidemment comparer avec plusieurs fonctions de lien: 
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Le "| 
Q À Console EEE 
> par(mfrow=c(2,2)) 
> plot (hclust (dist (mydata),method="complete")) 
> plot (hclust (dist (mydata) ,method="single")) 
> plot (hclust (dist (mydata),method="ward.D")) 
> plot (hclust (dist (mydata) ,method="average")) 
> | 
FF D | 
R evice 2 (ACTIVE Sens 
Cluster Dendrogram Cluster Dendrogram 
[=] 
œo 
= 
o 
o 
o 
o _ 
EE + = 
L- NE | 
2 = 
& FF o 
[nl + 
o o “ 
Fr _ wo ( 
wonRToN RorsTrsTms72L09% 
dist(mydata) dist(mydata) 
hclust (*, "complete") hclust (*, "single") 
Cluster Dendrogram Cluster Dendrogram 
[=] 
à 8 
o 
© 
& 
5 8 5 
Li L' 
LE o de o 
8 = 
L'e] 
Sd à : 
PRCMAPANT ESNASEORE AR M0 
dist(mydata) dist(mydata) 
hclust (*, "ward.D"} hclust (*, "average") 


On peut aussi comparer deux dendrogrammes de manière visuelle avec la fonction 
tanglegram( ) du package dendextend: 
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F Console HIER E 


* 


library("dendezxtend") 

iendi <- 23s.dendrogram(hcslust (dist (mydata) ,methoïä="complete")) 
dend2 <- 2s.äendrogram(hclust (dist (mydata) ,methoïi="single")) 
tanglegram(dendi, dend2) 


V'A'A'A 


vw 
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Exemple 152.: Diagramme ternaire (plans de mélange) 
R 3.0.2 


Dans le cours d'ingénierie nous avons étudié en détails la théorie mathématique des plans de 
mélange avec mesures aux sommets (plans de mélanges centrés) très utilisés en chimie. 


Nous allons voir ici que nous pouvons reproduire graphiquement le mélange qui nous avait 
servi d'exemple comme cas pratique de la théorie. 


Nous installons d'abord le package vcd: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> install.packages("vcd") 

Installing package into ‘C:/Users/lsoz Vincent/Documents/R/win-library/3.0* 
(as ‘lib’ is unspecified) 

--- SUP sélectionner un miroir CRAN pour cette session --- 

essai de l'URL 'http://cran.rstudio.com/bin/windows/contrib/3.0/ved 1.3-1.zip' 
Content type 'application/zip' length 1105086 hytes (1.1 Mb) 

URL ouverte 

downloaded 1.1 Mb 


le package ‘vcd’ a été décompressé et les sommes MD5 ont été vérifiées avec succés 


Les packages binaires téléchargés sont dans 
C:\Users\lsoz Vincent\äppDataiLocal\Temp\RtmpZ7RJ£D\ downloaded packages 
> | 


l« 


Et ensuite nous saisissons les données dans la joie en utilisant pour finir la commande 
ternaryplot( ) : 
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> library("vced'") 

> x<-data.frang 

+ xXiec(0,0.5:0:5:0,0,0.9393;11,x220(0,0,0.5:0,5;,1,0.33,0) ,x3=c11,0.5,0,0.5,0,0.33,0) 
+ } 

> DOE<-as.matrix(x) 

> ternaryplot (DOE,main="Mixture Design") 

> 


Mixture Design 


Figure 174 Graph terrire (plans de mélanges) 
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Exemples 153.: Fractales 


R 3.0.2 


Fractale de Mandelbrot 


Dans le cours de mathématique théorique nous avons étudiés la théorie des fractales pendant 
un temps significatif en utilisant Maple. Nous allons voir ci-dessous qu'il est tout à fait 
possible d'obtenir la même chose avec KR. 


C'est par ailleurs un excellent exercice pour les apprenants à tout langage concernant la mise 
en application des boucles: 


R R Console 


VNVNNN HER ER RER RER RH RVNNN NN NN VV VV 


Limits=c(-2,0.8) 
MaxIter=25 
cl=coloursi) 


Step=seq(Limits{[1],Limits[2],by=0.005) 
S=floor (lengthicl)/MaxiIter) 


Dist=0 


PointsMatrix=array(0,dim=c{length(Step) ‘length(Step),3)) 


t=0 


for(a in Step) 

{ 

for(kh in Step+0.6) 
ï 
x=0;y=0;:n=0;Dist=0 


while(n<MaxIter € Dist<4) 


{ 

n=n+1 
newx=a+x"2-y"2 
newy=h+2#xty 
Dist=newx"2-+newy”2 
X=newx; y=neny 

} 


if(Dist<4) colour=24 # black colour 


else colour=n's 
t=t+1l 


PointsMatrix{t,]=c(a,b,colour) 


} 
} 


xX11i) 


plot (PointsMatrix[,1], 


Ce qui donne: 


PointsMatrix[,2], xlim=Limits, 


ylim=Limits+0.6, col=cl[PointsMatrix[,3]], pch=".") 
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FR R Graphics: Device 2 (ACTIVE) Le=-/|-0./(.53) 


1.0 1.5 


0.5 


PointsMatrix[, 2] 
0.0 


-0.5 


-1.0 


-1.5 


-2.0 -15 -1.0 -0.5 0.0 0.5 


PointsMatrix[, 1] 


Figure 175 Graph fractale 


ou encore plus fort en en animé mais en utilisant le package catools: 


RGui (64-bit} - [R. 
Voir Misc Packages Fenêtres Aide 


setwd("C:/tmp") 

library(caTools) #ext pkg providing write.gif function 
jet.colors<-colorRampPalette(c("#00007F","blue","#007FFF","cyan","#7FFF7F", 
"yellow","#FF7F00","red","#7F0000")) 

m<-1200 #define size 
C<-complex(real=rep(seg(-1.8,0.6,length.out=m),each=m), 
imag=rep(seq(-1.2,1.2, length.out=m),m)) 

C<-matrix(C,m,m) #reshape as square matrix of complex numbers 
Z<-0 #initialize Z to zero 

X<-array(0, cim,m,20))j #initialize output 3D array 

Lock 1n 1:20) { 

Z<-7*24+C 

X[,,k] <- expi-abs(zj) 

wvrite.gif(X, "Mandelbrot.gif",col=jet.colors,delay=100) 

} 


R 


> 
> 
> 
L 
> 
> 
É 
> 
> 
> 
> 
+ 
Ce 
+ 
+ 
> 


R Statistical Software 1059/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Ce qui donnera une animation *.gif de 20 images avec comme image finale: 


W 
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Fractale de Feigenbaum 


Dans le cours de mathématique théorique nous avons étudiés la théorie des fractales pendant 
un temps significatif en utilisant Maple comme nous l'avons déjà mentionné juste 
précédemment. 


Nous allons voir ci-dessous qu'il est tout à fait possible d'obtenir la même chose avec R 
relativement à la fractale de Feigenbaum (merci à Mario dos Reis pour avoir écrit ce script en 
Octobre 2003): 


# non linear, chaotic function 
# r is growth rate and x is population size (from 0 to 1) 


1g = function(x, r) r * x * (1 — x) 
gen = 50 # number of initial generations 
r.min = 1 
r.max = 4 
= !,! 
cl = ‘black! plotting color 


= 
# plot resolution along the x axis 

k = 64 # generations to be plotted, increase to 64 to get a high 
# resolution plot 


# full plot 
plot(x=0, y=0, type = 'n', xlim = c(r.min, r.max), ylim = c(0, 1), 
xlab = 'r', ylab = 'Xx') 


for(r in seq(r.min, r.max, by = r.max/div)) { 
x.init = .01 


for(i in seq(0, gen)) !{ 
x.next = lg(x.init, r) 
x.101€ x.next 
} 


for(i in seq(0, k)) !{ 


x.next = lg(x.init, r) | 
x.init = x.next 
points(r, x.next, pch = p, col = cl) 


} 


VERRE LLLLLLL LI ARLADDADADRADAAADAAAAAA! 


Nous voyons déjà que le diagramme de Feigenbaum est encore un meilleur exercice que la 
fractale de Mandelbrot pour maîtriser les boucles. 


Le résultat de l'exécution du script ci-dessous donnera: 
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Et ce script permet aussi de zoomer simplement sur certaines zones pour visualiser l'aspect 
fractale de la figure! 
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Exemples 154.: Géostatistiques & Topographie (sciences de 
l'information géographique) 
R 3.0.2 


Encore une fois, même au niveau de géostatistiques, R ne vaut pas ce que l'on peut faire avec 
le tableur Microsoft Excel en termes de rapidités et d'esthétique dans les cas les plus 
classiques depuis la version 2010 du tableur en utilisant conjointement Power Pivot et Power 
Map. 


Topographie 


Commençons par une trivialité en utilisant la matrice volcano inclue nativement avec R: 


FR R Console = | © fs 


library(rgl)i;: 
data(volcano); 
z<-3*volcano; 
x<-10*{(1:nrowi(z) 
y<-10*{(1:ncoli(z) 
zlim<-range(z): 
zlen<-zlim[2]-2zl1im{1]+1; 
colorlut<-terrain.colors(zlen,alpha=0): 
col<-colorlut[z-zlim{1]+1]: 

open3di); 

wel 

29 


. 
L 


. 
L 


L 
L 


VVVNMNMNNMNNN V 


par3äd{"windowRect"= c(0,0,800, 500) ) 
rgl.surface(x,y,z,color=col,back="lines"); 
bbox3dicolor=ci"white","black")) 

grid3di("y") 

rgl.viewpoint (30,20,zoom=.8] NS 


Ce qui donnera: 
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100 
200 
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Figure 176 Graph de topographie avec gradient d'altitude 


Imaginons maintenant que nous avons une matrice avec le type de terrain indiquant la densité 
de verdure. Nous pouvons alors utiliser le script suivant: 
N 


Ÿ 
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library(rgl); 
data(volcano) ; 
z<-3*volcano; 
x<-10f{(1:nrow(z)); 
y<-10f(i1:ncol(z)): 
zlim<-range(z); 
zlen<-zlim{[2]-2zlim[1]+1; 


> 
> 
> 
> 
> 
> 
> 
> 
> #matrice des densités d'arbres 

> #qui normalement à les mêmes dimensions 
> 

> 

> 

> 

> 

> 

> 

> 

> 


fque la matrice topographique 
trn=matrix (rnorm(Ss307,0,10),ncol=61) 


trnlim<-range(trn) 

trnlen<-trnlim[2] - trnlim[1] + 1 
colorlut<-terrain.colors(trnlen,alpha=0) 
col<-colorlut[trn-trnlim[1i]+1 ] #affecte une couleur a chaque densité 


open3di(); 

wgl 
63 
par3d{"windowkRect"= c(20,40,800,500)) 
rgl.surfacei(x,y,z,color=col,back="lines"); 
bbox3d(color=ci{"white","black")) 
grid3d({"y") 
rgl.viewpoint (30,20,zoom=.6) 


Ce qui donne: 
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Et avec les courbes de niveau planes: 


filled.contour (volcano, color.palette = terrain.colors) 


#try 

cont <- contourLines(volcano) 

fun <- function(x) x$level 

LEVS <- sort (unique (unlist (lapply(cont, fun)))) 
COLS <- terrain.colors{(length(LEVS)) 

contour (volcano) 

forii in seq{cont))j{ 

COLNUM <- match(icont{[[i]]$level, LEVS) 
polygon(cont{[i]], col=COLS[COLNUM], border="Na") 
} 

contour (volcano, add=TRUE) 


> 
> 
” 
> 
> 
+, 
> 
> 
> 
+ 
+ 
+ 
” 
>| 


Ce qui donne: 


Figure 177 Graph topographique avec projection isoclines 
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Ou dans un autre genre: 


KR R Console 


library('raster') 

Cr <- raster (t (volcano)) 

re <- cut{(rr, breaks= 10) 

pols <- rasterToPolygonsirc, dissolve=T) NW 
spplot (pols) 


VVNNMNVV 


Ce qui donne: 


R R Graphics: Device 2 (ACTIVE) ==). 0) 


Ou encore dans d'autres genres que nous avons déjà vu précédemment: 
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> library(fields) 

> image.plot (volcano) 

> contour (volcano, add=TRUE) 
à 


Figure 178 Graph topographique avec projection isoclines et gradients de couleurs 


Ou en utilisant le package plot3D et sa fonction image2D( ) : 
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> require (plot3D) 
Le chargement a nécessité le package : plot3D 


> image2D(volcano, shade = 0.7, rasterlmage = TRUE, main = "“volcano", 


+ contour = list(col = "white", labcex = 0.8, lwd = 3, alpha = 0.5), 


LA 
+ colkey = list(length = 0.5, width = 0.5) ) 


> | 


volcano 
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Dans un autre style, avec le package rayshader on et de simples matrices on peut représenter 
des topographies de manière "hyperréaliste". Pour cela considérons le jeu de données 
montereybay du package: 


R File 


> 


> 


MR RGui (64-bit) - [R Console 


Edit View Misc 


ÉOSOEIOIE | 


> library(rayshader) 


Packages 


> class (montereybay) 
[11 "matrix" 


> dim(montereybay) 
[1] 401 401 
> montereybay([1:10,1:10] 


[1,] 
[2,] 
[3,1] 
[4,] 
[S,] 
[6,] 
[7,] 
[8,] 
[9,] 
[10,] 


[1,] 
[2,] 
[3,] 
[4,] 
[S,] 
[6,] 
[7,] 
[8,] 
[9,] 


[/1] 
-72.08319 
-72.45919 
-71-72905 
4013199 
—-69.66419 
—68.65099 
-67.42379 
-66.42179 
-65:32139 
-64.37639 

[7] 
-76.47496 
-76.24136 
-75.48029 
-74.78137 
-73.30176 
-71.33166 
71.931096 
-71.01875 
—-70.54476 


[-2] 
=23:01987 
-72.44397 
-70.94937 
-70.49197 
-69.50726 
—-68.75919 
=67-77157 
—-67.13607 
-66.30607 
-65:31107 

[8] 
16.997353 
-77.06083 
—-75.98043 
-75.34313 
—-74.39844 
—-73.48690 
=72.61573 
-71.89953 
-171:20833 


[10,] -69.88470 -70.58443 


> 


Windows Help 


[3] 
-73.43484 
—-72.76334 
—-11-01565 
—-70.19824 
-70.46214 
-70.11314 
-68.15453 
-67.86475 
-67.10574 
-66.31574 

[79] 
-77.68941 
-77.67200 
-77.12461 
-76.41372 
—-75.48483 
-74.64693 
=73.173421 
142, SP TEL 
—-72.21089 
-71.43471 


[4] 
-74.368454 
-73.39445 
-72.54224 
—-72.36424 
—-72.18534 
-71.47185 
-69.55094 
-68.48322 
-67.70616 
—-67.13544 

[,10] 
-78.29829 
-78.27857 
—-78.04729 
-77.26330 
-76.49879 
-75.87568 
—74.80500 
-74.05820 
-73.41259 
—-72.52389 


-75.39100 
-73.78801 
-73.74262 
-74.44852 
-72.94451 
—-72.78450 
=70. 75121 
-69.52381 
-68.72651 
-67.92520 


> #Affichage partiel de la matrice 'montereybay' du package 


[5] 


[6] 


-75.94428 
15.380335 
-74.48636 
<13:39296 
-71.28796 
-69.25088 
-70.54028 
-70.50438 
-69.77498 
-68.90496 


Et commençons avec les fonctions sphere_shade( ) et plot_3d( ) du package: 


| ©) (2% 
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MR Console 


> montereybay %5>% 

+ sphere shade() %5>% 

+ pilot 3d(montereybay,zscale=50) 
> 


( RGL device 1 [Focus] 


Figure 179 Graph de topographie hyperréel 


On peut aussi ajouter une texture à l'aide du package raster et sa fonction sphere_shade( ) et 
rajouter un effet d'ombre (soleil) et aussi afficher la carte en 2 dimensions avec la fonction 
plot_map( ): 
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> library(raster) 

Loading required package: sp 

> montereybay %>% 

+ sphere shade (sunangle = 45, texture = "desert") %>% 
pilot map) 


&- 
> 


Revenons à la 3D mais en préparant (sans l'afficher pour l'instant!!!!) la couche d'eau avec les 
fonctions add_water( ) et detect_water( ) définie selon la documentation par: 


detect_water Detect water 


is 


Detects bodies of water (of a user-defined minimum size) within an elevation matrix. 


Usage 


detect_water(heightmap, zscale = 1, cutoff = @.999, 
min_area = length(heightmap)/400, normalvectors = NULL, 
keep_groups = FALSE, progbar = TRUE) 


et d'effets d'ombres avec la fonction add_shadow ): 
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MR Console CS Keys) 


> montereybay %5>% 

+ sphere shade (texture = "desert") %>% 

+ add water (detect water (montereybay), color="desert") %>% 

+ add _shadow(ray _shade (montereybay )) %>% 

+ add _ shadow (ambient shade (montereybay )) %>% 

- plot _3d(montereybay ) 

‘montereybay' dataset used with no zscale--setting ‘zscale=200" £5S 
> 


(ET RGL device 5 (Focus] 


Et maintenant que la matrice contient une définition de la couche d'eau, nous pouvons 
l'afficher: 
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MR Console 


> montereybay %>% 


+ 


sphere _shade (texture = "imhofl") %>% 

add _shadow(ray _shade (montereybay,zscale=200)) %>% 

add_shadow (ambient _shade (montereybay,zscale=200)) %>% 

pilot _3d(montereybay, water=TRUE, zscale=50, theta=-45, 
waterdepth = 0, wateralpha = 0.6, watercolor = "#68DDFF", 
waterlinecolor = "white", waterlinealpha = 0.5) 


E RGL device 8 [Focus] 


Je conseille également vivement au lecteur de s'amuser avec la matrice volcano native de R: 
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> volcano ?$5>% 

sphere shade (sunangle = 45, texture = "desert") #%>% 
pilot map() 

volcano 4>% 

sphere shade (sunangle = 45, texture = "desert") %>% 
pilot _3d(volcano, zscale-3) 


+ 
+ 
> 
+ 
+ 
> 
LC: 
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ET RGL device 7 (Focus! 
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Statistiques au niveau mondial (package rworldmap) avec projection 
cylindrique 


Le package le plus élégant que j'ai trouvé à ce jour pour faire des statistiques au niveau 
mondial est rworldmap (dont la documentation est en plus bien faite). 


KR Fichier Edition Voir Misc Packages Fenêtres Aide 


> library(rworldmap) 

Le chargement a nécessité le package : sp 

### Welcome to ruorldmap ### 

. a short introduction type : vignette ('rworldmap'}) 
> 


R Fichier Edition Voir Misc Packages Peu Aide 


> data(countryExData) 
> countryExData[5:10,1:5] 
1503V10 Country EPI regions GEO subregion Population2005 
ARM irmenia Middle East and North Africa Eastern Europe 3016. 
AUS Australia East Asia and the Pacific Australia + New Zealand 20155. 
AUT Austria Europe Western Europe 68159. 
AZE Azerbaijan Central and Eastern Europ Eastern Europe 8410. 
BDI Burundi Sub-Saharan Africa Eastern Africa 7547. 
BEL Belgium Europe Western Europe 10419. 
> dimicountryExData) 
[1] 149 60 
> stricountryExData) 
'data.frame!: 149 obs. of S0 variables: 
1503V10 : chr "AGO" "ALB" "ARE" "ARG" ... 
Country : chr "Angola" "Albania" "United ärab Emirates m'$ 
EPI regions : chr "Sub-Saharan Africa" "Central and Eastern Europ" "Middé 
GEO subregion : chr "Southern ifrica" "Central Europe" "ärabian Peninsula'"$ 
Population2005 : num 15941 3130 4496 38747 3016 ... 
GDP_capita.MRYA : num 2314 4955 22698 13652 5011 ... 
landlock ÈS ©: (Or: ©: ©: LOL 1 1 0 :s<: 
landarea ; 1251896 28346 74777 2736296 28273 
density : 0:2 34.3 6.7 1.3 30.93 0.3 16,3 14.6 91 91.2 
EPI : 39.5 684 64 81.8 77.8 79.8 89.4 72.2 54.7 78.4 ... 
ENVHEALTH ë 8.9 89.3 89.68 91.1 88 99.3 98.1 76.4 37.6 98.8 ... 
ECOSYSTEM É 70.1 76.6 36.2 72.5 67.5 60.4 80.7 67.9 71.7 58 ... 
ENVHEALTH. 1 : 8.9 89.3 89.8 91.1 88 99.3 98.1 76.4 37.6 98.8 ... 


2 


AD AD AD AD AD AD AD AD LD AD LD AN 


Que l'on peut facilement exporter pour son usage personnel (ceci afin de ne pas ressaisir la 
liste des pays et régions et sous régions les plus courants) par exemple avec la commande 
suivante et en faisant ensuite un coller dans un tableur: 
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> vrite.table (countryExData,"C:/tmp/countryExData.csv",sep=":") 
> | 


Et nous commençons par afficher la population mondiale: 


> #On doit spécifier à quelle colonne correspond 150-3 
> sPDF<-joinCountryDatazMap(countryExData, joinCode="1503",nameJoinColumn="1503v10") 
149 codes from your data successfully matched countries in the map 

0 codes from your data failed to match with a country code in the map 

95 codes from the map weren't represented in your data 

> #On prépare les marges poura afficher la carte 
parimai=c(0,0,0.2,0),xaxs="i",yaxs="i") 
mapParams<-mapCountryData(sPDF,nameColumnToPlot="Population2005",addLegend=FAiLSE) 
do.call( addMapLegend, cimapParams, legendWidth=0.5, legendMar = 2)) 


Ce qui donne: 
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Population2005 


Figure 180 Graph Map-Monde Mercator avec zones géographiques coloriées 


Ou encore en agrégant les données: 
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#fça c'est juste pour avoir le résultat sous forme tabulaire 
sternGeoStat<-countryZRegion(inFile=countryExData,nameDataColumn="Population2005", 
joinCode="1503",nameJoinColumn="1$503V10",regionType="Stern",FUN="mean") 
print (sternGeostat) 
meanPopulation2005hy$tern 

Australasia 6279.20 

Caribbean 6529.60 

Central America 18378.66 

Central isia 11604.46 

East Âsia Ni 

Europe 19373.14 

North äfrica 36940.14 

North äimerica 165240.55 

South imerica 34049.80 

South äsia 290200.78 

South+E Africa 18211.46 

West Africa 18492.85 

Vest Asia 18194.29 

> #et maintenant l'équivalent sous forme de carte 

> par imai=c(0,0,0.2,0) ,xaxs="ir, vaxs="ir] 

> mapByRegion(countryExData,nameDataColumn="Population2005", joinCode="1503", 

+ nameJoinColumn="1503v10",regionType="S$Stern",FUN="mean") 

149 codes from your data successfully matched countries in the map 

0 codes from your data failed to match with a country code in the map 

95 codes from the map weren't represented in your data 

J asked for 7 quantiles, only 5 could be created in quantiles classification 

> 


Ce qui donne: 


mean Population2005 by Stern regions 
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On peut aussi regrouper les données par quartiles: 


> parimai=c(0,0,0.2,0) ,xaxs="i",vaxs="i") 

> #joining the data to a map 

> sPDF<-joinCountryData2Map(countryExData, joinCode="1503",nameJoinColumn="1503v10") 
149 codes from your data successfully matched countries in the map 

O0 codes from your data failed to match with a country code in the map 

95 codes from the map weren't represented in your data 

#creating a user defined colour palette 

op<- palette(ci"green’”,'"vellow", "orange" ,'"red")) 

#find quartile breaks 

cutVector<-quantile (sPDFÉdata(["Population2005"]],na.rm=TRUE) 

#classify the data to a factor 

sPDFédata(["Population2005"]]<-cut (sPDFÉdata[["Population2005"]],cutVector, 
include.lowest=TRUE) 

#rename the categories 

levels (sPDF@data[[("Population2005"]]) <- ci"louw","med","high","vhigh") 

#mapping 
mapCountryData(sPDF,nameColumnToPlot="Population2005",catMethod="categorical", 
mapTitle="Population Quartiles", colourPalette="palette", oceanCol="lighthlue", 
missingCountryCol="white") 


V++HVNNNNENNNUNNV OV 


EL 


ce qui donne: 


Population Quartiles 


category 


B low 

LL med 
B high 
D ich 
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et en rajoutant juste un argument nous pouvons zoomer sur une région donnée du monde: 


par (mai=c(0,0,0.2,0),xaxs="1i",yaxs="1i") 
#joining the data to & map 
sPDF<-joinCountryData2Map (countryExData, joinCode="1503",nameJoinColumn="1503V10") 
149 codes from your data successfully matched countries in the map 
O0 codes from your data failed to match with a country code in the map 
95 codes from the map weren't represented in your data 
- fcreating a user defined colour palette 
Op<- palette (c("green”,'"vellow",'"orange","red")}) 
> #find quartile breaks 
- cutVector<-quantile (sPDF@data[["Population2005"]],na.rm=TRUE) 
+ Éfclassify the data to a factor 
sPDFGdatal ["Population2005"]]<-cut (SPDFBdatal[["Population2005"]],cutVector, 
inc lude.lowest=TRUE) 
#rename the categories 
levels (sPDFRdata[["Population2005"]]) <- c("low","med","high",'"vhigh"}) 
#mapping 
- mapCountryData(sPDF,nameColumnToPlot="Population2005",catMethod="categorical", 
mapTitle="Population Quartiles'" lette="palette", oceanCol="lightblue", 
missingCountryCol="white" i 


| category 
= low 
|| med 
B high 
M high 
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Et si l'on possède des données avec des coordonnées pour les pays, il est possible de faire un 
diagramme à bulle sur la map monde: 


setwd({"C:/") 
GeoStat<-read.csv("WorlaBarPieBubble.csv",header=T,sep=";") 
par (mai=c(0,0,0,0)) 


mapBubbles (GeoStat,namex="LON",nameY="LiT",namezsize="Population 2005", 
nameZColour="MAP COLOR",colourPalette="rainbouw",oceanCol="lighthlue", landCol="wheat") 


Ce qui donne: 


MAP _COLOR 


Population_2005 


+0 
(D 6.69e+08 


(C}1.34e+00 


Figure 181 Graph de Map-Monde de Mercator avec bulles localisées 
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Statistiques au niveau mondial (package ggplot) avec projection 
cylindrique 


Nous allons d'abord charger les packages et construire le jeu de données: 


| MR RGuiï (64-bit) - [R Console = (m 
| R File Edit View Misc Packages Windows Help | 7! VX 


a | 


> library(rvest) 
> library(ggplot2) 
library(dplyr) 


v V 


V 


hci <- read html("http://reports.weforum.org/human-capital-report-2016/rankings/") %>% 


| + html node("table") %>% html table() +>% 

| + rename (country = Economy, rank = ‘Overall Rank‘, human capital = ‘Overall Score ) %>4% 
+ mutate (country = recode (country, 

| + ‘Russian Federation' = 'Russia', 

+ ‘United Kingdom' = 'UK', 

+ ‘United States' = 'USA', 

| + ‘Korea, Rep.' = "South Korea', 

+ ‘Kyrgyz Republic' = 'Kyrgyzstan', 

| + "Slovak Republic' = 'Slovakia', 

| + ‘Macedonia, FYR' = "Macedonia, 

| + ‘Iran, Islamic Rep." = 'Iran', 

| + ‘Trinidad and Tobago' = 'Trinidad', 
+ ‘Lao PDR' = 'Laos', 

+ *CUte d'’Ivoire' = 'Ivory Coast'})) 
|> fou vous pouvez charger le fichier HCI.csv 


v 


Ce qui donne: 


| R RGuï (64-bit) - [R Console == (m 
GR File Edit View Misc Packages Windows Help — 5 X 
ñ 
> hci 

rank country human capital 
1 1 Finland 85.86 
2 2 Norway 84.64 
3 3 Switzerland 84.61 
4 4 Japan 83.44 
5 5 Sweden 83.29 
6 6 New Zealand 82.79 
7 1 Denmark 82.47 
8 8 Netherlands 82.18 
9 g Canada 81.95 
10 10 Belgium 81.59 
11 11 Germany 81.55 
12 2 Austria 81.52 
13 13 Singapore 80.94 
14 14 Ireland 80.79 
15 15 Estonia 80.63 
16 16 Slovenia 80.33 
17 17 France 80.32 
| 18 18 Australia 80.08 
19 19 UK 80.04 
20 2 Iceland 79.74 
21 2 Lithuania 79.34 

v 
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et ensuite on y va pour le graphique: 


MR Console 


> globe <- map _ data("world") $>% rename (country = region) 

> world <- left _join(globe, hci) 

Joining, by = "country" 

> ggplot (data = world, aes(x = long, y = lat, group = group)) + 
_ geom_ polygon(aes(fill = human capital)) + 

+ theme minimal () 


>| 


R R Graphics: Device 2 (ACTIVE) 


Figure 182 Graph Map-Monde de Mercator avec zones géographiques (ggplot) 
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RE Console 


> ggplot (data = world, aes(x = long, y = lat, 
+ geom_ polygon(aes(fill = human capital)) + 
+ coord map(projection = "gilbert") + 

_ theme minimal () 
> 


group = group)) + 


[Rre Graphics: Device 2 (ACTIVE) 


Figure 183 Graph Map-Monde de Gilbert avec zones géographiques (ggplot) 
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Statistiques au niveau mondial (package plot3D) avec projection 
cylindrique 


Voilà une commande avec le package qui va en ravir plus d'un! Sous l'hypothèse que nous 
ayons une matrice dont le nombre de lignes est de 359 et le nombre de colonnes de 180 
(correspondant respectivement aux angles de longitudes et latitudes) avec pour chaque 
composante une valeur physique mesurée, alors avec le package plot3D, nous pouvons 
obtenir en utilisant la commande image2D( ) le résultat suivant (plus besoin de MATLAB 
pour cela... Yeeees!): 


R & Console eeal|x| 


library(plot3D) 

#la paramètre shade permet de voir le relief de façon plus ou moins prononcée 
image2D (Hypsometry,xlab="longitude",vylab="latitude",shade=0.05 
-main="Hypsometry data set",clab="{r]") 

#un petit rectangle à l'endroit de notre choix 

rect (-50,10,-20,40, lud=3) 


PTS DE À 


IR R Graphics: Device 2 (ACTIVE) 


Hypsometry data set 


D 
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longitude 
Figure 184 Graph Map-Monde de Mercator hyperréaliste hypsométrique 


Maintenant toujours avec le même package zoomons en perspective sur la région mise en 
évidence: 
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fe 


R & Console s|o. 2 | 
22 

> #nous faisons un perspective 3D de la zone mise avant en évidence 

> #par le rectangle noir 

> ii<-which(Hypsometry$x > -50 € Hypsometry$x < -20) 

> j3j<-which(Hypsometry$y > 10 € Hypsometry$y < 40) = 

> zlim<-c(-10000,0) 

> par (imfrow=c{(1,1)) 

> persp3D(z=Hypsometry$z[ii,jj],xlab="longitude",vylab="latitude",zlab="depth", = 

+ clab="depth [m]",expand=0.5,phi=20,theta=30) 

4 R R Graphics: Device 2 (ACTIVE) 


depth [m] 


Figure 185 Graph bassin hypsométrique 


Pas mal... mais nous allons faire un peu mieux en ajoutant un seul paramètre de résolution: 
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e 


R R Console ls | Il D 
> parimfrow=c{(1,1)) 

> persp3D(z=Hypsometry$z[ii,jj],xlab="longitude",ylab="latitude",zlab="depth", 

+ clab="depth [m]'",expand=0.5,phi=20,theta=30,resfac=5) 
ri 


R R Graphics: Device 2 (ACTIVE) = 
depth [m] 


NO 
: : 
Bon c'est pas mal du tout (là aussi plus besoin de MATLAB pour cela!!! !). Faisons encore 
mieux en ajoutant les isoclines: 
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f 


R & Console [alg|x| 
> par (mfrow=c(1,1)) 

> persp3D(z=Hypsometry$z[ii,jj],xlab="longitude",ylab="latitude",zlab="depth", 

+ clab="depth [m]"”,expand=0.5,phi=20,theta=30,resfac=s5, 

+ contour = list (col = "grey", side = c("zmin", "z"))) 

> | 


IR R Graphics: Device 2 (ACTIVE) 


depth [m] 


Figure 186 Graph bassin hypsométrique avec isoclines 
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Statistiques au niveau mondial sans projection 


Avec le package mapmate 
Le package mapmate est actuellement que sur GitHub, nous allons donc devoir charger le 


package devtools dans un premier temps (mais attention!!! Sous Microsoft Windows, 
l'installation se passe souvent mal si le compte utilisateur contient des espaces!): 


R File Edit View Misc Packages V 


> library("devtools") 
> devtools::install github("leonawicz/mapmate")| 


Vindows Help 


Ensuite, nous chargeons les packages dont nous allons avoir besoin pour l'exemple et nous 
créons également une palette de couleurs au passage: 


R 
R File Edit View Misc Packages Windows Help 


> library (mapmate) 

> library(dplyr) 

> library (RColorBrewer) 

> pal <- rev(brewer.pal(ll, "RdYlBu")) 


Pour montrer comment le page mapmate fonctionner, nous allons utiliser les trois jeux de 
données suivants: 


R Statistical Software 1091/3133 


Vincent ISOZ, Daname KOLANI 


Sciences.ch 


R RGui (64-bit) - [R Console] 


R File Edit View Misc Packages Windows Help 


|> data (annualtemps) 
> str (annualtemps) 


Classes ‘tbl_ df’, ‘tbl’ and 'data.frame': 55080 obs. of 4 variables: 


: num -177 -177 -177 -170 -170 ... 

: num 53.7 67 73.7 53.7 60.3 ... 

$ Year: int 2010 2010 2010 2010 2010 2010 2010 2010 2010 2010 ... 
: num 1.09 3.21 2.76 0.91 2.47 2.73 0.19 0.79 1.43 1.28 ... 

> data (borders) 

> str(borders) 

‘data.frame': 99338 obs. of 6 variables: 


$ lon : num -69.9 -69.9 -69.9 -70 -70.1 ... 

$ lat : num 12.5 12.4 12.4 12.5 12.5 .….; 

$ group : nun 1111111111... 

$ order 2: Ant 123456 7 8 9 10 .…. 

$ region : Chr "Aruba" "Aruba" "Aruba" "Aruba" ... 
$ subregion: chr NA NA NA NA ... 


> data(bathymetry) 

> str(bathymetry) 

Classes ‘tbl_ df’, ‘tbl’ and 'data.frame': 5832 obs. of 3 variables: 
$ lon: num -178 -175 -172 -168 -165 ... 
$ lat: num 88.3 88.3 88.3 88.3 88.3 ... 
$ z : num -3540 -3561 -3598 -3623 -3503 ... 


Trivialement.…. le jeu de données borders est le plus important pour tracer les frontières sur la 


planète! 


Ensuite on transforme un tout petit peu les donnéès avec dplyr: 


R RGui (64-bit) - [R Console] 


ŒR File Edit View Misc Packages Windows Help 


id <- "framelD" 


1) +# subset to first frame 
brdrs <- mutate(borders, framelD = 1) 
bath <- mutate(bathymetry, framelD = 1) 
str (temps) 
Classes ‘tbl_df’, ‘tbl’ and 'data.frame': 612 obs. of 5 variables: 
$ lon : num -177 -177 -177 -170 -170 ... 
$ lat : num 53.7 67 73.7 53.7 60.3 ... 
$ Year : int 2010 2010 2010 2010 2010 2010 2010 2010 2010 2010 ... 
$ 
$ 


VYVHVYV 


z : num 1.09 3.21 2.76 0.91 2.47 2.73 0.19 0.79 1.43 1.28 ... 
framelD: num 1111111111... 

> str(brdrs) 

"data.frame': 99338 obs. of 7 variables: 


$ lon : num -69.9 -69.9 -69.9 -70 -70.1 ... 
$ lat : num 12.5 12.4 12.4 12.5 12.5 ... 
$ group : num 1111111111... 
$ order s Ant 12345 6 7 8 9 10 .…. 
$ region : chr "Aruba" "Aruba" "Aruba" "Aruba" ... 
$ subregion: chr NA NA NA NA ... 
$ frameID : num 1111111111... 
> str(bath) 
Classes ‘tbl df’, ‘tbl’ and 'data.frame': 5832 obs. of 4 variables: 
$ lon : num -178 -175 -172 -168 -165 ... 
$ lat : num 88.3 88.3 88.3 88.3 88.3 ... 
$ z : num -3540 -3561 -3598 -3623 -3503 ... 
$ frameIlD: num 1111111111... 


temps <- mutate(annualtemps, framelD = Year - min(Year) + 1) %>% filter (framelD == 
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On y va pour le premier graphique avec la fonction save_map( ) : 


R R Console Es ©) _& | 


> save _map(bath, z.name = "z", id = id, col = pal, type = "density", contour = "overlay", 
+ save.plot = FALSE, return.plot = TRUE) 


MR Graphics: Device 2 (ACTIVE) 


Figure 187 Graph globle Mondial avec iso-courbes et densités de couleurs 


Ou en changeant le paramètre contour: 
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ou encore en changeant avec un jeu de données ayant beaucoup plus de points: 
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MR Console = (e il 


> save map(temps, id = id, col = pal, type = "density", contour = "overlay", save.plot = F$ 
+ return.plot = TRUE) 


Q R Graphics: Device 2 (ACTIVE) 


Pour plus d'exemples et d'informations, le lecteur pourra se reporter à l'adresse suivante: 


https://leonawicz.github.1o/mapmate/articles/usage_and_limitations.html 
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Avec le package rworldmap 
Ce qui suit est simplement une copie du code disponible ici: 


https://egallic.fr/en/maps-with-r/ 


Voyons d'abord le graphique lui-même: 


MR RGui (64-bit) - [R Co 
ŒR File Edit View Misc Packages Windows Help UE: 


> library("rworldmap") 

Loading required package: sp 

##*# Welcome to rworldmap #*#*# 

For a short introduction type : vignette ('rworldmap'}) 
library("ggplot2") 


worldMap <- getMap() 
world.points <- fortify(worldMap) 
Regions defined for each Polygons 
> world.points$region <- world.points$id 
> world.df <- world.points{,c{("long","lat","group", "region")] 
> 
> temp <- read.table("amaps.txt", skip=1l, header = TRUE, na.strings="9999.0000") 
> str(temp) 
"data.frame': 16200 obs. of 5 variables: 


> 
> 
> #World map nécessaire pour la suite 
> 
> 


$ L : int 1234567 8 9 10 ... 

| S4Bt. L' LA LEE Lil L l 

$ lon : num -179 -177 -175 -173 -171 -169 -167 -165 -163 -161 ... 
$ lat : num -89 -89 -89 -89 -89 -89 -89 -89 -89 -89 ... 

$ array.i.j.: num -2.34 -2.34 -2.34 -2.34 -2.34 ... 


> breaks <- Gi-5.1, -#, -2, -1, -.5, -.2, :2, .5, 1, 2; #, 11.1) 
> lesCouleurs <- cbind( 

val = levels(cut (range (breaks), breaks = breaks)), 

col = c("#8600FF", "#3FS4FE", "#77CAFD", "#9SEEFF", "#D9FFD9", "#FFFFFF", 

"#FFFF4C", "#FFCCOO", "#FF7E00", "#FFO0000", "#SE0000") 

} 
lesCouleurs <- data.frame(lesCouleurs, stringsAsFactors = FALSE) 
colnames (lesCouleurs) <- list("val", "col") 
# Colours in 8 digits, the last two digits are for transparency 
lesCouleurs$col <- paste(lesCouleurs$col,"FEF", sep = "") 
temp$interval <- cut (temp$array.i.j, breaks = breaks) 


rotate map <- function(angle = -74){ 
ggplot(} + 

geom_tile (data = temp, aes(x = lon, y = lat, fill = interval), alpha = 0.8) + 
scale fill manual("interval", breaks = lesCouleurs$val, values = lesCouleurs$col) + 
geom path(data = world.df, aes(x = long, y = lat, group = group)) + 
scale y continuous (breaks = (-2:2) * 30) + 
scale x continuous (breaks = (-4:4) * 45) + 
coord map("ortho", orientation=c(6l, angle, 0)) 


C2 


rotate map(l) 


VV HER VNVVVV VV + + + + 


Ce qui donne: 
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MR R Graphics: Device 2 (ACTIVE) EE) 


(-0.:5,-02] 
(02,02 
(02,05) 
(0.5,1] 
(1,2 

(241 
4,111] 


lon 


On peut aussi créer une animation dont le résultat est visible ici: 


& Ne à " 
ses it anomalies.gif 


en utilisant le code suivant: 


MR RGui (64-bit) - [R Console] — 


GR File Edit View Misc Packages Windows Help Alf 


> library("animation") 

> #cela prend environ 3h30 sur un Alienware Area 51M avec 
> #i9 5.2GHZ et 64 GB RAM tourant sur Windows 10 Pro x64... 
> saveGIF({ 


+ ani.options (nmax = 360) 
+ for(i in seg(0,360))1 
_ print(rotate map(i)) 
+ print(i) 

+ } 


+ }, interval = 0.1, outdir="c:/tmp/", movie.name = "temp anomalies.gif") 
animation option "nmax' changed: 50 --> 360 

[1] 
[1] 
[1] 
[1] 
[1] 
[1] 
[1] 
[1] 
[1] 
[1] 
[1] 
[1] 
[1] 
[1] 
[1] 
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Points au niveau mondial (package ggOceanMaps) avec projection 
orthogonale 


Bon précisons d'abord que ce package est très vaste en possibilités. Pour plus d'informations, 
le lecteur pourra se référa à la page web de la documentation: 


https://mikkovihtakari.github.10/ggOceanMaps/ 


Voyons maintenant un exemple: 


a 


R R Console OR ES 


#devtools::install github("MikkoVihtakari/ggOceanMaps") 
library("ggOceanMaps") 


fun petit jeu de données comme exemple d'ajouts de points 
dt <- data.frame(lon =seq(-10,+30,2.6) , lat = seq(+30,+60,2)) 


basemap(limits = c(-20, +40, +30, +80), bathymetry = TRUE, glaciers = TRUE, 
land.col="darkseagreen4",lon.interval = 10,lat.interval = 10)+ 
xlab ("Longitude")+ylab ("Latitude")+ 
geom point (data = transform coord(dt), aes(x = lon, y = lat), color = "red")+ 
annotation scale (location = "br'")+ 
annotation north arrow(location = "tr", which north = "true") 
Using lon and lat as longitude and latitude columns, respectively. 
projection transformed from EPSG:4326 to EPSG:3995 
ui on map varies by more than 10%, scale bar may be inaccurate 
> 


KR Graphics: Device 2 (ACTIVE) RE 


HV VVVVV OV 
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Statistiques au niveau Européen régional 


Je dois de présenter cet exemple grâce à une participante à mes cours. À noter que l'exemple 
est 100% inspiré du lient suivant de Timothée Giraud (CNRS - UMS RIATE): 


http://wukan.ums-riate.fr/ifsttar/ 


Voici le code qui utilise la fonction choroLayer( ) du package cartagrophy: 


[ 
GR RGui (64-bit) - [R Console O 


| R File Edit View Misc Packages Windows Help 
SIP] 


> library (cartography) 
> data(nuts2006) 
> head(nuts2.df) 
id emp2008 act2008 unemp2008 birth 2008 death 2008 gdppps1999 gdppps2008 pop1999 pop2008 
3067 4139 5695 


1383 AT11 137.0 142.1 CES 2215 276732 281185 
384 AT12 49253 820.3 28.0 14085 15616 28799 40998 1530745 1596538 
385 AT13 784.6 841.4 56.7 17375 15702 51431 68722 1542252 1674909 
789 AT21 263.4 272.8 9.4 4718 5385 10886 14632 560938 560322 
1192 AT22 586.5 607.0 2025 10255 11725 23436 32457 1183374 1204947 
368 AT31 114-1 133.4 19-2 13540 11966 30468 43300 1366578 1406664 


> # Calcul du taux de croissance annuel moyen 
> nuts2.dfS$cagr <- 100 * (((nuts2.df$pop2008/nuts2.df$pop1999)"(1/9)) — 1) | 
> choroLayer (spdf = nuts2.spdf, df = nuts2.df, var = "cagr",legend.pos = "right") 

> title("Taux de croissance en Europe") 

> 


Q 


QR R Graphics: Device 2 (ACTIVE | a | a} | æ | 
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On peut faire quelque chose de très différent aussi: 


R RGui (64-bit) - [R Console] — (me X 
ŒR File Edit View Misc Packages Windows Help mix 


ST] 


# Construire une palette de couleurs 
cols <- carto.pal(pali="green.pal",ni=2,pal2="red.pal",n2 = 4) 


# Affichage de couches d'habillage 
plot(nuts0.spdf, border = NA, col = NA, bg = "#A6CAE0") 
plot(world.spdf, col = "#E3DEBF", border = NA, add = TRUE) 


# Cartographie du taux de croissance annuel moyen 

choroLayer (spdf = nuts2.spdf, df = nuts2.df, var = "“cagr", 
breaks = c(-2.43, -1, 0, 0.5, 1, 2, 3.1), col = cols, 
border = "grey40", lwd = 0.5, legend.pos = "right", 
legend.title.txt = "taux de croissance\nannuel moyen", 
legend.values.rnd = 2, add = TRUE) 


# Affichage de couches d'habillage 
plot (nuts0.spdf, border = "grey20", lwd = 0.75, add = TRUE) 


* Ajout des titres, légende, sources, etc. 

layoutLayer(title = "Taux de croissance en Europe", 
author = "cartography", sources = "Eurostat, 2008", 
frame = TRUE, col = NA, scale = NULL, coltitle = "black", 
south = TRUE) 


ARR AAA AAELLL AAA ARAA'A" 


Ce qui donnera: 


Taux de croissance en Europe 
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Ou encore avec le package ggplot, nous pouvons faire des cartes hexabin: 


R File Edit View Misc Packages Windows Help 


EG OISESINIE) 


> # Libraries 


> library("tidyverse") 
> library("viridis") 
> library("hrbrthemes") 
> library("mapdata") 
> 
> # Load dataset from github 
> data <- read.table("https://raw.githubusercontent.com/holtzy/data to viz/master/Example dataset/17 ListGPSCoordinates.csv", sep=",", header=T) 
> head(data) 

homelat homelon homecontinent 
1 18.28548 -70.33012 South America 
2 39.10312 -84.51202 North America 
3 19.41095 -99.27186 South America 
4 -22.90685 -43.17290 <NA> 
5 -22.90685 -43.17290 <NZ> 
6 33.93003 -118.28099 North America 


> str(data) 
"data.frame': 268417 obs. of 3 variables: 


$ homelat : num 18.3 39.1 19.4 -22.9 -22.9 ... 

$ homelon : num -70.3 -84.5 -99.3 -43.2 -43.2 ... 

$ homecontinent: chr "South America” "North America” "South America” NA ... 
# plot 
data +>+ 


filter (homecontinent=="'Europe') $>% 
ggplot( aes(x=homelon, y=homelat)) + 
geom hex(bins=59) + 
ggplot2::annotate("text", x = -27, y = 72, label="Where people tweet about #Surf", colour = "black", size=5, alpha=1l, hjust=0) + 
ggplot2::annotate("segment", x = -27, xend = 10, y = 70, yend = 70, colour = "black", size=0.2, alpha=l1) + 
theme _void() + 
xlim(-30, 70) + 
ylim(24, 72) + 
scale fill viridis( 
option="B", 
trans = "log", 
breaks = c(1,7,54,403,3000), 
name="Tweet # recorded in 8 months", 


guide = guide legend( keyheight = unit(2.5, units = "mm"), keywidth=unit(10, units = "mm"), label.position = "bottom", title.position = 'top', nrow=1) 
} + 
ggtitle( "" ) + 
theme ( 


legend.position = c(0.8, 0.09), 
legend.title=element text(color="black", size=8), 
text = element _text(color = "#22211d"), 
plot.title = element text(size= 13, hjust=0.1, color = "#4e4d47", margin = margin(b = -0.1, t = 0.4, 1 = 2, unit = "cm'")}), 
} 
Warning message: 
 — 519 rows containing non-finite values (stat _binhex). 
> 


OH HE HE VO V 


Ce qui donne: 
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Sciences.ch 


ou avec la carte du monde et le même jeu de données: 


æ 
7% 
e * 

_ 


Tweet # recorded in 8 months 
ES CRE CN CRM 
1 7 54 403 3000 
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R RGuiï (64-bit) - [R Console] _ 


ŒR File Edit View Misc Packages Windows Help 


> # Libraries 
library("tidyverse") 
library("viridis") 
library("hrbrthemes") 
library("mapdata") 


# Load dataset from github 
data <- read.table("https://raw.githubusercontent.com/holtzy/data to viz/master/Example dataset/17 ListGPSCoordinates.csv", sep=",", header=T) 


# Get the world polygon 
world <- map_data("world") 


# plot 
ggplot (data, aes(x=homelon, y=homelat)) + 
geom_ polygon(data = world, aes(x=long, y = lat, group = group), fill="grey", alpha=0.3) + 
geom bin2d(bins=100) + 
ggplot2::annotate("text", x = 175, y = 80, label="Where people tweet about #Surf", colour = "black", size=4, alpha=l, hjust=1) + 
ggplot2::annotate("segment", x = 100, xend = 175, y = 73, yend = 73, colour = "black", size=0.2, alpha=l) + 
theme void() + 
ylim(-70, 80) + 
scale fill viridis( 
trans = "log", 
breaks = c(1,7,54,403,3000), 
name="Tweet # recorded in 8 months", 


guide = guide legend( keyheight = unit(2.5, units = "mm"), keywidth=unit (10, units = "mm"), label.position = "bottom", title.position = 'top', 
) + 
ggtitle( "" ) + 
theme ( 


legend.position = c(0.8, 0.09), 
legend.title=element text (color="black", size=8), 
text = element text(color = "#22211d"), 
plot.title = element _text(size= 13, hjust=0.1, color = "#4e4d47", margin = margin(b = -0.1, t = 0.4, 1 = 2, unit = "cm")), 
} 
Warning message: 
“ds 4 rows containing non-finite values (stat _bin2d). 
; 


RARES VNN NN NN NV VV 


nrow=1) 


Ce qui donne: 


rl 1 J 


LI 
a “ 
= 
ele 
L ] L 1 
LI = LI 
= 
Fr 
5 = 
Tweet # recorded in 8 months 


VS CRE CRE 
1 ti 54 403 3000 
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Package dédié pour la Suisse: RSwissMaps 


Voilà un package qui sera très utile pour mes clients vu que je travaille et fournit des conseils 
principalement en Suisse. Les médias en sont très friands surtout les votations puisque nous 
sommes un des rares pays étant une démocratie directe et donc des votations sont une chose 
fréquente chez nous. 


Voyons donc cela d'abord avec les cantons à l'aide de la fonction can.plot( ): 


> library("RSwissMaps") 
> # Generating sample data: 
> dt <- can.template (2016) 
> for(i in l:nrow(dt)){dt$values[i] <- sample(c(300:700), 1)/1000} 
> head(dt,10) 
bfs_nr name values 
ZH 0.587 
0.611 
0.306 
0.642 
HUSEL 
0.485 
0.431 
0.394 
0.604 
0.635 
> + Plotting sample data: 
> can.plot(dt$bfs nr, dt$values, 2016) 


4 (0 CO -J O Ur 4 & NN 
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Voyons maintenant les districts avec la fonction dis.plot( ): 


> library("RSwissMaps") 

> # Generating sample data: 
> dt <- dis.template (2016) 
> for(i in l:nrow(dt)){dt$values{i] 


> head(dt, 


bfs_nr 
101 
102 
103 
104 
105 
106 
107 
108 
109 
10 110 


0 © -J oO O1 4 & N HA 


10) 


name values 


Bezirk Affoltern 
Bezirk Andelfingen 
Bezirk Bülach 
Bezirk Dielsdorf 
Bezirk Hinwil 
Bezirk Horgen 
Bezirk Meilen 
Bezirk Pfäffikon 
Bezirk Uster 
Bezirk Winterthur 


> #Plotting sample data: 
> dis.plot(dt$bfs nr, dt$values, 2016) 


0.453 
0.623 
0.321 
0.420 
0.593 
0.475 
0.615 
0.397 
0.533 
0.490 


<- sample(c(300:700), 1)/1000}# 


Ou encore au niveau des communes avec la fonction mun.plot( ): 
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> library("RSwissMaps") 
> # Generating sample data: 
> dt <- mun.template (2016) 
> for(i in l:nrow(dt})){dt£$values[i] <- sample(c(300:700), 1)/1000} 
> head(dt,10) 
bfs_nr name values 
Aeugst am Albis O.474 
Affoltern am Albis 0.576 
Bonstetten 0.309 
Hausen am Albis 0.424 
Hedingen 0.467 
Kappel am Albis 0.329 
Knonau 0.358 
Maschwanden 0.405 
Mettmenstetten 0.699 
() 10 Obfelden 0.409 


H4 40 C0 -J Où O1 :B & N 
10 © -] On O1 :B & D 4 


> # Plotting sample data: 

> mun.plot (dt$bfs nr, dt$values, 2016) 

Warning message: 

s 1 of ‘data combined$data' is discouraged. Use ‘data’ instead. 
> 
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Géostatistiques planes ponctuelles (package maps) 

Le but ici va être de découvrir le package maps que nous retrouverons juste plus loin et qui 
permet d'avoir des cartes avec frontières des régions/départements ou cantons dont nous 


pouvons représenter des points à l'aide des latitudes et longitudes. 


Commençons d'abord par rapport à des notions esthétique de base: 


> library(maps) 
> map("france", col="#O01B8AA", bg="#374649") 


FR R Graphics: Device 2 (ACTIVE) ne) (Es) 


ou Encore: 
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R R Console 


> library (maps) 
> map("france", col="#01B8AA", bg="#374649",fil1l1=TRUE) 


R R Graphics: Device 2 (ACTIVE) 


L'exemple ci-dessous est repris du post de l'excellentissime blog de Arthur CHARPENTIER 
de Novembre 2010 avec son autorisation: 


http://freakonometrics.hypotheses.org/2160 


Nous utiliserons le fichier suivant qui contient la liste de 32250 communes français avec leur 
nom et latitude/longitude (le package ne permet pas à ce jour de faire la Suisse): 
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Fichier Edition Format Affichage 2 


[Nom Ville MAT :; Code Postal ; Code INSEE :Code Région, Latitude ; Longitude ; Eloignement « 
L'Abergement-Clémenciat ;L ABERGEMENT CLEMENCIAT :1400,1001,82;46.15:4916667,146 | | 
L'Abergement-de-Varey :L ABERGEMENT DE V£REY:1640:,1002;82;46;,5 416667 ;1 Er 
Amareins : SMAREINS :1090:1003:82;,46.083333;,4.8;1.85 

Ambérieu-en-Bugey ;SMBERIEU EN BUGEŸ ;1500;1004;82;,45.95:5.35:0.8 

Ambérieux-en-Dombes ;AMBERIEUX EN DOMBES :1330;,1005:82;46;,4.9;1.72 

äAmbléon ,SMBLEON :1300:1006,82;45.75:5.6,2.01 

Ambronaz ;AMBRON£Y :1500:1007,82;46;,5.35;1.34 

äAmbutrix SMBUTERIX :1500:1008,82;45.933333:5.333333:0.9 

äAndett-et-Condon ;ANDERT ET CONDON :1300:,1009:82:45.8:5.65;1.71 

Anglefort ,ANGLEFORT :1350:1010:,82;45.916667,5.808333;-1 

Apremont ,SPREMONT :1100:1011:82;46.208333;5.658333;1.46 

Aranc  àRANC :1110:1012:82;,46:5.5;1.01 

Atandas  ARANDÉS :1230:1013:82;,459:5.483333:1.11 

Atbent  SRBENT :1100:1014,82;,46.3:,5.683333;1.39 

Arbignieu , SRBIGNIEU :1300,1015:82:45.733333:5.65;2.11 

Atbigny ; ARBIGNY :1190:1016,82;46 466667 ,4.966667 ,2.31 

Argis  ARGIS :1230:1017:82:45.933333:5.483333:0.9 

Atnux  ARMIX :1510:1019:82:45.85:5.583333;:1.41 

Àts-sut-Formans ; ARS SUR FORMANS :1480:1021:82:,45.983333:4816667;1.8 

Attemare  ARTEMARE :1510:1022:,82,45 866667,5.7,1.31 

Astières-sut-Saône : ASNIERES SUR SAONE :1570:1023:82;46.383333:4.883333;1 81 

Attignat  ATTIGNAT :1340:1024,82:46.283333;5.166667 1.21 


« | 


D'abord nous chargeons le package maps: S 


R Fichier Edition Voir Misc Packages Fenétres Aide 


l > library(maps) 
> | 


S1 nous voulons représenter toutes les communes, nous aurons alors: 
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FR R Console m||m() 


+ 


> ville=read.csv("C:/ville.csv",sep=";:",header=TRUE) 
> nrow(ville) 

[1] 35376 

> x=as.numeric(as.character (villefLongitude)) 
Message d'avis 

Nis introduits lors de la conversion automatique 

> v=as.numericias.character (villefLatitude)) 

> mapl'france') 

> dci ubi ie “us 

> 


Et maintenant en prenant que les villes qui comprennent l'expression "-sur-Mer" (comme quoi 
les techniques de filtrage que nous avons apprises ne sont pas inutiles!): 
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> ville=read.csv("C:/ville.csv",sep=";",header=TRUE) 
> ville<-ville[grepi{"sur-Mer",ville$Nom.Ville),] 

> x=as.numeric(as.character (villefLongitude)) 
Message d'avis : 

Nis introduits lors de la conversion automatique 

> y=as.numeric(as.character (ville$fLatitude)) 

> mapl'france') 

> points(x,y,.pch=19,col="blue" ,cex=.6) 


> | N 


Figure 188 Graphe carte pays avec points 
Et aussi d'Arthur CHARPENTIER et du même excellentissime blog mais de Novembre 2011: 


http://freakonometrics.hypotheses.org/2308 


nous pouvons contrôler les couleurs des régions (ce qui n'est pas faisable à ce jour avec la 
Suisse): 
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VV +++ +NV Y 


A 


Ce qui donne: 


library(maps) 

france<-map (database="france") 
dpt=ci"ain","àärdeche","Drome",'"Iisere",'"Loire ","Rhone", 
"Savoie" ,'"Haute-Savoie”,"Charente","Charente-Haritime’”, 
"Deux-Sevres","Vienne'",'"iriege",'"Aiveyron",'"Haute-Garonne", 
rGers",'"Lot","Hautes-Pyrenees",'"Warn'","Tarn-et-Garonne", 
"Meurthe-et-Moselle'",'"Meuse'",'"MoÆlle","Vosges") 
couleur=cirep(2,8) ,rep(3,4),rep(4,8) ,rep(6,4)) 
match=match.map(france,dpt) 

color=couleur [match] 

map (database="france", £ill=TRUE, col=color) 


Figure 189 Graphe carte pays avec zones géographiques 
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Sinon toujours avec le même package des points sur une carte dont le diamètre dépend de 
l'amplitude des données: 


> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 


libraryimaps) 

map{"world", interior = FALSE) 

#fon le fait avec des variables aléatoires car on 

fa compris le principe de l'import *.csv ou autre 
lon<-runif(20,-180, 180) 

lat<-runif(20,-90,90) 

radius=runif(40,1,4) 

favec les points pch=21 on peut contrôler la couleur de 
#bordure et de fond 

points(lon, at,pch=21,cex=radius,col="black",bg="red") 
map.axes() 
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-150  -100 
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Géostatistiques planes avec gradients (packages aqgfig et maps) 


Nous chargeons le package agfig: 


DE Fichier Edition Voir Misc FR Fenêtres Aide 


> library(aqfig) 

Le chargement a nécessité le package : geoR 
Le chargement a nécessité le package : sp 
Le chargement a nécessité le package : MASS 


Analysis of geostatistical data 
For an Introduction to geoR go to http://wuwuw.leg.ufpr.br/geoR 
geoR version 1.7-4 (built on 2012-06-29) is now loaded 


Messages d'avis 
package ‘aqfig’ a été compilé avec la version R 3.0.3 
package ‘geoR’ a été compilé avec la version R 3.0.3 
package ‘sp’ a été compilé avec la version R 3.0.3 
R 3.0 


package ‘MASS’ a été compilé avec la version 13 


Considérons les données suivantes du package aqfig: 


É 


RE p onsol 
> ozonel 

longitude latitude daily.max 
1 -77.3078 39.9231 74.0 
2 -76.8172 39.0284 88.0 
3 -76.1114 38.4450 60.0 
4 -74.5520 41.9422 41.0 
5 -80.8477 38.8795 47.0 
6 -83.0662 37.9214 59.0 
7 -79.8365 35.2632 63.6 
8 -83.4305 35.0608 48.0 
9 -83.2605 39.6359 60.0 
10 -83.9422 35.6331 64.0 
11 -79.2515 39.9878 61.0 
12 -82.9982 40.9173 71.0 
13 -80.1451 41.4271 62.0 
14 -64.7286 39.5327 62.0 
15 -79.6617 39.0904 52.0 
16 -78.3069 37.1655 S1;:0 
17 -82.0454 36.1058 55.0 
18 -77.9319 40.7208 65.0 
19 -81.3373 39.9428 58.0 
20 -78.4347 38.5231 56.0 
21 -83.68268 36.4700 66.0 
22 -80.5578 37.3297 63.0 
23 -74.8729 40.353125 56.0 
> | 
« 


En utilisant les commandes plot3d.points() et vertical.image.legend() du package agfig et 
la commande map(}) du package maps: 
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data(ozonel) 

col.rng <- revirainbowin=10, start-=0, end=4/6)) 

z.rng <- c(40, 90) 

plot3d.points(x=ozonel$ longitude, vy=ozonelflatitude, z=ozonelfdaily.max, 
xlab="longitude", vlab="latitude", zlim=Z.rng, col=col.rng, 
cex.min=0.5, cex.max=1.5) 


## To verify, label the points with their concentrations. 

text (ozonel$flongitude, ozonel$flatitude+0.15, ozonel$daily.max, cex=0.7) 
## If maps package is available, put on state lines. 

if (require("maps"))] mapi"state", add=TRUE, col="lightgray") 

## Put on legend. 

vertical.image.legend(col=col.rng, zlim=2.rng) 


VMVNVNNVNNNNEHNNVNVV 


Nous obtenons alors un grand classique: 


latitude 


D 5 
g 
r') 
| | 
F 3 
5 
_—_—_— — 
-76 


-18 


longitude 


Figure 190 Graphe carte avec zone latitude-longitude définies avec points et amplitudes 
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Utilisation du format NetCDEF avec projection cylindrique localisée 


NetCDEF (Network Common Data Form) est constitué, d'une part, d'un ensemble de 
bibliothèques logicielles et d'autre part, d'un format de données « auto-documenté », 
indépendant de l'architecture matérielle qui permet la création, l'accès et le partage de données 
scientifiques stockées sous la forme de tableaux. Le site internet du projet est hébergé par le 
Unidata program à l'University Corporation for Atmospheric Research (UCAR). Ils sont par 
ailleurs les mainteneurs principaux des programmes, des spécifications, etc. Il s'agit d'un 
format ouvert. 


Le format, à l'origine, avait pour modèle conceptuel le format CDF issu de la NASA mais il a 
depuis divergé de façon telle qu'aujourd'hui ces deux formats ne sont plus compatibles. 


Ce format est couramment utilisé dans des applications de climatologie, de météorologie et 
d'océanographie (ex., prévision météorologique, changement climatique et applications des 
S.I.G.). 


Il s'agit d'un format de choix pour les entrées/sorties de nombreux S.I.G. et pour l'échange de 
données scientifiques. Le site définit le format NetCDF comme "une interface pour un accès 
aux données orienté tableaux et une bibliothèque qui fournit une implémentation de cette 
interface. La bibliothèque netCDF définit en sus un format de représentation des données 
scientifiques indépendant de l'architecture machine”. 


Nous allons utiliser pour cet exemple le package ncdf4 et charger un jeu de données local 


avec la fonction nc_open( ) : 
OC 
NS 

Ne) 

n 
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MR RGui (64-bit) - [R Console] — 


| File Edit View Misc Packages Windows Help - & x 


|> library(ncdf4) 

> bom <- nc_open("c:/tmp/sd_ pct_Actual month.nc") 

> print (bom) # Inspect the data 

File c:/tmp/sd pct _Actual month.nc (NC FORMAT NETCDF4): 


2 variables (excluding dimension variables): 
int time _bounds{[nv,time] (Chunking: [2,1]) 
float sd pct{longitude, latitude,time] (Chunking: [32,32,16]) (Compression: shuffle,level 1) 
[1] ">>>> WARNING <<< attribute least _significant digit is an 8-byte value, but R" 
[1] "does not support this data type. I am returning a double precision" 
[1] "floating point, but you must be aware that this could lose precision!" 
least_significant digit: 3 
units: fullness 
name: sd _pct 
long _ name: Total moisture in deep soil layer (100-500 cm): averaged across both HRUs (mm) 
_FillValue: -999 
standard name: sd _ pct 


4 dimensions: 
time Size:213 te js unlimited *°* 
bounds: time _bounds 
long name: time 
standard name: time 
calendar: gregorian 
units: days since 1900-01-01 
name: time 
nv Size:2 
latitude Size:681 
units: degrees _ north 
name: latitude 
long _ name: latitude 
standard name: latitude 
longitude Size:841 
units: degrees _ east 
name: longitude 
long name: longitude 
standard name: longitude 


1 global attributes: 
var_name: sd pct 
>| 


Ensuite nous extrayons les données qui nous intéressent: 


R RGui (64-bit) - [R Console] — X 


ŒR File Edit View Misc Packages Windows Help 5 x 


lon <- ncvar_get(bom, "longitude") 

lat <- ncvar_ get (bom, "latitude") 

dates <- as.Date("19S00-01-01") + ncvar get (bom, "time") 
moisture <- ncvar_get(bom, "sd pct") 

dimnames (moisture) <- list(lon, lat, dates) 


VYNVVVUVYV 


Ensuite allons-y pour l'afficher: 
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R RGui (64-bit) - [R Console] — X 
GR File Edit View Misc Packages Windows Help - 


ÉBSOISOESINIE | 


> library(tidyverse) 
> library (RColorBrewer) 
> library(reshape2) 


> 

> d <- "2017-07-31" 

> m <- moisture[, , which(dates == d)] %>% 

+ melt (varnames = c("lon", "lat")) %5>% 

+ subset (!is.na(value)) 

> 

> ggplot(m, aes(x = lon, y = lat, fill = value)) + borders("world") + 
- geom_ tile() + 

- scale fill gradientn(colors = brewer.pal(9, "Blues")) + 

- labs(title = "Total moisture in deep soil layer (100-500 cm)", 
- subtitle = format(as.Date(d), "%+d $B $Y")) + 

- | xlim(range(lon)) + ylim(range(lat)) + coord fixed{() 

> 


Ce qui donne: 


MR Graphics: Device 2 (ACTIVE) 


Total moisture in deep soil layer (100-500 cm) 
31 July 2017 


Figure 191 Graph à carte NCDF 
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On peut zoomer avec le package gegmap: 


MR RGui (64-bit) - [R Console] — O X 
ŒR File Edit View Misc Packages Windows Help #2 


ÉA0SGEIOE | 


La) 
> library(ggmap) 
> loc <- round(geocode ("Bendigo") / 0.05) * 0.05 
Information from URL : http://maps.googleapis.com/maps/api/geocode/json?address=B$ 
> map tile <- get _map(loc, zoom = 12, color = "bw") +>% 
+ ggmap () 
Map from URL : http://maps.googleapis.com/maps/api/staticmap?center=-36.75,144.36$S 
> 
> map tile + 


+ geom tile (data = m, aes(x = lon, y = lat, fill = value), alpha = 0.8) + 
+ scale fill gradientn(colors = brewer.pal(S, "Blues'")) + 

+ labs(title = "Total moisture in deep soil layer (100-500 cm)", 

+ subtitle = format(as.Date(d), "%d %B %1")) 


Warning message: 
Removed 281640 rows containing missing values (geom tile). 


Ce qui donne: 


Total moisture in deep soil layer (100-500 cm) 
31 July 2017 
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Google maps/Open maps (package gemap) 


Attention!!! Quand vous travaillez avec ce package, choisissez un répertoire de travail qui 
soit bien en lecture et écriture! 


Nous allons voir ici quelques possibilités du package ggmap. Commençons par apprendre à 
afficher des cartes tout simplement avec différents styles en utilisant les commandes 


get_map() et ggmap( ) : 


fl 
R & Console Sex) 


2 


> library(gomap}) 

Le chargement a nécessité le package : ggplot2 

Need help? Try the ggplot2 mailing list: http://groups.google.com/group/ggplot2. 
> swiss <- get map("Switzerland", zoom = 7) 

Map from URL : http://maps.googleapis.com/maps/api/staticmap?center=Switzerland$ 
Google Maps API Terms of Service : http://developers.google.com/maps/terms 
Information from URL : http://maps.googleapis.com/maps/api/geocode/json?address$ 
Google Maps API Terms of Service : http://developers.google.com/maps/terms 

> gomap(swiss) 


>| R R Graphics: Device 2 (ACTIVE) CSST 


ou avec une vue satellite: 
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e 


ou de type carte routière: 


R & Console s|e|x 


> library(ggmap}) 

> swiss <- get map{"Switzerland",zoom = 7,maptype="satellite") 

Map from URL : http://maps.googleapis.com/maps/api/staticmap?center=Switzerland$ 
Google Maps API Terms of Service : http://developers.google.com/maps/terms 
Information from URL : http://maps.googleapis.com/maps/api/geocode/json?address$ 
Google Maps API Terms of Service : http://developers.google.com/maps/terms 

> gomapiswiss) 


Google 


R & Console EE) 


> library(gomap) 

> swiss <- get _map("Switzerland",zoom = 7,maptype="roadmap") 

Map from URL : http://maps.googleapis.com/maps/api/staticmap?center=Switzer land$ 
Google Maps API Terms of Service : http://developers.google.com/maps/terms 
Information from URL : http://maps.googleapis.com/maps/api/geocode/json?address$ 
Google Maps API Terms of Service : http://developers.google.com/maps/terms 

> ggmap(swiss) 
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Sciences.ch 
. a 
ou avec un style hybride/carte routière: 
R & Console se |x 
> library(ggmap) 4 
> swiss <- get _map("Switzerland",zoom = 7,maptype="hybrid") 
Map from URL : http://maps.googleapis.com/maps/api/staticmap?center=Switzerlandé 
Google Maps API Terms of Service : http://developers.google.com/maps/terms 
Information from URL : http://maps.googleapis.com/maps/api/geocode/json?address$ 
Google Maps API Terms of Service : http://developers.google.com/maps/terms 
> gogmap(swiss) 
æ = 
À R Graphics: Dev le: 


Mia 


ou avec un style militaire: Se 
Ÿ 
R 8 Console = 2< 
> library(ggmap}) a 
> swiss<-get_map("Switzerland",zoom-7,maptype="toner") 
maptype = "toner" is only available with source = "stamen". 


resetting to source = "stamen”... 

Map from URL : http://maps.googleapis.com/maps/api/staticmap?center=Switzerland$ 
Google Maps API Terms of Service : http://developers.google.com/maps/terms 
Information from URL : http://maps.googleapis.com/maps/api/geocode/json?addressé 


Google Maps API Terms of Service : http://developers.google.com/maps/terms 
> gomapi(swiss) 


orne me voenmiee / — . 
| D, etudgabu 
: + Asa 
Enddadens Sue 


gant 
n°” +]Metsentei an cer Mrenz 
. som 


‘uns Tübingen 0 Moë-Utm 


+ ingan-Schæenrngen 


« 


+ Cmmons 
> 


y 
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Maintenant choisissons le lieu avec des coordonnées en latitude/longitude: 


> library(gomap) 

> LON LAT<-get _map(location=c{(lon=-95.3632715, lat=29.7632836),zoom=8) 

Map from URL : http://maps.googleapis.com/maps/api/staticmap?center=29.763284,-$ 
Google Maps API Terms of Service : http://developers.google.com/maps/terms 

> gogmap(LON LAT) 


R Statistical Software 1124/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Apprenons à mettre un point sur un lieu de la carte avec la commande geom_point( ) : 


> library(gomap) 

> swiss<-get_map("Switzer land'",zoom=7) 

Map from URL : http://maps.googleapis.com/maps/api/staticmap?center=Switzerlandezoom=7esizé 
Google Maps API Terms of Service : http://developers.google.com/maps/terms 

Information from URL : http://maps.googleapis.com/maps/api/geocode/json?address=Switzerlans 
Google Maps API Terms of Service : http://developers.google.com/maps/terms 

> gogmapiswiss)+geom point (aes(x=6.6, y = 46.5) ,colour="red",size=4) 

> 


Figure 192 Graph Google Maps avec points 


ou faire en sorte que la carte prenne tout la fenêtre: 
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> library(ggmap) 

> swiss<-get_map("Switzerland",zoom=7] 
Map from URL : http://maps.googleapis. 
Google Maps API Terms of Service : htt| 
Information from URL : http://maps.goo 
Google Maps API Terms of Service : htt 
> ggmap(swiss,extent="device") 

> 


lŒuoule 
PEUR 


Nous pouvons aussi "piquer" des coordonnées de carte avec la commande gglocater() où 
entre parenthèse nous pouvons choisir le nombre de points cliquables selon l'exemple ci- 
dessous: 


SN 
© 
Ÿ 
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+ 


Re Console 


> library(ggmap) 
> swuiss<-get map({"Switzerland'",zoom=7) 
Map from URL : http://maps.googleapis.com/maps/api/staticmap?center=Suw$ 
Google Maps API Terms of Service : http://developers.google.com/maps/t$ 
Information from URL : http://maps.googleapis.com/maps/api/geocode/jso$ 
Google Maps API Terms of Service : http://developers.google.com/maps/t$ 
#attention la capture de coordonnées avec la souris n'est fiable 
#qu'avec le paramètre extent="normal"l!!! 
ggmap(swiss,extent="normal") 
#permettre à l'utilisateur d'obtenir les lon/lat de là où il clic 
clicks <- clicks <- gglocator (1) 
expand.gridilon = clicks$lon, lat = clicks$lat) 

lon lat c 
6.673521 46.45402 


| M. ME 10 JE Ni | 


Nous pouvons également tracer des polygones avec la commande geom_poly() et des tracés 
avec geom_path( ) ou écrire des textes avec la commande annotate() en utilisant par 
exemple comme source le fichier suivant: 


ë 


Longitude ; Latitude 
6.486318 ;46.47924 
7.290372;46.15687 


8.5/3611;47.40744 
6.811188 ;46.99614 
6.486318 ;46.47924 


et le script suivant: 
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> library(gomap) 

> mydata<-read.csv("C:/RelevesLonLat.csv",header=T,sep=":") 

> swiss<-get_map("Switzer land",zoom=6) 

Map from URL : http://maps.googleapis.com/maps/api/staticmap?center=Switzerlandezoom=Bçcsizef 
Google Maps API Terms of Service : http://developers.google.com/maps/terms 

Information from URL : http://maps.googleapis.com/maps/api/geocode/json?address=Switzer land 
Google Maps API Terms of Service : http://developers.google.com/maps/terms 

> gomap(swiss)+ 

+ geom_polygon(data=mydata,aes (x=Longitude, y=Latitude) ,alpha=0.3,colour="red",fill="red") + 
+ geom path(data=mydata,aes (x=Longitude, y=Latitude) ,colour="white",alpha=.7,size=s) + 

+ annotate ("point",x=7.257885,y=46.79049,size=7) + 

+ annotate ("text",x=7.257885,y=46.79049, label="Golden Swiss Area'",colour="white",sizes=3) 


Figure 193 Graph Google Maps avec polygone 


R Statistical Software 1128/3133 


Vincent ISOZ, Daname KOLANI 


Sciences.ch 


En s'inspirant de l'aide du package ggmap et en utilisant le fichier suivant: 


E 


Fichier Eion_ Format Afchage | 

on stlat ;"class" 

95.2986178065726; 29. 
.2807438238855;29. 
:2927659494211:29. 
.2836686777655;29. 
.3052237246366;29. 
.2697769773869;29. 
.2655674379352;29. 
.2689309690617;29. 
.2/10041047297;:29. 


601852389076; "1" 

6363324733319; "1" 
6043120077113; "1" 
6425904774665 ; "1" 
587615313896; "1" 
6700733493611; "1" 
6642876633886; "1" 
6658622938201; "1" 
670564838152; "1" 


5.2649886757947 : 29, 683614935061 : "1" 
:277344981096 : 29. 659607409623 ; et 


:2965197650173;29. 
.2829518314564;29. 
.2674751143897;29. 
.2597394913784;29. 
.2981948184185 ;29. 
.2859214468925;29. 
.2881060500304 ; 29. 
.2/59190030997;29. 
.2872230499511;29. 
.2823479710414;29. 


6032458090717; "1" 
6343459560053; "1" 
683218029244 ; "1" 

7031801847529; "1" 
6077269580521; "1" 
6392932271381; "1" 
6242331839924; "1" 
6631012622472; "1" 
6361480459911; "1" 
637707896849; "1" 


.2750595347541;29. 
.2888090415489; 29. 
.2689581450615;29. 


6332609166542; "1" 
6095611804698 ; "1" 
6628951030801; "1" 


Nous pouvons indiquer des relevés sur une carte en utilisant à nouveau geom_point( ) : 


= 
R R Console 
library (ggmap) 
mydata<-read.csv("C:/ggmapPath.csv",header=T,sep=";:") 
mydata$class<-factor (mydata$class) 
str (mydata) 
‘data.frame!: 205 obs. of 3 variables: 

$ lon : num -95.3 -95.3 -95.3 -95.3 -95.3 ... 

$ lat : num 29.6 29.6 29.6 29.6 29.6 . 

$ class: Factor w/ 4 levels "1","2","3","qm: 


. 0 0. de. 4 


Map from URL : 
Google Maps API Terms of Service 


LLTLILLESLSRE Li 

> LON_ LAT<-get_map(location=c(lon=-95.3632715, lat=29.763),zoom=10) 
http://maps.googleapis.com/maps/api/staticmap?center=29.763$ 
: http://developers.google.com/maps/terms 
> gomap (LON_LAT)+geom point (aes(x=lon, y=lat,colour=class),data=mydata) 
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Ou avec des densités de relevées grâce à des isoclines de densités locales en utilisant la 
commande stat_density2d( ) : 


> libraryiggmap) 
> mydata<-read.csv("C:/gomapPath.csv",header=T,sep=";") 
> mydatafclass<-factor (mydatafclass) 
> strimydata) 
‘'data.frame!: 205 obs. of 3 variables: 
$ lon : num -95.3 -95.3 -95.3 -95.3 -95,3 ... 
$ lat : num 29.6 29.6 29.6 29.6 29.6 
Siclass Tab orin 4 levels MA RU Ie rs ED ET ET ET TT TTL ee 
> ggmap(get_map(location=c(lon=-95.3632715,lat=29.763),zoom-10), extent ="device") + 
+ stat density2d(aes(x=lon,y=lat,colour=class) ,data=mydata,bins=10) 


ou avec un autre visuel: 
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À R Console 


> library(gomap) 
> mydata<-read.csv("C:/gomapPath.csv",header=T,sep=";") 
> mydatafclass<-factor (mydata$class) 
> strimydata) 
‘'data.frame!: 205 obs. of 3 variables: 
$ ion : num -95.3 -95.3 -95.3 -95.3 -95.3 ... 
$ lat : num 29.6 29.6 29.6 29.6 29.6 ... 
S class:. FACCOE nf. levels "ir mor ve pans: À À © 1.1 À L À À LL... 
> gomap(get map(location=c(lon=-95.3632715, lat=29.763),zoom-10) ,extent="device")+ 
+ stat _density2d(aes(x=lon,y=lat,fill=..level..,alpha=..level..j),size=2, 
+ bins=10,data=mydata,geom="polygon") 
Map from URL : http://maps.googleapis.com/maps/api/staticmap?center=29.763,-95.36327$ 


Ou encore afficher des barres de données en des lieux précis avec le fichier de données 
suivant: 
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Fichier Edition Format Affichage ? 


“university à count": lcategory "lat"; "Tong" 
pu MEL ue MALE 46.8;6.8 
| "Maths":46. 8:6.8 


2 

3 "Bioscience" :46. B;:6.8 
"a" EPFL": 4! "Social Science” :46.8;:6.8 
"S'':"EPFZ";7; "Physics"; 47.5:8.8 
6 
7 
8 


NRA 6; "Maths"; 47. 2; 5.8 

": "EPFZ":6: "Bioscience" ‘47. 5:8.8 

MeNEPEZ" e 1:"Social Science" :47.5:8.8 
"9": "UNIGE"; 5 S:"Physics'";:46.3; 6.3 
"10": "UNIGE" : 3 ; "Maths"; 46. 3: 6. 3 
"11": "UNIGE": 10:' 'Bioscience” :46.3;6.3 
ME UNIGE":7: social] science’ ‘:46.3:6.3 
"13": "HEC St-Gall":4:"physics":47.3:10 
"14"; "HEC St- Gall": é. “Maths”; 47. 3; 10 
"15"; "HEC St- Gall":8 “"Bioscience" 47.3:10 
"16"; "HEC St-Gall":4;"Social Science":47.3:10 


et le script utilisant la commande geom_subplot( ) : 


FE 
R & Console = || ©) || x 


> library(ggplotzZ) 

> library(gomap) 

> library(ggsubplot) 

> mydata<-read.csv("C:/gomapBars.csv",header=T,sep=";") 

> swiss <- get map{"Switzerland",zoom=7) 

Map from URL : http://maps.googleapis.com/maps/api/staticmap?center=Switzerlandéezoo$ 
Google Maps API Terms of Service : http://developers.google.com/maps/terms 
Information from URL : http://maps.googleapis.com/maps/api/geocode/json?address=-Swi$ 
Google Maps API Terms of Service : http://developers.google.com/maps/terms 

> p <- ggmap(swiss,extent="device", legend="topleft") 

> p+geom subplot (data=mydata,mapping=aes(x =long,y=lat,group=-University, 

+ subplot=geom bar (aes(x=Category,y=Count,color=Category,stat= "identity")))j) 
Mapping a variable to y and also using stat="bin". 


« (= ( | + 


Ce qui donnera: 
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[- 


R R& Graphics: Device 2 (ACTIVE) cr 
u £ . En - VARIE EC Ÿ ap BE A : "2 


Bioscience 
Maths 

Physics 

Social Science # 


Figure 196 Graph Google Maps avec diagrammes à barres 


On peut aussi s'amuser avec faire des cartes à bulles (remarquez les 0.9 dans la légende qui est 
mal compris par R car il s'agit de l'alpha... il faudra le masquer a priori par un rectangle 
blanc): 
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> 
> 


library (gomap) 
swiss = get _map("Switzerland",zoom-7,maptype="roadmap",source="google") 


Map from URL : http://maps.googleapis.com/maps/api/staticmap?center=Switzerlandézo$ 
Google Maps API Terms of Service : http://developers.google.com/maps/terms 
Information from URL : http://maps.googleapis.com/maps/api/geocode/json?address=Suwé 
Google Maps API Terms of Service : http://developers.google.com/maps/terms 

swiss = ggmap(swiss) 


V++HVVYNNNNNNNNN OV 


#bon on fait avec de l'aléatoire car importer du csv on a compris! 
lon<-runif(40,6,10) 

lat<-runif(40,46,47.5) 

radius=runif(40,5,20) 

mydata<-data.frame(lon, lat, radius) 


# the bubble chart 

library(grid) 

swiss+ 

geom_ point (aes{(x=lon,y=lat,colour-=radius,size=radius,alpha-0.9),data=mydata) + 
scale colour _ gradient (low="yellouw",high="red") 


Ce qui donne: 


4937 
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Figure 197 Graph Google Maps avec disques 


R Statistical Software 1134/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Ou dans un autre style en utilisant la commande stat_bind2d( ) : 


library(gomap) 

#on fait aussi avec de l'aléatoire 

n<-30 

lon<-runifin,6,10) 

lat<-runifi(in,46,47.5) 
variability=samplei(c(1:5),n,replace=TRUE) 
mydata<-data.frame(lon,lat,variability) 


VVVNNNNNNY 


suiss<-get _map("Switzerland",zoom-7,maptype="roadmap",source="google") 
Map from URL : http://maps.googleapis.com/maps/api/staticmap?center-=Switzerlandezoo$ 


Google Maps API Terms of Service : http://developers.google.com/maps/terms 
Information from URL : http://maps.googleapis.com/maps/api/geocode/json?address=Swif$ 
Google Maps API Terms of Service : http://developers.google.com/maps/terms 

> swiss<-gomap(swiss) 

> 

> mydata<-data.frame(lon,lat,variability) 

> swiss+stat bin2d(aes(ix=lon,y=lat,colour=variability,fill=factor (variability])), 

+ PP 

> 


Ce qui donne: 


Lier, id pe AE 
48 — =, k, 

b 2 Kemipten 4 
“ne 3 
2 2 innsbruck 

Ë a ucl 2 
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On peut également afficher des cartes détaillées dans un carte: 
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MR RGui (64-bit) - [R Console] — O X 


R File Edit View Misc Packages Windows Help = lelix 


EE] 


library ("ggmap") 


usa _ bbox <- c(left = -125, bottom = 25, right = -55, top = 50) 

usa main map <- get _stamenmap(usa bbox, zoom = 5, maptype = "terrain") 
#on prend la carte globale des USA 

p_main <- ggmap(usa main map) 


*on construit le premier sous-ensemble qui sera l'Alaska 
alaska bbox <- c(left = -180, bottom = 50, right = -128, top = 72) 
alaska map <- get _stamenmap(alaska bbox, zoom = 5, maptype = "terrain") 
p_alaska <- ggmap(alaska map) + labs(title = "Alaska") + 
theme (axis.title = element blank(), axis.text = element blank(), 
axis.ticks = element blank()) 


*on construit le deuxième sous-ensemble qui sera Hawai 
hawaii bbox <- c(left = -160, bottom = 18.5, right = -154.5, top = 22.5) 
hawaii map <- get _stamenmap(hawaii bbox, zoom = 6, maptype = "terrain") 
p_hawaii <- ggmap(hawaii map) + 
labs(title = "Hawaii") + 
theme (axis.title = element blank(), 
axis.text element blank(), 
axis.ticks element _blank()) 


ton fusionne le tout 


VÆRVNNVNVNVN EE EVNVNVNVNVNV ENV VV NN NN NN NV 


library("grid") 
p_main + 
inset (ggplotGrob(p_ alaska), xmin = -76.7, xmax = -66.7, ymin = 26, ymax = 35) + 
inset (ggplotGrob(p hawaii), xmin = -66.5, xmax = -55.5, ymin = 26, ymax = 35) 
< > 


Ce qui donne: 


Hawaii 


-120 -100 -80 -60 
lon 
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Au niveau mondial avec un seul point, nous pouvons faire par exemple en utilisant les 
commandes map_data() et ggplot( ) : 


# 
R & Console = |g|Xx 


library(ggplotz) 

library(gomap) 

world<-map_ data ("world"] 

vor ldmap<-ggplot (world,aes(x=long,y=lat,group=group) )+ 
geom pathij+ 

scale y continuous (breaks={(-2:2)*30)+ 

scale x continuous (breaks={(-4:4) #45) 

worldmap + geom point (aes(x=50,y=30,size=100,colour="red")) 


CNE NNNV 


de. 


Passons maintenant à un cas très utile dans la meilleure démocratie directe du monde. D'abord 
téléchargez sur le site web suivant http://wWww.gadm.org : 
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Fichier Éd chage Historique Marque-pages Outils 2? 


D © EFEIEE 


Pre plusvisites 


Global Administrative Areas 


Bounda its 


Known problems Ÿ Discussion forum 


GADM database of Global Administrative Areas 


G4DM is a spatial database of the location of the world's administrative areas (or adminstrative boundaries) for 
use in GIS and similar software. Administrative areas in this database are countries and lower level 
subdivisions such as provinces, departments, bibhag, bundeslander, daerah istimewa, fivondronana, krong, 
landsvædun, opétina, sous-préfectures, counties, and thana. G&DM describes where these administrative areas 


are (the "spatial features"), and for each area it provides some attributes, such as the name and variant names. 


The current version is 2.0 (January 2012) 


€ www.gadm.org/country 


Pres piusvisités 


Global Administrative Areas 


Boundaries without limits 


Download E Known problems Discussion forum 


Home 


Download 


Country 


Switzerland % 


File format 
Shapefile M 
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Décompressez tout le dossier *.zip dans un dossier unique en préservant tous les fichiers 


d'une même famille de niveau de détails: 


Nom 


| 


LA | 


LI 


+ | 


CHE_admd.csv 
CHE_adm.dbf 
CHE_admô.pr) 

CHE_admô.shp 
CHE_admô,.shx 
CHE_admL.csy 
CHE_admL.dbf 
CHE_admLpr) 

CHE_admLshp 
CHE_admL.shx 
CHE_adm2.csv 
CHE_adm2.dbf 
CHE_adm2.pr) 

CHE_adm2.shp 
CHE_adm2.shx 
CHE_adm3.csv 
CHE_adm3.dbf 
CHE_adm3.prj 

CHE_adm3.shp 
CHE_adm3.shx 


Date 

10.12.2011 14:42 
20.12.2011 11:58 
20.12.20 LL 11:5 
20.12.20 LL 115 
20.12.20 LL 11:58 
20.12.20 LL 14:55 
20.12.2011 12:48 
20.12.2011 12:48 
20.12.2011 12:4 
20.12.2011 12:48 
20.12.2011 15:06 
20.12.20 L1 13:21 
20.12. 13:21 
20.12.2011 13:21 
20.12.2011 13:21 
20.12.2011 15:15 
20.12.2011 13:36 
20.12.2011 13:36 
20.12.2011 13:3 
20.12.2011 13:36 


9 


Type 


Fic 
Fic 
Fic 
Fic 


ver CSV 
er DBF 
ner PRJ 
nier SHP 


chier CSV 
chier DBF 
chier PR] 
chier SHP 


chier DBF 
chier PRJ 
chier SHP 

Fic 
NS 


mer SHX 


Taille 


Ÿ 
Ensuite, nous utilisons les packages rgdal, maptools, plyr, RColorBrewer, ggplot2 avec la 
série de commandes suivantes (merci à Ahmadou Dicko!) en plusieurs étapes (car c'est un peu 


long). 


1 étape on charge les packages et on lit le contenu de fichier *.shp°° en utilisant 
readOGR() et fortify( ) : 


20 Les fichiers *.shp (shapefiles) sont des fichiers au format ArcView et sont donc de facto le standard pour les 
fichiers SIG (bien que ce soit un format propriétaire). La plupart des cartes au monde sont dans ce format. 
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libraryirgdal) 

libraryimaptools) 

library(gagplotz2) 

libraryiplyr) 

library(RColorBrewer) 

#on lit le fichier *.shp 

ch <- readOGR("C:/tmp",layer="CHE adml") 
OGR data source with driver: ESRI Shapefile 
Source: "C:/tmp", layer: "CHE _adm1i" 
with 26 features and 9 fields 


Feature type: wkbPolygon with 2 dimensions 

> # convertit les données en data frame 

> suisse.ggmap<-fortify(ch, "NAME 1") 

Regions defined for each Polygons 

> # pour avoir les bon accents sur des noms comme Zürich 

> é 
> 
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> # jeux de données factice qui peut tout aussi bien provenir d'un *.csv externe 
> n<-lengthiunique(suisse.gomap$id)j:n 
[1] 26 
> taux<-sample(1:100,size=n,replace=TRUE);:taux 
[1] 30 6 99 94 26 81 39 24 2 40 20 12 92 11 69 93 64 35 26 67 94 70 43 82 50 60 
> inscrit<-sample (2000:30000,size= n,replace=TRUE) 
> suisse.emploi<-data.frame (canton=unique (suisse.ggmapfid) ,emploi=taux,inscrit=inscrit);:suisse.emploi 
canton emploi inscrit 


L (a) 30 20530 
2 1 6 10533 
3 2 99 14125 
4 3 94 15985 
5 4 28 25324 
6 5 81 5896 
7 6 39 14549 
8 7 24 5213 
9 8 2 2305 
10 9 40 23986 
TL 10 20 18271 
12 11 12 7052 
13 12 92 5520 
14 13 1 11752 
15 14 69 24142 
16 15 93 16150 
17 16 64 13181 
15 17 35 8396 
19 18 26 13361 
20 14 67 3128 
21 20 94 29600 
22 21 70 8674 
23 22 43 21495 
24 23 82 26693 
25 24 50 3046 
26 25 60 4466 
> | 

« L 


On fait quelques préparatifs sur les données: 


> # on fusionne les deux bases 

> suisse.fusion <- merge(suisse.ggmap, suisse.emploi, by.x = "id", by.y = "canton') 
> # on reordonne 

> suisse.fusion <- suisse.fusion[order (suisse.fusion$order), ] 

> 


> # et on prépare des points sur le centre des cantons 

> mid range<-function(x] {mean(range(x,na.rm=TRUE))j} 

> centre.canton<-ddply(suisse.fusion,.(idj ,colwise(mid range,.(lat,long))) 
> | 


Et on trace en cumulant presque tout le savoir cumulé jusqu'ici concernant les cartes: 
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> 
> 
+ 
+ 
+ 
> 
> 
> 
+ 
> 
> 
> 
> 
+ 
+ 
+ 
+ 
> | 
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# maintenant on peut dessiner 

ggpiot (suisse.fusion, aes(long,lat)) + 

geom polygon(aes (group=group,fill=emploi) ,colour="grey60",size=.3) + 

geom_ point (data=centre.canton,aes(size=inscrit) ,colour="purple",alpha=.7) + 

scale fill continuous(name = "taux en $",low="white",high="steelblue")+coord map) 


# on peut discretiser la variable taux aussi : 
suisse.fusion<-mutate (suisse.fusion, taux discr = cut (emploi,breaks=c(0,10,20,30, 40, 50, 60, 70,80, 90,100), 
labels=c("<10","10-20","20-30","30-40", "40-50", "50-60" ,"60-70", "70-80", "80-90", "90>") ,right=FALSE)) 


#utilisation de RColorBrewer, on retrouve le nombre de sectionnement du pourcentage=9 
couleur <- brewer.pal(10, "“Spectral") 

ggplot (suisse.fusion, aes(long, lat))+ 

geom_ polygon(aes(group=group, fill = taux discr),colour="greyé0",size=.3) + 

geom point (data = centre.canton, aes(size = inscrit),colour ="purple",alpha=.7) + 
scale fill manual(name = "taux en *", values = couleur) + 

coord map () 


Ce qui donne au final: 


inscrit 
+ 10000 
© 20000 


taux en % 
20-30 
30-40 


40-50 
50-60 
60-70 
70-80 
80-90 
90> 


Figure 198 Graph Map (Suisse) avec zones et disques (ggplot) 
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Avec le package plotK ML et un fichier *.gpx généré par les GPS (ou tout autre appareil 
emportant cette technologie) nous pouvons tracer le chemin parcouru par un élément mobile. 


Nous partons du code XML suivant (fichier GPS_path.gpx): 


EE GPS_path.gp* | 


xml version="1.0" encoding="UTF-8" 


2 HEj<gpx version="1.0"> 

3 <name>Example gpx</name> 

4 <wupt lat="46.57638889" lon="8.89263889"> 

= <ele>2372</ele> 

6 <name>LAGORETICO</name> 

7 É <{wupt> 

8 <trk><name>-Example gpx</name><number>1</number><trkseg> 

9 <trkpt lat="46.57608333" lon="8.89241667"><ele>2376</ele><time>2007-10-14T10:09:57Z</time></trkpt> 
10 <trkpt lat="46.57619444" lon="8.89252778"><ele>2375</ele><time>2007-10-14T10:10:52Z</time></trkpt> 
LL <trkpt lat="46.57641667" lon="8.89266667"><ele>-2372</ele><time>-2007-10-14T10:12:39Z</time></trkpt> 
12 <trkpt lat="46.57650000" lon="8.89280556"><ele>2373</ele><time>-2007-10-14T10:13:12Z</time></trkpt> 
13 <trkpt lat="46.57638889" lon="8.89302778"><ele>2374</ele><time>2007-10-14T10:13:20Z</time></trkpt> 
14 <trkpt lat="46.57652778" lon="8.89322222"><ele>2375</ele><time>2007-10-14T10:13:482Z</time></trkpt> 
st <trkpt lat="46.57661111" lon="8.89344444"><ele>2376</ele><time>2007-10-14T10:14:08Z</time></trkpt> 
16 É <{trkseg></trk> 


117 L</gpx> 


Ensuite, nous écrivons le code suivant dans R utilisant la commande readGPX() du package 
plotK ML et la fonction get_googlmap( ) et ggmap( ) du package. ggmap: 


> setwd{"C:/tmp"}) 
> LON LiT<-get map(location=c(lon-8.6892638689, lat=46.5763889),zoom-8) FT. 
Map from URL : http://maps.googleapis.com/maps/api/staticmap?center=46.576389,8.6892639€zoom-8esiz$ 
Google Maps API Terms of Service : http://developers.google.com/maps/terms 
> files<-dir (pattern="GPS path.gpx") 
index<-ci):latitude<-cij:longitude<-ci) 
for {i in l:lengthi(ifiles))j{ 
route<-readGPX(files[i]) 
location<-routeftracks[[1]][([1]] 
index<-ciindex,repii, dim(location)[1])) 
latitude<-cilatitude, locationé$lat) 
longitude<-cilongitude, location$lon) 
} 
routes<-data.frame(chind(longitude, latitude));routes 
longitude latitude 
8.892417 46.57608 
-892528 46.57619 
.-892667 46.57642 
.-892806 46.57650 
-893028 46.57639 
.893222 46.57653 
.-893444 46.57661 
map<-get _googlemap(center=c(8.69263689,46.57636689),zoom-16,markers=routes,path=routes,scale=2) 
Map from URL : http://maps.googleapis.com/maps/api/staticmap?center-=46.576389,8.892639ezoom-16esi$ 
Google Maps API Terms of Service : http://developers.google.com/maps/terms 
> gomap (map) 
> = 


V++++++VY 
nl 


© © © © © 


VIJnn bon h 
co 


« | ur | 0 


Ce qui donne (attention suite à un abus des utilisateurs Google peut exiger la création 
d'une clé api, la procédure est facile à suivre le cas échéant! ): 
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CH elle 
5 


Figure 199 Graph Google Maps avec trajectoire GPS 


Voyons maintenant un package sympathique nommé leaflet qui génère une page web html 
locale interactive utilisant Google Map. Voici un exemple pris du site de l'équipe de 
développement qui suffit à en montrer un aperçu du potentiel: 


R RGui (64-bit} - [R Console] . (| X 
R File Edit View Misc Packages Windows Help x 


BROSSE) 


library(leaflet) 

m <- leaflet({) 

rm <- addTiles (m) 

rm <- addMarkers(m, lng=174.768, lat=-36.852, popup="The birthplace of R'") 
rû 
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Ce qui donne: 
Sctenure Evo... 


ABP 


M Other bookmarks 


Auckland Central 


- À 


S1 on a une adresse internet avec une icône (une petite image), nous pouvons choisir le logo à 
mettre sur la carte: 


RGui {64-bit) - [R Console] D 


R File Edit View Misc Packages Windows Help -_& Xx| 
@l | 
CS 


> library(leaflet) 

> fileUrl <- "http://www.graphicsfuel.com/wp-content/uploads/2012/09/emoticon-happy.png" 
> download.file(fileUrl,"radar.png", mode = 'wb') 

trying URL 'http://www.graphicsfuel.com/wp-content/uploads/2012/09/emoticon-happy.png' 
Content type 'image/png' length 66448 bytes (64 KB) 

downloaded 64 KB 


RadarICON <- makelcon( iconUrl = fileUrl, iconWidth = 40, iconHeight = 40) 

m <- leafleti) 

m <- addTiles(m) 

rm <- addMarkers(m, 1lng=174.768, lat=-36.852,icon = RadarICON, popup="The birthplace of R'") 
ru 


VYNNY 
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Scientific Evo... 


B indexhtml 


DL file///C:/Users/Vincent#20lsoz/AppData/Local/Temp/RtmpC4 <!e ? . EL 


ther bookmarks 


U.. ] E6web à. #8 Install anc nf. 


= ee > D 4 VAT fous) É = eme Ÿ 
| EM: NEA, / / EST 


Figure 200 Graph Google Maps avec icônes et légendes 


ou Encore: 
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R RGuï (64-bit) - [R Console] 
ŒR File Edit View Misc Packages Windows Help 


ÉGOBSESIOIE) 


> library(rgdal) 
> library(leaflet) 
> 
> download.file(file.path('http://www.naturalearthdata.com/http/!, 
‘WwwW.naturalearthdata.com/download/50m/cultural', 
"ne _ 50m admin 0 countries.zip'), 
£ <- tempfile()) 
trying URL ‘http://www.naturalearthdata.com/http//www.naturalearthdata.com/download/50m/cultural/ne $ 
Content type "'application/x-zip-compressed' length 817686 bytes (798 KB) 
downloaded 798 KB 


> unzip(f, exdir=tempdir()) 
> 
> world <- readOGR(tempdir(), "ne 50m admin 0 countries', encoding="UTF-8") 


OGR data source with driver: ESRI Shapefile 

Source: "C:\Users\VINCEN-1\AppData\Local\Temp\RtmpWcm20F", layer: "ne 50m admin O0 countries" 
with 241 features 

It has 63 fields 


commonwealth <- c("Antiqgua and Barb.", "Australia", "Bahamas", "Bangladesh", 
"Barbados", "Belize", "Botswana", "Brunei", "Cameroon", "Canada", "Cyprus", 
"Dominica", "Fiji", "Ghana", "Grenada", "Guyana", "India", "Jamaica", "Kenya", 
"Kiribati", "Lesotho", "Malawi", "Malaysia", "Maldives", "Malta", "Mauritius", 
"Mozambique", "Namibia", "Nauru", "New Zealand", "Nigeria", "Pakistan", "Papua 
New Guinea", "Rwanda", "St. Kitts and Nevis", "Saint Lucia", "St. Vin. and 
Gren.", "Samoa", "Seychelles", "Sierra Leone", "Singapore", "Solomon Is.", 
"South Africa", "Sri Lanka", "Swaziland", "Tanzania", "Tonga", "Irinidad and 
Tobago", "Tuvalu", "Uganda", "United Kingdom", "Vanuatu", "Zamibia") 


leaflet() %>% addTiles() %>% 
addPolygons (data=subset (world, name tint commonwealth}, weight=2,fillOpacity = 0.5,color="red")| 


ANNEE VV 


Ce qui donne: 


Ü | file:///C:/Users/Vincent%20lsoz/AppData/Local/Temp/RtmpWcm20F/viewhtml1d8c1c8763c8/index.html 


Leaflet | © OpenStreetMap contributors, CC-BY-SA 
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Pavage de sphère et statistiques 


Le type de diagrammes que nous allons voici ici nécessite à ce jour Linux. Les exemples 
exécutés ci-dessous ont été fait sous Scientific Linux 7.3 avec R 3.4.1: 


* Applications * Places EE minat 4 Fri 4 Aug, 12:24:51 4) À + 


root@localhost:" 


File Edit View Search Terminal Help 
[root@localhost -]# R 
Network Servers 
R version 3.4.1 (2017-06-30) -- "Single Candle" 
Copyright (C) 2017 The R Foundation for Statistical Computing 
le >] Platform: x86_64-redhat-Linux-gnu (64-bit) 
lu 


R is free software and comes with ABSOLUTELY NO WARRANTY. 
Trash You are welcome to redistribute it under certain conditions. 
Type ‘license()' or ‘licence()' for distribution details. 
Las Natural language support but running in an English locale 
blender-2/75a Aptana=Studio-3 


Type ‘demo()' for some demos, ‘'help()' for on-line help, or 
eclipseJEE eclipseGPP "hetp.start()' for an HTML browser interface to help. 
Type ‘q()' to quit R. 


Los "1 


EciprepaP) SCilabe 55/2 


R is a collaborative project with many contributors. 
Type ‘'contributors()' for more information and 
‘citation()' on how to cite R or R packages in publications. 


SALOME=y/8/0> 
OPENSOURCGE= 
co7.2 


[En sootgiccathost:- 1/4 


Avant de pouvoir exécuter les commandes ci-dessous il va vous falloir installer les 
composants suivant dans Scientific Linux: 


yum install gdal gdal-devel 
yum install proj 

yum install proj-devel 
yum install proj-nad 

yum install proj-epsg 


et après seulement on peut installer et charger le package de base nécessaire pour la suite 
qu'est rgdal: 
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root@localhost:" 


File Edit View Search Terminal Help 


>[install.packages("rgdal") 


Installing package into ‘/usr/1ib64/R/library’ 

(as ‘lib’ is unspecified) 

trying URL ‘https://cloud.r-project.org/src/contrib/rgdal 1.2-8.tar.gz' 
Content type ‘'application/x-gzip' length 1655258 bytes (1.6 MB) 


downloaded 1.6 MB 


* installing *source* package ‘rgdal’” ... 

** package ‘“rgdal’ successfully unpacked and MD5 sums checked 
configure: CC: gcc -m64 -std=gnu99 

configure: CXX: g++ -m64 

configure: rgdal: 1.2-7 

checking for /usr/bin/svnversion... yes 

configure: svn revision: 663 

checking for gdal-config... /bin/gdal-config 

checking gdal-config usability... yes 

configure: GDAL: 1.11.4 

checking GDAL version >= 1.6.3... yes 

checking for gcc... gcc -m64 -std=gnu99 

checking whether the C compiler works... yes 

checking for C compiler default output file name... a.out 
checking for suffix of executables... 

checking whether we are cross compiling... no 

checking for suffix of object files... o 

checking whether we are using the GNU C compiler... yes 
checking whether gcc -m64 -std=gnu99 accepts -g... yes 
checking for gcc -m64 -std=gnu99 option to accept ISO C89... none needed 
checking how to run the C preprocessor... gcc -m64 -std=gnu99 -E 
checking for grep that handles long lines and -e... /bin/grep 
checking for egrep... /bin/grep -E 

checking for ANSI C header files... yes 

checking for sys/types.h... yes 

checking for sys/stat.h... yes 

checking for stdlib.h... yes 


Ensuite seulement on peut installer le package dggridR: 
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admin@localhost:" 


File Edit View Search Terminal Help 


>[install .packages("dggridR") 

Installing package into ome/admin/R/x86_64-redhat-Linux-gnu-library/3.4? 
(as ‘lib’ is unspecified) 

--- Please select a CRAN mirror for use in this session --- 

trying URL ‘'https://cloud.r-project.org/src/contrib/dggridR 1.0.1.tar.gz' 
Content type ‘'application/x-gzip' length 2175240 bytes (2.1 MB) 


* installing *source* package ‘dggridR’' ... 

** package “dggridR’ successfully unpacked and MD5 sums checked 

** Tibs 

make[1]: Entering directory ‘/tmp/RtmpCYW05m/R.INSTALL17261669e939/dggridR/src/l 
ib/shapelib-1.3.0' 

gcc -m64 -std=gnu99 -02 -g -pipe -Wall -Wp,-D FORTIFY SOURCE=2 -fexceptions -fst 
ack-protector-strong --param=ssp-buffer-size=4 -grecord-gcc-switches -m64 -mtu 
ne=generic -fpic -c shpopen.c 

gcc -m64 -std=gnu99 -02 -g -pipe -Wall -Wp,-D FORTIFY SOURCE=2 -fexceptions -fst 
ack-protector-strong --param=ssp-buffer-size=4 -grecord-gcc-switches -m64 -mtu 
ne=generic -fpic -c dbfopen.c 

gcc -m64 -std=gnu99 -02 -g -pipe -Wall -Wp,-D FORTIFY SOURCE=2 -fexceptions -fst 
ack-protector-strong --param=ssp-buffer-size=4 -grecord-gcc-switches -m64 -mtu 
ne=generic -fpic -c safileio.c 

gcc -m64 -std=gnu99 -02 -g -pipe -Wall -Wp,-D FORTIFY SOURCE=2 -fexceptions -fst 


et le package dplyr: 


admin@localhost:" = [=] x 


File Edit View Search Terminal Help 

> [Enstaut «packages ("aplyr”) 

Instalting package into ome/admin/R/x86 64-redhat-linux-gnu-library/3.4? 
(as “lib” is unspecified) 

trying URL ‘'https://cloud.r-project.org/src/contrib/dplyr 0.7.2.tar.gz' 
Content type ‘application/x-gzip' length 692952 bytes (676 KB) 


downloaded 676 KB 


* installing *source* package ‘dplyr’ ... 

** package ‘“dplyr’ successfully unpacked and MD5 sums checked 

** libs 

g++ -m64 -I/usr/include/R -DNDEBUG -I../inst/include -DCOMPILING DPLYR -DBOOST_ 
NO_INT64 T -DBOOST NO INTEGRAL_INT64 T -DBOOST NO LONG LONG -DRCPP USING UTF8 ER 
ROR STRING -I'"/home/admin/R/x86 64-redhat-linux-gnu-library/3.4/Rcpp/include" -I 
"/home/admin/R/x86 64-redhat-linux-gnu-library/3.4/BH/include" -I"/home/admin/R/ 
x86_64-redhat-linux-gnu-library/3.4/bindrcpp/include" -I1"/home/admin/R/x86 64-re 
dhat-linux-gnu-library/3.4/plogr/include" -I/usr/local/include -fpic -02 -g - 
pipe -Wall -Wp,-D FORTIFY SOURCE=2 -fexceptions -fstack-protector-strong --param 
=ssp-buffer-size=4 -grecord-gcc-switches -m64 -mtune=generic -c RcppExports.c 
pp -o RcppExports.o 


Assurez-vous d'installer aussi le package maps: 
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admin@localhost:" 


File Edit View Search Terminal Help 

> 

Installing package into ome/admin/R/x86 _64-redhat-linux-gnu-library/3.4? 
(as ‘lib’ is unspecified) 

trying URL ‘'https://cloud.r-project.org/src/contrib/maps 3.2.0.tar.gz' 
Content type ‘'application/x-gzip' length 2343919 bytes (2.2 MB) 


downloaded 2.2 MB 


* installing *source* package ‘maps’ ... 

** package ‘maps’ successfully unpacked and MD5 sums checked 

checking for gawk... gawk 

configure: creating ./config.status 

config.status: creating src/Makefile 

** Tibs 

** arch - 

gcc -m64 -std=gnu99 -I/usr/include/R -DNDEBUG -]/usr/local/include -fpic - 

02 -g -pipe -Wall -Wp,-D FORTIFY SOURCE=2 -fexceptions -fstack-protector-strong 
--param=ssp-buffer-size=4 -grecord-gcc-switches -m64 -mtune=generic -c init 
.C -o init.o fl 

gcc -m64 -std=gnu99 -I/usr/include/R -DNDEBUG -]/usr/local/include -fpic -{ 

02 -g -pipe -Wall -Wp,-D FORTIFY SOURCE=2 -fexceptions -fstack-protector-strong 
--param=ssp-buffer-size=4 -grecord-gcc-switches -m64 -mtune=generic -c mapc 


Ensuite, assurez-vous de lancer une mise à jour des packages: 


admin@localhost:" 


File Edit View Search Terminal Help 


> update.packages()E 


À terminer. 
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Topographie Marine 


Nous allons voir ici qu'il existe un package spécifique pour la topologie Marine ce qui peut 
être utile pour l'industrie de la pêche, le recensement d'animaux marins, le traçage GPS ou 
l'exploration pétrolière. 


L'idée consiste à utiliser le package marmap, les commandes sont assez intuitives pour ne 
pas avoir à être explicitées: 


R RGui (64-bit) - [R Console] — O X 
R File Edit View Misc Packages Windows Help ALLIE: 


EAOSGSIOE 


> library (marmap) 

> library(ggplot2) 

> 

> blues <- c("lightsteelblue4", "lightsteelblue3", "lightsteelblue2", "lightsteelbluel") 
> greys <- c(grey(0.6), grey(0.93), grey(0.99)) 

> 

> dat <- getNOAA.bathy(-50,50,0,75,res=4, keep=TRUE) 

File already exists ; loading "marmap coord -50;:0;:50;75 res 4.csv'> 

> # Plot bathy object using custom ggplot2 functions 

> autoplot (dat, geom=c("r", "c")) + scale fill etopo()| 


Ce qui donne: S 


R Gui (64-bit) - [R Graphics Device 2 (ACTIVE)] = 9 
R fie History Resise Windows -_#x 


SISE 


50 25 9 25 


Figure 201 Graph de topographie marine 


Attention!!! Le téléchargement des cartes depuis la National Oceanic And Atmospheric 
Administration: 
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n\ NATIONAL OCEANIC AND 
1 À ATMOSPHERIC ADMINISTRATION 
= UNITEG STATES DEPARTMENT OF COMMERCE 


» About NOAA  »Contacts » Staff Directory» Help 


Weathergov Forecast 


» Working With Us 


> Media & Consituents NOAA.gov 


H î FROM THE NEWSROOM 
ÿ NORA In Your Site ischarting a 
» New action plans outline recovery efforts for eight 
» Budget information new course. & “Species in the Spotlight" 
» Emergency Information » Applications for $9 million in community-based 
for NOAA Employee: habitat restoration projects now being accepted 
Weather-Ready Nation » Unprecedented research efforts underway to 
discover how El Niño affects weather 


» Federal agencies propose creating U.S. seafood 
traceability program 


Keep us on your radar, and check back soon » Six community resilience grants announced 
È totaling $4.5 million 


GET OUR WALLPAPER AND POSTER 
IN THE SPOTLIGHT 


» Heavy rain, mountain snow continue across Pacific Northwest 
» January was warmer and drier than average for contiguous U.S. 


» November and yearto-date 2015 were warmest on record for 
globe 


STAY CONNECTED 


v E à © ? 


See our list of NOAA social media and mobile sites 


NOAA Mobile | Protecting Your Privacy | FOIA | Information Quaïity | Disclaimer | USA.gov | Ready.gov | Site Map | Contact Webmaster 


en local peut prendre beauuuuucoup de temps suivant les latitudes et longitudes choisies. 
ToDo: Représenter un point sur la carte, relier des points entre eux. 


Nous pouvons aussi représenter la planète entière: 


R RGui (64-bit) - [R Console] ss 0 X 
R File Edit View Misc Packages Windows Help _- #8 x 


Bla] ells| | 


> library(marmap) 

> # Get data for the whole world. Careful: ca. 21 Mo! 

> world <- getNOAA.bathy(-180, 180, -90, 90, res = 15, keep = TRUE) 
File already exists ; loading "marmap coord -180;:-90;:180;90 res 15.csv'> # Switch to raster 
> world.ras <- marmap::as.raster (world) 

> # Set the projection and project 

> my.proj <- “+proj=ortho +lat_0=0 +lon 0=50 +x O=0 +y 0=0" 

> world.ras.proi <- projectRaster(world.ras,crs = my.proj) 

Warning messages: 

1: In rgdal::rawTransform(projfrom, projto, nrow(xy), xy{, 1], xyi, 
354 projected point (s) not finite 

In rgdal::rawTransform(projto int, projfrom, nrow(xy), xy{, 1], 
83652 projected point (s) not finite 

# Switch back to a bathy object 

world.proj <- as.bathy(world.ras.proj) 

# Set colors for oceans and land masses 

blues <- c("lightsteelblue4", "lightsteelblue3", 
“lightsteelblue2", "lightsteelblue1") 

greys <- c(grey(0.6), grey(0.93), grey(0.99)) 

plot (world.proj, image = TRUE, land = TRUE, lwd = 0.05, 

bpal = list(c(0, max(world.proj, na.rm = T}), greys), 
c(min(world.proj, na.rm = T), 0, blues)), 

axes = FALSE, xlab = “", ylab = "") 

pilot (world.proj, n = 1, lwd = 0.4, add = TRUE) 


B 


Le] 


NES NNENNNY 


ToDo: Tourner la Terre, Enlever les courbes. 
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Cartogrammes 


Les cartogrammes (choroplèthe) sont des cartes géographiques qui montrent non seulement 
l'amplitude d'une donnée via sa couleur mais également son poids via la taille déformée de la 
zone géographique correspondante. 


Cartogrammes contigus 


Pour faire un tel graphique, nous allons devoir installer le package topogRam qui est basé sur 
D3.js et qui peut à ce jour être installé que depuis GitHub (mais attention!!! Sous Microsoft 
Windows, l'installation se passe souvent mal si le compte utilisateur contient des 
espaces!). Voyons cela en l'installant d'abord: 


| GR File Edit View Misc Packages Windows Help _# x 


|> library("devtools") 

> install github("pvictor/topogRam") 

Downloading GitHub repo pvictor/topogRam@master 

| from URL https://api.github.com/repos/pvictor/topogRam/zipball/master 

| Installing topogRam 

| "C:/PROGRA-1/R/R-35-1.0/bin/x64/R" --no-site-file --no-environ --no-save --no-resto$ 
| Isoz/AppData/Local/Temp/RtmpuEVgSj/devtools428439a75744/pvictor-topogRam-4773202"S 
—--install-tests 


| * installing *source* package 'topogRam' 
*x R 
** data 
| *** moving datasets to lazyload DB 
** inst 
** byte-compile and prepare package for lazy loading 
** help 
| *** installing help indices 
converting help for package 'topogRam' 


finding HTML links ... done 

frRegPop html 
topogRam-shiny html 
topogRam html 


** building package indices 
| #* testing if installed package can be loaded 
| *** arch - 1386 

***x arch - x64 

* DONE (topogRam) 

S 4 CMD INSTALL 

> 


1< > 


Ensuite nous faisons un exemple de démonstration avec la fonction topogRam ) : 
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R ( 
R File Edit View Misc Packages Windows Help 


EEE 


library("RColorBrewer") 
library ("topogRam") 
topogRam ( 
data = frRegPop, 
key_var = "P13 POP", 
geo_lab = "region", 
colors = c("#FEEOD2", "#FC9272", "#DE2D26") 


VH++++V VV 


Ce qui donnera dans un navigateur: 


(À index.html x 


(MAR © file///C/User… + ». EE : ) à CRE ; | 


Favoris Sciences.ch Scientific-Evolutior #3 Google Traduction ÆS jQuery Tutorial 53 CFA Level 2 Marke 


_ Île-de-France : 11,959,807 


Figure 202 Graph de type cartogramme 


Voici pour information ce que contient le jeu de données frRegPop: 
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R RGui (64-bit) - [R Console] _ 
GR File Edit View Misc Packages Windows Help | # 2% 
SOS 
ñ 

> frRegPop 

id region P13 POP C13 POP15SP CSi C13 POP15P CSS 
1 11 Île-de-France 11959807 6075 29299$ 
2 21 Champagne-Ardenne 1339008 19834 32275S 
3 22 Picardie 1927142 12942 43815S 
4 23 Haute-Normandie 1849652 9297 44015S 
5 24 Centre 2570548 22528 6768$S 
6 25 Basse-Normandie 1478712 19288 44165 
7 26 Bourgogne 1642687 20702 47335$S 
8 31 Nord-Pas-de-Calais 4060741 14647 8159$ 
9 41 Lorraine 2345197 11851 5355$ 
10 42 Alsace 1868183 6727 44345 
11 43 Franche-Comté 1177096 9729 30095 
12 52 Pays de la Loire 3660852 41011 9788$ 
13 53 Bretagne 3258707 39023 34005 
14 54 Poitou-Charentes 1789779 24588 5559$ 
15 72 Aquitaine 3316889 34220 114925 
16 73 Midi-Pyrénées 2954157 39815 9928$S 
17 74 Limousin 737509 13600 2196$ 
18 82 Rhône-Alpes 6399927 34040 20091$ 
19 83 Auvergne 1357668 22982 42015S 
20 91 Languedoc-Roussillon 2729721 23231 9982S 
21 93 Provence-Alpes-Côte d'Azur 4953675 18420 18158$S 
22 94 Corse 320208 2741 1471S 

c13 POP15P CS8 
1 1660825 
2 178748 
3 260826 
+ 235810 
5 282176 
6 168773 
7 189510 
8 666832 
9 341050 
10 243406 
11 141813 
12 394227 
13 380459 
14 196584 

v 

< > 


Sinon, sans passer par une page web, nous pouvons utiliser les packages maptools, 
cartogram et tmap avec principalement les fonction cartogrami( ), tm_shape ), 
tm_polyongs( ) et tm_layout( ): 
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R RGui (64-bit) - [R Console] = 


GR File Edit View Misc Packages Windows Help #4 x 


#Obtenir le fichier de formes d'afrique 

library ("maptools") 

data(wrld simpl) 

#on construit un object de type SpatialPolygonsDataFrame 
afr<-wrld simpl{wrld simplSREGION==2, ] 


#On utilise maintenant le package cartogramme 
library("cartogram") 

library("tmap") 

#On constuit un objet cartogramme pour l'année 2005 
afr_cartogram <- cartogram(afr, "POP2005", itermax=s5) 


VMVMVNVNNVNNVNNVNNVNNVNNNNV 


Please use cartogram cont() instead of cartogram(). 


Mean size error for iteration 1: 5.6404768550094 
Mean size error for iteration 2: 4.87548341597562 
Mean size error for iteration 3: 4.2957559742443 
Mean size error for iteration 4: 3.84621505103989 
Mean size error for iteration S: 3.49478200682353 
There were 12 warnings (use warnings() to see them) 


fet on visualise le cartogramme classique correspondant 
tm shape(afr cartogram ) + tm polygons ("POP2005", style = "jenks") + 
tm layout (frame = FALSE) 


V+VVV 


La difficulté majeure est en réalité de créer ou modifier les objets de type 
SpatialPolyongDataFrame. Le script ci-dessous donnera: 


le x 


À Graphics: Device 2 (ACTIVE) ts yten(s)) 


POP2005 


© min to 6 min 
6 min to 21 min 
21 min to 48 min 
48 min to 79 min 
79 min to 141 min 


R Statistical Software 1157/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Cartogrammes non-contigus 


Alors voici un type de Cartogramme que je n'ai jamais vu de ma vie être utilisé par mes 
clients: 


FH 


@R R Console =] bd 


> afr ncont <- cartogram ncont(afr, "POP2005") 

> tm shape(afr) + tm borders() + 

+ tm shape(afr ncont) + tm polygons("POP2005", style = "jenks") + 
- tm layout (frame = FALSE, legend.position = c("left", "bottom")) 
> 


me Graphics: Device 2 (ACTIVE) ) [e (& | 


POP2005 


© min to 6 min 
6 min to 21 min 
21 min to 48 min 
48 min to 79 min 
79 min to 141 min 


Cartogrammes de Dorling 


On peut aussi faire un cartogramme de Dorling avec la fonction cartogram_dorling( ): 
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R RGui (64-bit) - [R Console] — mn X 


ŒR File Edit View Misc Packages Windows Help -# x 


ECO 


> #Si on veut un cartogramme de Dorling, on écrira: 

> afr_ dorling <- cartogram dorling(afr, "“POP2005") 

dist is assumed to be in decimal degrees (arc degrees). 

Warning messages: 

1: Using an unprojected map. Converting to equal area is recommended 

2: In st _ centroid.sfc(sf::st geometry(x)) : 
st_centroid does not give correct centroids for longitude/latitude data 

3: In st buffer.sfc(st geometry(x), dist, nQuadSegs, endCapStyle = endCapStyle, : 
st_buffer does not correctly buffer longitude/latitude data 


> 

> fet on visualise! 

> tm shape(afr) + tm borders() + 

+ tm_ shape (afr dorling) + tm polygons("POP2005", style = "jenks") + 

+ tm layout (frame = FALSE) 

>| 

< > 


POP2005 


0 min to 6 min 
6 min to 21 min 
21 min to 48 min 
48 min to 79 min 
79 min to 141 min 


R Statistical Software 1159/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Diagrammes de Voronoï 


Nous allons voici ici un diagramme sorti du contexte des SIG (car il ne s'applique pas 
seulement à ce domaine!). Perso je n'en ai jamais eu besoin à titre professionnel mais un 
contact sur LinkedIn me l'a demandé. Donc voici comment faire un diagramme de Voronoi 
avec le package ggvoronoi et son paramètre stat_voronoi( ): 


le x 


R SEE) 
> library(ggvoronoi) 
> set.seed(0) 
> x <-— sample(1:200,100) 
> y <- sample(1:200,100) 
> points <- data.frame(x, y, 
+ distance = sqgrt((x-100)*2 + (y-100)”2)) 
> circle <- data.frame(x = 100*(1+cos(seq(0, 2*pi, length.out = 2500))), 
+ y = 100*(1+sin(seqg(0, 2*pi, length.out = 2500))), 
+ group = rep(1,2500)) 
> 
> 
> ggplot (points,aes(x,y))+stat _voronoi (geom="path")+geom point () 
>| 
R 
200 - 
150- 
#100- 


0 50 100 150 200 


Ceux qui veulent en savoir plus pourront se rendre sur la vignette du package: 


https://cran.r-project.org/web/packages/sevoronoi/vignettes/ssvoronoiïi.html 


Sinon pour ceux qui souhaitent faire des diagrammes de Voronoi circulaires, nous avec le 
package voronoïiTreemap : 
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qui donnera: 


File Edit View Misc Packages Windows Help 

> library("voronoiTreemap") 
> d£f <- data.frame(country = c("Ukraine", "Russia", "Argentina", "China","Romania", 
+ prod = c(11.0, 10.6, 3.1, 2.4, 2.1, 15.3)) 
> (vor <- data.frame(hl = "World, 
+ h2 = c('Europe', ‘Europe', 'Americas', 'Asia', 
- ‘Europe’, 'Other'}), 
_ h3 = df$country, 
- color = hcl.colors(nrow(df), palette = "TealRose'}), 
+ weight = df$prod, 
_ codes = df$country)) 

h1 h2 h3 color weight codes 
1 World Europe Ukraine #009593 11.0 Ukraine 
2 World Europe Russia +#8AB49B 10.6 Russia 
3 World Americas Argentina *#CED7BA 3.1 Argentina 
4 World Asia China #E4D1B3 2.4 China 
5 World Europe Romania #D79D86 2} Romania 
6 World Other Other #D35C79 1553 Other 
> (vt <- vt_input from df(vor)) 

levelName 

1 World 
2 --Europe 
3 - :--Ukraine 
4 . --Russia 
5 : °--Romania 
6 --Americas 
7 ; °--Argentina 
8 i--Asia 
ga : °--China 
10 ‘°--Other 
11 °--Other 
> D 
> 


“Other"), 
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Chemins (analyse qualitative de flux) 


Le but de cet exemple est de montrer comment il est possible de représenter élégamment les 
trajectoires (chemins) parcourus par un ensemble d'entités mobiles (migrations, transports, 
analyse de flux) pendant une période de temps donnée, dans une région donnée. 


Nous avons les données suivantes de lieu de domicile et de travail d'individus incluant 
différentes colonnes avec les moyens de transport (uniquement les trois premières colonnes 
vont nous intéresser): 


À B C 
Area ofusual Area of Al categones: ‘Work mainly at Underground, metro, . Bus, minibus . Other method of 
I] residence  workplace Method oftravel or from home light rail, tram TE orcoach "7 travelto work 

E02000001 E02000001 1506 7 
£ME02000001 E02000014 2 
CMIE02000001 E02000016 
SME02000001 E02000025 
EME02000001 E02000028 
E02000001 E02000051 
EME02000001 E02000053 
EMIE02000001 E02000057 
1MME02000001 E02000058 
1BME02000001 E02000059 
1PE02000001 E02000061 
1&NE02000001 E02000078 
JÉMEO2000001 E02000094 
IBNE02000001 E02000100 
IME02000001 E02000104 
IMME02000001 E02000114 
IEME02000001 E02000119 
1FMNE02000001 E02000121 
2AME02000001 E02000124 


F10 F11 F12 F13 Fi4 
8 


EU 


00000001 O000000mMmOOm 


33 1304 
0 


919019191910 /101/101/101010101/101/101/01/1S1IS1S10S 
O0mMmMmmNOOOOOMNmMmOOmMNU 
S0O000000O0mO0O0O0O0O0OOC © W% 
01010190101901/1010101010101010/0101010 I 
0101011010 1010/1010101010101/010/10/010|Ih 


1 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 


mm N mm mem nm nm NN mm mi 
010101010101010101010101010101)I0IND/I0 
9190101010/10/0/0/10101010101/10 m/01010 
m010101010101/1010101010101/01/01/01I10 
019190191919 /m101010|-10101)101S1S1S1S 


NS 
L 

: ee RŸ ÿ RP = 
Nous chargeons les packages nécessaires (déj**connus) et les données d'intérêt (3 premières 


colonnes): 


library(plyr) 

library(ggplotz) 

library (maptools) 

input<-read.table("C:/tmp/WorkingPath.csv", sep=",", header=T) 


#Nous avons seulement besoin des 3 premières colonnes 
#Déplacements des gens allant au travail 

input<- input[,1:3] 

names (input)<- ci"origin", "destination","total"] 


| N 


7 
> 
> 
> 
7 
7 
> 
> 
> 
> 


Un petit aperçu du dataset: 


R Statistical Software 1163/3133 


Vincent ISOZ, Daname KOLANI 


Sciences.ch 


head(input) 


origin destination total 


E0Z2000001 
E02000001 
E0Z2000001 


E02000001 
E02000001 


E02000001 
E02000014 
E02000016 
E0Z2000025 
E02000028 
E0Z2000051 


1506 
2 


HH H & 


1 
2 
3 
4 E0Z2000001 
5 
6 
> 


Le problème c'est que ce dernier fichier ne contient pas les coordonnées des villes/communes 


correspondant aux codes de zones. Pour cela nous allons utiliser le fichier suivant: 


0 EI CON LIEN) Es" LEA IEC 


E02000010 
E02000011 


11E02000014 
SME02000015 
ME02000016 
HE02000017 
EME02000018 
SME02000019 
2ANE02000020 
EMEA oNANNNQ 


City of London 001 
Barlang and Dagenham 001 
Barking and Dagenham 002 
Barling and Dagenham 003 
Barlang and Dagenharm 004 
Barking and Dagenharm 006 
Barlang and Dagenham 007 
Barking and Dagenharm 008 
Barling and Dagenham 009 
Barlang and Dagenham 010 
Barlang and Dagenham 011 
Barling and Dagenham 012 
Barlang and Dagenham 013 
Barking and Dagenharmn 014 
Barlang and Dagenham 015 
Barking and Dagenham 016 
Barking and Dagenharm 017 
Barlang and Dagenham 018 


Barlang and Dagenham 019 


532269 
547971 
548374 
551031 
548671 
549499 
548115 
547019 
549156 
550254 
545702 
547208 
548913 
549930 
543991 
544812 
546754 
547990 


545363 
SAQsQQ 


181787 
189394 
188095 
186870 
186800 
186298 
135919 
135763 
185344 
135071 
184878 
154746 
184471 
184481 
184406 
154395 
184222 
184035 


183615 
192610 


R Statistical Software 


1164/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


et nous la chargeons aussi dans un dateset. Le tout donne jusqu'à maintenant: 


R Fichier Edition Voir Misc Packages Fenétres Aide 


Cl 


input<-read.table("C:/tmp/WorkingPath.csv", sep=",", header=T) 


#Nous avons seulement besoin des 3 premières colonnes 
#Déplacements des gens allant au travail 
input<- input[,1:3] 
names(input)<- ci"origin", "destination","total") 
head(input) 
origin destination total 
E02000001 E02000001 1506 
E02000001 E02000014 2 
E02000001 E02000016 
E02000001 E02000025 
E02000001 E02000028 
E02000001 E02000051 
dim(input) 
1] 2402201 | 


VVMNNNNY 


#Le fichier précédent n'a pas les coordonnées des codes de zones. 

#Nous allons pour cela utiliser alors un autre fichier et le mapper avec le précédent 
centroids<- read.csv("C:/tmp/WorkingCoordinates.csv") 

dimicentroids) 

1] 7201 4 


1 
PA 
3 
4 
5 
6 
> 
[ 
> 
> 
> 
> 
> 
(l 
> | 


“ 


Ensuite, nous faisons un mappage classique avec Ja fonction merge() déjà connue ce qui 
N 


donne alors: ® 
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=: RGui (64-bit) - [ 


R Fichier Edition Voir Misc Packages Fenétres Aide 


library(plyr) 

library{iggplot2) 

libraryimaptools) 

input<-read.table("C:/tmp/WorkingPath.csv", sep=",", header=T) 


#Nous avons seulement besoin des 3 premières colonnes 
#Déplacements des gens allant au travail 
input<-input[,1:3] 
names (input)<-c("origin", "destination", "total") 
head(input) 
origin destination total 
E02000001 E02000001 1506 
E02000001 E02000014 2 
E02000001 E02000016 
E02000001 E02000025 
E02000001 E02000028 
E02000001 E02000051 
dim(input) 
1] 2402201 


VVVNVNNVNNNNNY 


#Le fichier précédent n'a pas les coordonnées des codes de zones. 

#Nous allons pour cela utiliser alors un autre fichier et le mapper avec le précédent 
centroids<-read.csv("C:/tmp/WorkingCoordinates.csv") 

dimicentroids) 

1] 7201 4 


VV VVV Ve VO Oo UE © NH 


> or.xy<-merge (input ,centroids,by.x="origin",by.y="Code") 

> names(or.xy)<-c("origin","destination","trips","o name","ox","oY"] 

> dest.xy<- mergelor.xy,centroids,by.x="destination",by.y="Code") 

> names (dest.xy]<-c("origin","destination","trips","o name","ox","oY","d name","dx","dY") 

> head(dest.xy) _4 

origin destination trips o_name ox oŸ d name $ 

E02000001 E02000798 170 Richmond upon Thames 015 514437 172747 City of London 001 5$ 
E02000001 E02001213 1 Stockport 027 390741 387919 City of London 001 5$ 
E02000001 E02006841 1 Gateshead 027 426030 562803 City of London 001 5$ 


[si 


| | 0 


#Maintenant on passe à la partie tracage. D'abord on[Snlève les axes 


> 
> 
> xquiet<- scale x continuous({"", breaks=NULL) 
> yvquiet<-scale y continuous("", breaks=NULL) 
> quiet<-list(xquiet, yquiet) 

> 

> 


#Et on y va!!! 
> ggplotidest.xy{[whichidest.xy$trips>10),], aes(ox, oYŸ))+ 
+ geom segment (aes(x=0ox, y=oÿ,xend=dx, vend=-dÿ, alpha=trips], col="white")+ 
+ scale alpha continuous (range = c(0.03, 0.3)j+ 
+ sophia = element rect(fill='black',colour='hblack'))+quiet+coord equal) 
> 


Ce qui donne visuellement (après une attente certaine dépendant de la puisse de l'ordinateur 
car il y a quand même près de 2 millions de chemins/traits à dessiner). 
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R R Graphics: Device 2 (ACTIVE) bo>-][-0.)(5) 


trips 

1000 
2000 
3000 
4000 


Figure 203 Graph de flux (trajectoires) 


Reste plus qu'à exporter en PDF ou SVG pour avoir une image HD. 
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Trajet optimal (des moindres distances) 


Le package TSP contient une commande solve_TSP() qui à partir d'une matrice des 
distances permet de déterminer le trajet le plus court en distances entre de multiples points 
géographiques. 


Rappelons d'abord comment construire une matrice de distance et montrons ensuite comment 
en faire un objet TSP avec la commande TSP() et en retirer quelques informations 


FR Console =] ©] Ex 


lat<-c(27.685,29.343,23.495) 
lon<-c(46.344,46.233,46.23) 
coord<-data.frame(lat,lon) 

row.names (coord)<-c{i"Genève","Berne",'"Lausanne") 
coord 


VON OV 


lat lon 

Genève 27.685 46.344 
Berne 29.343 46.233 
Lausanne 23.495 46.230 
> #on calcule les distances euclidiennes entre chaque objet 
> dist (coord) 

Genève Berne 
Berne 1.661711 
Lausanne 4.191551 5.848001 
> #on crée un objet TSP pour le package TSP 
> library(TSP) 
> tspDist<-TSP(dist (coord)) 
> tspDist 
object of class ‘TSP’ 
3 cities (distance ‘euclidean’) 
> n of cities(tspDist) 
[1] 3 
> labels(tspDist) 
| "Genève!" Berne" "Lausanne" 
p. 


« L 


Pour la suite nous utiliserons une matrice des distances inclue dans le package TSP qui 
contient quelques informations de distances euclidiennes entre des grandes villes américaines. 
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Voyons donc ce que nous pouvons en tirer: 


VV ENNNNNNNNNNNNNNNNNN OV 


library(TSP) 
library(rgeos) 
library(maps) 
libraryi(sp) 
library(maptools) 


data("USCA312") 
data("USCAi312 map") 


fcalculate a tour 
tour <- solve TSP{USCA312) 


#plot map 
plot (as (USCA312 coords,"Spatial"),axes=TRUE) 
plot (USCÀA312 basemap,add=TRUE,col="gray"] 


#plot tour and add cities 
tour line <- SpatialLines(list(Lines(list( 
Line (USCA312 coords[c(tour, tour[1]j,]j)j,1D="1"))j) 


plot(itour line,add=TRUE,col="red") 
points (USCA312 coords,pch=3,cex=0.4,col="black") 


Ce qui donne: S 
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Figure 204 Graph de trajet optimal 
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Exemples 155.: Calendriers de densité 
R 3.0.2 


Voyons une petite représentative sympathique que certains apprécieront (à nouveau on peu 
faire beaucoup mieux avec un tableur mais bon...). 


Considérons les données suivantes d'occupation des salles de conférences d'un petit centre de 
centre de formation: 


€ SE UT I 
CalendarTraineeshnalysis.csy - Bloc-n.. = | x. 
nn Re 


Fichier Edition Format Affichage 
Dates; Traînees 


|2008-01- 08: 8 
2008-02-15; 7 
2008-02-26:5 
2008-03-03;5 
2008-03-07;5 
2008-03-10;6 
2008-03-11;5 
2008-03-14;6 
2008-05-09;4 
2008-05-13;6 
2008-05-15; 7 
2008-05-20;4 
2008-05-23;4 
2008-05-26;10 
2008-05-29;6 
2008-05-30;6 
2008-06-03;6 
2008-06-05;5 


4 


WT calendartest 


Fichier Edition Format Affichage ? 


TR RE PTS TN OT D … 
Calendar Heatmap 

À by É 

# Paul Bleicher 

# an R version of a graphic from: 

# http://stat-computing.org/dataexpo/2009/posters/wicklin-allison.pdf 

# requires lattice, chron, grid packages 

RRRRRRRRRRRR ERREUR ARRET RNRRRRRRRRRRRRRRRRRRRRNRRRRRRRRERE 

require(lattice); require(chron); require(grid) 


calendarHeat: An R function to display time-series data as a calendar he 
Copyright 2009 Humedica. All rights reserved. 


This program is free software; you can redistribute it and/or modify 
it under the terms of the GNU General Public License as published by 
the Free Software Foundation; either version 2 of the License, or 
(at your option) any later version. 


This program is distributed in the hope that it will be useful, 
but WITHOUT ANY WARRANTY; without even the implied warranty of 
MERCHANTABILITY or FITNESS FOR À PARTICULAR PURPOSE. See the 
GNU General Public License for more details. 


You can find a copy of the GNU General Public License, Version 2 at: 
http://www.gnu.org/licenses/gpl-2.0.html 


An R function to display time-series data as à calendar heatmap 


This graphic originally appeared \hreffhttp://stat-computing.org/dataexp 
ê 


This function is included with the \code {makeR} pacésde to support the 


R-Bloggers demo. See \code{demo('makeR'")} for more information. 
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Remarquez que ce script utilise les package lattice, chron et grid!!! 


Ensuite, dans R nous aurons: 


KR R Console = 2x 


+ 


> myd<-read.csv("C:/CalendarTraineesAnalysis.csv",header=T,sep=";:") 
> source ({"C:/calendarHeat.R") 

Le chargement a nécessité le package : lattice 

Le chargement a nécessité le package : chron 

Le chargement a nécessité le package : grid 

> calendarHeat (myd$Dates, myd$iTrainees, varname="Trainees") 


Calendar Heat Map of Trainees 
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SN RS PothEoRen 
D RTE TEE 


Jan Feb Mar &pr May Jun Jul Æ4ug Sep Oct Nov Dec 


cÀ 
ÊcE reSsS 
Sue 


Sa {n 


Figure 205 Graph de calendrier ave densité de couleurs d'événements 


Dans la même genre très connu (surtout parce que c'est ainsi que Microsoft SharePoint affiche 
les statistiques de consultations des pages web), on a en utilisant le jeu de données 
Seattle_Police_Department_911_Incident_Response.csv de 371 MB et 1'400'000 lignes: 
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Department_911_Inc 


— Û 


& C:tmp\Seattie Poli 


onse.csv - Notepad++ 


File Edit Search View Encoding Language Settings Tools Macro Run Plugins Window 7? x 


ALT EE. 


BOSS? QSARARSETOG See 0 


CAD CDW ID,CAD Event Number,General Offense Number,Event Clearance Code,Event Clearance Description,Event Clearance SubGroup,Event 
Clearance Group,Event Clearance Date,Hundred Block Location,District/Sector,Zone/Beat,Census Tract,Longitude,Latitude, Incident 
Location,Initial Type Description,Initial Type Subgroup,Initial Type Group,At Scene Time 

15736,10000246357,2010246357,242,FIGHT DISTURBANCE, DISTURBANCES, DISTURBANCES, 07/17/2010 08:49:00 PM,3XX BLOCK OF PINE 
ST,M,M2,8100.2001,-122.338146748,47.610975163,"(47.610975163, -122.338146748)",,,, 

15737,10000246471,2010246471,065,THEFT - MISCELLANEOUS,THEFT,OTHER PROPERTY, 07/17/2010 08:50:00 PM,36XX BLOCK OF DISCOVERY PARK 
BLVD,Q,Q01,5700.1012,-122.404612874,47.658324899,"(47.658324899, -122.404612874)",,,, 

15738,10000246255,2010246255,250,"MISCHIEF, NUISANCE COMPLAINTS","NUISANCE, MISCHIEF COMPLAINTS", "NUISANCE, MISCHIEF ",07/17/2010 
08:55:00 PM,21XX BLOCK OF 3RD AVE,M,M2,7200.2025,-122.342843234,47.613551471,"(47.613551471, -122.342843234)",,,, 
15739,10000246473,2010246473,460,TRAFFIC (MOVING) VIOLATION, TRAFFIC RELATED CALLS,TRAFFIC RELATED CALLS,07/17/2010 09:00:00 PM,7XX 
BLOCK OF ROY ST,D,D1,7200.1002,-122.341846999,47.625401388,"(47.625401388, -122.341846999)",,,, 
15740,10000246330,2010246330,250,"MISCHIEF, NUISANCE COMPLAINTS","NUISANCE, MISCHIEF COMPLAINTS","NUISANCE, MISCHIEF ",07/17/2010 
09:00:00 PM,SXX BLOCK OF ALOHA ST,D,D1,6700.1009,-122.339708605,47.627424837,"(47.627424837, -122.339708605)",,,, 
15741,10000246477,2010246477,281,SUSPICIOUS VEHICLE, SUSPICIOUS CIRCUMSTANCES, SUSPICIOUS CIRCUMSTANCES, 07/17/2010 09:02:00 PM,30XX 
BLOCK OF W GOVERNMENT WAY,Q,Q1,5700.2005,-122.39662681,47.66131158,"(47.66131158, -122.39662681)",,,, 
15742,10000246436,2010246436,220,MENTAL COMPLAINT,MENTAL CALL,MENTAL HEALTH,07/17/2010 09:04:00 PM,5OXX BLOCK OF 57TH AVE 
S,R,R3,10200.1012,-122.263332426,47.555955852,"(47.555955852, -122.263332426)",,,, 

15743,10000246472,2010246472,460,TRAFFIC (MOVING) VIOLATION, TRAFFIC RELATED CALLS,TRAFFIC RELATED CALLS,07/17/2010 09:05:00 PM,56XX 
BLOCK OF BROOKLYN AVE NE,U,U3,4400.5003,-122.3141656,47.670345345,"(47.670345345, -122.3141656)",,,, 
15744,10000246493,2010246493,177,LIQUOR VIOLATION - INTOXICATED PERSON, LIQUOR VIOLATIONS, LIQUOR VIOLATIONS, 07/17/2010 09:09:00 
PM,15XX BLOCK OF 4TH AVE,K,K1,8100.2005,-122.336890515,47.610440245,"(47.610440245, -122.336890515)",,,, 
15745,10000246478,2010246478,220,MENTAL COMPLAINT,MENTAL CALL,MENTAL HEALTH, 07/17/2010 09:17:00 PM,10O0XX BLOCK OF COLLEGE WAY 
N,N,N3,1300.1009,-122.33452433,47.702331629,"(47.702331629, -122.33452433)",,,, 

15746,10000246397,2010246397,065,THEFT - MISCELLANEOUS, THEFT,OTHER PROPERTY, 07/17/2010 0S:18:00 PM,46XX BLOCK OF S AUSTIN 
ST,S,S2,11101.3001,-122.273984794,47.534704635,"(47.534704635, -122.273984794)",,,, 

15747,10000246518,2010246518,245,"DISTURBANCE, OTHER", DISTURBANCES, DISTURBANCES, 07/17/2010 09:28:00 PM,3XX BLOCK OF HARRISON 
ST,D,D1,7100.2001,-122.350854033,47.622086915,"(47.622086915, -122.350854033)",,,, 

15748,10000246470,2010246470,161,TRESPASS ,TRESPASS, TRESPASS, 07/17/2010 09:28:00 PM,6XX BLOCK OF STH AVE 
S,K,K2,9100.1014,-122.327680653,47.596655376,"(47.596655376, -122.327680653)",,,, 

15749,10000246327,2010246327,040,"ASSAULTS, OTHER",ASSAULTS,ASSAULTS, 07/17/2010 09:30:00 PM,5XX BLOCK OF S CLOVERDALE 
ST,F,F3,11200.1006,-122.326892912,47.526477211,"(47.526477211, -122.326892912)",,,, 

15750,10000246517,2010246517,250,"MISCHIEF, NUISANCE COMPLAINTS", "NUISANCE, MISCHIEF COMPLAINTS","NUISANCE, MISCHIEF ",07/17/2010 
09:31:00 PM,51XX BLOCK OF S HENDERSON ST,S,53,11800.4000,-122.268650086,47.523303841,"(47.523303841, -122.268650086)" 
15751,10000246495,2010246495,280,SUSPICIOUS PERSON, SUSPICIOUS CIRCUMSTANCES, SUSPICIOUS CIRCUMSTANCES, 07/17/2010 09:31: 
BLOCK OF HARRISON ST,D,D1,7100.2001,-122.350854033,47.622086915,"(47.622086915, -122.350854033)",,,, 


Normal text file length: 380'031'486 lines:1'433'855 Ln:1 Col:1 Pos:1 Unix (LF) UTF-8 INS 


". 


On utilise alors le code écrit par Laura Ellis: 


MR RGui (64-bit) - [R Console] _ 


ŒR File Edit View Misc Packages Windows Help 6x 


library("plyr") 
library("lubridate") 
library ("ggplot2") 
library("dplyr") 


incidents <-read.table("Seattle Police Department 911 Incident Response.csv", 
head=TRUE, sep=",", fill=TRUE, stringsAsFactors=F) 


coli 
col2 


"fdBeilcf£f" 
"#4364684" 


incidentsSymd <-mdy_hms(incidents$Event.Clearance.Date) 
incidents$month <- month(incidentsS$ymd, label = TRUE) 
incidentsSyear <- year (incidentsSymd) 

incidentsS$wday <- wday(incidents$ymd, label = TRUE) 
incidents$hour <- hour (incidentsS$ymd) 
attach(incidents,warn.conflicts = FALSE) 


dayHour <- ddply(incidents, c( "hour", "wday"), summarise,N=length (ymd) 
) 
dayHourSwday <- factor (dayHour$wday, levels=rev(levels (dayHourS$wday))) 


attach(dayHour,warn.conflicts = FALSE) 


ggplot (dayHour, aes(hour, wday)) + geom tile(aes(fill = N),colour = "white", na.rm = TRUE) + 
scale fill gradient (low = coli, high = col2) + 
guides (fill=guide legend(title="Total Incidents")) + 
theme bw() + theme minimal() + 
labs(title = "Histogram of Seattle Incidents by Day of Week and Hour", 
x = "Incidents Per Hour", y = "Day of Week") + 
theme (panel.grid.major = element blank(), panel.grid.minor = element blank()) 


VER EVNVNVN VV EN NN NN NN NN NN EN NN NN NV 


Ce qui donne: 
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Histogram of Seattle Incidents by Day of Week and Hour 


| 


xs dou” 
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Exemples 156.: Exports de graphiques 
R 3.0.2 


Exporter un graphique en tant qu'image ou pdf 


Lorsque vous faites des graphiques vous pouvez certes les exporter manuellement en faisant 
un clic droit et choisir une option d'export mais dans la majorité des cas, nous automatiserons 
de type de procédure dans des scripts. Voici un exemple (notez que l'export se fait avant le 
script du graphique et qu'il faut avoir la commande dev.off( ) une fois terminé!!! !!): 


Fe 


R R Console RES 


+ 


pngifilename="C:/tmp/figure.png", height=295, width=300, bg="white") 
x<-seq(-10,10,length=30) 

y<—x 

f<-function(x,y){ 

r<-sqrt(x"2+y*2) 

10*sin(r)/r 

} 

z<-outer (x,y,f) 
persp(x,y,z,theta=30,phi=30,expand=0.5,col="lighthlue") 

dev.offi) 
windows FR Graphics: Device 2 (ACTIVE) 
2 


VNVERE VV NY 


> | 


Nous obtenons alors: 


figure.png 
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Et pour exporter en PDF (notez encore une fois que l'export se fait avant le script du 
graphique! !!!1): 


€ 


R & Console ÉrEIES 


+ 


pdfifile="C:/tmp/figure.pdf", height=3.5, width=5) 
x<-seq({-10,10,length=30) 

Y<—x 

f<-function(x,yi{ 

r<-sqrt(x*2+y"2) 

10*sin(r)/r 

} 

z<-outer (x,y,£) 
persp(x,y,z,theta=30,phi=30,expand=0.5,col="lighthlue") 
dev.offi) [ 
windows 
2 


VMVMMH+H+HVVVV 


> | 


Nous obtenons alors: 


figure.pdf 


et Si nous ouvrons: 
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Fichier Edition Affichage Fenêtre Aide 
& À © A es | 1 Le Lai Outils | Signer Commentaire 
I 


— 
L'export en PDF est d'une qualité visuelle remarquable! Sachant que l'on peut mettre plusieurs 


graphiques sur une même figure de sortie, ainsi que du texte et des résultats de calculs, on 
imagine aisément comme cela peut être utile pour automatiser du reporting en entreprise. 
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Export de graphiques ggplot en format web interactif 


Avec le package ggiraph et sa commande correspondante il est possible d'obtenir des 
graphiques interactifs pour le web qui sont remarquables. Voyons les exemples fournis avec 
le package: 


FR RGuiï (64-bit) - [R Console] . O X 


AR File Edit View Misc Packages Windows Help 5x 


> library("ggiraph") 
> p <- ggplot (mpg, 
+ aes(x = class, y = hwy, tooltip = class)) + 


+ geom boxplot_interactivel() 
> 
> ggiraph(code = print (p), width = .5) 
> 
> 
> p <- ggplot (mpg, aes(x = drv, y = hwy, tooltip = class, fill = class)) + 
o geom boxplot_ interactive (outlier.colour = "red") + 
- guides (fill = "none") + theme minimal () 
> 
> ggiraph(code = print (p), width = .5) 
> | 
Q 
: N 
ce qui donne: ® 
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file:///C:/Users...Sef0/index.html X + 


€ à 


40 


20 


file:///C:/Users/Vincent Isoz/AppData/Local/Temp/RtmpozZwZh 


[(e4 


Q, Rechercher 


ou encore (dernier exemple): 
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CR RGui (64-bit) - [R Console] 
CR File Edit View Misc Packages Windows Help 


ÉBROISOSIOIE 


library("ggiraph") 
crimes <- data.frame(state = tolower (rownames (USArrests)), USArrests) 


# create tooltips and onclick events 
states _ <- sprintf("<p>ss</p>", 
as.character(crimes$state) ) 

table _ <- paste0({ 
"<table><tr><td>UrbanPop</td>", 
sprintf("<td>$5.0f</td>", crimesSUrbanPop), 
CTI, 
"<td>Assault</td>", 
sprintf("<td>5.0f</td>", crimes$SAssault), 
"</tr></table>" 

) 


onclick <- sprintf( 
"window.open(\"%s%s\")", 
"http://en.wikipedia.org/wiki/", 
as.character(crimes$state) 


crimes$labs <- paste0(states , table ) 
crimes$onclick = onclick 


if (require("maps") ) !{ 
states map <- map data("state") 
gg_ map <- ggplot (crimes, aes(map id = state)) 
gg_ map <- gg map + geom map _interactive(aes( 
£ill = Murder, 
tooltip labs, 
data_id state, 
onclick onclick 
}r 
map = states map) + 
expand limits(x = states map$long, y = states map$lat) 
ggiraph(code = print(gg map), width = .8) 


> 
> 
> 
> 
> 
+ 
r 
sd 
+ 
s à 
T 
+ 
+ 
+ 
> 
> 
+ 
+ 
+ 
+ 
> 
> 
> 
> 
> 
> 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
r 
+ 
+ 
+ 
> 


} 


Ce qui donne: 


R Statistical Software 1179/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


= O x 
file:///C:/Users...2af3/indexhtml X 


€ (à a/Local/Temp/RtmpoZwZhl/viewhtml43b867e42af3/index.html @  Q Rechercher 8 + À © = 


missouri 


UrbanPop 70 


Assault 178 


et ainsi de suite. Donc on voit que les possibilités sont considérables! 


R Statistical Software 1180/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


12. Probabilités et fonctions de distributions de 
probabilités 


Il arrive fréquemment que l'on souhaite comparer des données mesurées dont nous faisons 
l'hypothèse qu'elle suive une loi de probabilité donnée, avec des vraies variables aléatoires 
issues de cette loi. Ne serait-ce que pour faire une représentation graphique de l'histogramme 
de chacun et de pouvoir les comparer. 


Remarque: La génération de variables aléatoires est également utile dans le cadre de 
simulations de Monte-Carlo après avoir copier/coller ou exporter les données dans MS Excel. 


Comme il s'agit d'une manipulation simple à effectuer dans R (afficher les histogrammes de 
différentes distributions), nous allons donc commencer par ce premier point. 


D'abord signalons les conventions d'écriture de R pour les fonctions de distribution (p pour la 
probabilité cumulée, q pour le quantile, d pour la densité et r pour réaliser une valeur aléatoire 
au hasard): 


Distribution Fonctions 
Beta pbheta qgheta dbeta rbeta 
Binomial pbhinom qhbinom dbinom rbinom 
Cauchy pcauchy Jacauchy f|dcauchy [rcauchy 
Chi-Square pchisq qchisq dchisq rchisq 
Exponential pexp S qexp dexp rexp 
ES pf qf df rf 
Gamma pgaamma gqgamma dgamma rgamma 
Geometric pgeom qgeom dgeom rgeom 
Hypergeometric phyper qhyper dhyper rhyper 
Logistic plogis glogis dlogis rlogis 
Log Normal plnorm qlnorm dinorm rlnorm 
Negative Binomial pnbinom fqnbinom fldnbinom rnbinom 
Multinomial pmultinomigmultinomidmultinomirmultinom 
Normal pnorm qnorm dnorm rnorm 
Poisson ppois qpois dpois rpois 
Student t pt qt dt LE 
Studentized Range ptukey qtukey dtukey rtukey 
Uniform punif qunif dunif runif 
Weibull pweibull |lqweibull [ldweibull |rweibull 
Wilcoxon Rank Sum Statistic [pwilcox fawilcox fdwilcox frwilcox 
Wilcoxon Signed Rank Statistic\psignrank|qsignrank|dsignrank|rsignrank 
Tableau 1 Syntaxe des différentes distributions de probabilités 
Pour d'autres distribution et leur package respectif voir: 
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http://cran.r-project.org/web/views/Distributions.html 


ou en particulier le package extraDistr que je recommande particulièrement! 


Avant de commencer signalons au lecteur que pour chaque distribution il peut s'amuser à faire 
le graphique suivant très instructif (dans le cas ci-dessous nous l'avons fait qu'avec la loi 
Normale): 


# 


R R Console [Se|o|x| 
> minRange<- -3;:maxRange<- 3; 
> par(mfrow=c(2,2)) 
> curve(dnorm,minRange,maxRange, ylab="Densité de probabilité",main="Densité") 
> curve(pnorm,minRange,maxRange, ylab="Probabilité cumulée",main="Probabilité") 
> curve(qnorm,0,1,ylab="Quantile (Z)",main="Quantile") 
> hist (rnorm(1000) ,vlab="frequénces",main="Nombres aléatoires") 
> 
IR R Graphics: Device 2 (ACTIVE) 
4 


Densité Probabilité 
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Probabilité cumulée 


Quantile Nombres aléatoires 


Quantile (Z) 
frequénces 


morm(1000) 


Figure 206 Graph de diagnostique de fonction de probabilité 


Et surtout si votre objectif (très utile pédagogiquement pour des formations ou techniquement 
pour faire des essais d'algorithmes) est de créer une variable aléatoire Normale dont un 
échantillon aléatoire donne exactement un moyenne et une espérance précise: 
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MR RGui (64-bit) - [R Console] 


GR File Edit View Misc Packages Windows Help 


> rnorm exact <-— function(n,mean, sd) { mean+sd*scale (rnormi(n)) 
> (r <- rnorm exact (20,4,1)) 
[1] 
[1,] 4.131713 
[2,] 3.564093 
[3,1 3.673286 
[4,] 4.919123 
[5,] 6.664828 
[6,1] 3.934931 
[7,] 2.415951 
[8,] 3.234943 
[9,] 4.440307 
[10,] 3.734012 
[11,] 3.904986 
[12,] 3.914557 
[13,] 2.438538 
[14,] 3.909900 
[15,] 5.167042 
[16,] 4.979673 
[17,] 4.798458 
[18,] 3.628835 
[19,] 3.888040 
[20,] 2.656783 
attr(,"scaled:center") 
[1] -0.1003955 
attr(,"scaled:scale") 
[1] 0.8145615 
> mean(r) ## 4 
[1] 4 
> sdi(r) ## 1 
[al 
> | 


R Statistical Software 1183/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Exemple 157.: Loi discrète personnalisée 
R 3.3.2 


Dans la gestion de projets, l'actuariat ou la fiabilité industrielle on doit parfois travailler avec 
des distributions discrètes! Voyons comment gérer ces dernières dans R. 


Considérons: 


8 File Edit View Misc Packages Windows Help x 


> x<-c(0,1,2,3) #support 
> f<-c(1/8,3/8,3/8,1/8) #fréquences respectives 


> 


La moyenne et l'écart-type seront trivialement donnés par: 


| ŒR File Edit View Misc Packages Windows Help & x 


> mu<-sum(x*f) 
> mu 

[1] 1.5 

> sigma<-sqgrt (sum((x-mu)"2*f£f)) 
> sigma 

[1] 0.8660254 


| 
| | 


Mais on peut faire plus simple avec la commande DiscreteDistribution( ) du package 
distrEx: 
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MR RGui (64-bit) - [R Console] Cl 
OR File Edit View Misc Packages Windows Help - F x 


ÉROISOEINE | 


> library(distrEx) 

> X<-DiscreteDistribution(supp=0:3,prob=c(1,3,3,1)/8) 
> E(X);sd1(X) 

211 2.85 

[1] 0.8660254 

> 
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Exemple 158.: Marche aléatoire 
R 342 


Nous avons vu dans le cours théorique l'importance de la marche aléatoire pour comprendre 
nombre de phénomènes physiques. Voyons comment reproduire cela d'abord avec 5 tirages et 
10 tracés: 


R RGui (64 R Consol O 
R File Edit View Misc Packages Windows Help ZE 


ESOISESINIE 


random.walk <- function(nsteps, x0=0) { 
x <- numeric(nsteps + 1) 
x[1] <- x0 
for (i in seq len(nsteps)) { 
x[i+1] <- x[i] + sign(rnorm(n=1, mean=0)) 
} 
x 
} 
nsteps <- 5 
nrep <- 10 
cols <- rainbow(nrep) 
plot (NA, xlim=c(l, nsteps+l), ylim=c(-nsteps , nsteps ), xlab="Step number", ylab="Position") 
for (i in i:nrep){ 
lines (random.walk(nsteps), col=cols{i]) 
} 


VH+HVVVVV +++ ++ + V 


Ce qui donne: 


FF ss 
RAR Gr evice TIVE ER ES 
+ 
Lo] 
[= 
9 
+ +0 
Le] 
a 
ds 
YŸ 
T T T T T 7 
1 2 = | 4 5 6 
Step number 
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Avec 20 tirages et 50 tracés: 


MR RGui (64-bit) - [R Console] _ 0 


R File Edit View Misc Packages Windows Help || # 


random.walk <- function(nsteps, x0=0) { 
x <- numeric(nsteps + 1) 
x[1] <- x0 
for (i in seq len(nsteps)) { 
x[i+1] <- x[i] + sign(rnorm(n=1, mean=0)) 
} 
x 
} 
nsteps <-— 20 
nrep <- 50 
cols <- rainbow(nrep) 
plot (NA, xlim=c(l, nsteps+1l), ylim=c(-nsteps , nsteps ), xlab="Step number", ylab="Position") 
for (i in l:nrep){ 
lines (random.walk(nsteps), col=cols[i]) 
} 


VHHVVVVV +++ ++ + + V 


Ce qui donne: 


E 


MR Graphics: Device 2 (ACTIVE) RES 


20 


10 


Position 
0 


-10 


-20 


Figure 207 Graph de marche aléatoire à temp discret 
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Avec 100 tirages et 50 tracés: 


MR RGui (64-bit) - [R Console] _ 0 


R File Edit View Misc Packages Windows Help ||) X 


random.walk <- function(nsteps, x0=0) !{ 
x <- numeric(nsteps + 1) 
x[1] <- x0 
for (i in seq len(nsteps)) { 
x[i+1] <- x[i] + sign(rnorm(n=1, mean=0)) 
} 
x 
} 
nsteps <-— 100 
nrep <- 50 
cols <- rainbow(nrep) 
plot (NA, xlim=c(l, nsteps+1), ylim=c(-nsteps , nsteps ), xlab="Step number", ylab="Position") 
for (i in l:nrep){ 
lines (random.walk(nsteps), col=cols[i]) 
} 


VHHVVVVV +++ ++ + + V 


Ce qui donne: 


fl 


MR Graphics: Device 2 (ACTIVE) ses) 


Position 
-50 0 50 100 


-100 


0 20 40 60 80 100 


Step number 


et toujours avec le même code mais avec 1000 tirages et toujours 50 tracés: 
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1000 


Position 
-500 0 


-1000 


MR Graphics: Device 2 (ACTIVE) CSSS) 


0 200 400 600 800 1000 


Step number 


Et avec 1'000'000 de tirages et 1'000 tracés: 


Position 
-5e+05 0e+00 5e+05 1e+06 


-1e+06 


MR Graphics: Device 2 (ACTIVE) 


& 
X 
Ÿ 


0e+00 2e+05 4e+05 6e+05 8e+05 1e+06 


Step number 
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Exemple 159.: Loi Normale 
R 3.02 


Nous allons commencer avec la loi Normale (elle reste la plus utilisée à ce jour) en générant 
un vecteur Normal et ensuite en affichant son histogramme et des informations y relatives en 


utilisant les commandes rnorm( }) et dnorm( ). 


Commençons donc par un simple histogramme: 


ÎR R console PSEIES 


> NormalVector<-rnorm(in=125, m=10, sd=0.3) 

> histlinfo<-hist (NormalVector,freq=FALSE,xlab="unités",col="grey",main="Loi Nor$ 
> histinfo 

$fbreaks 

C11 9.0 9,2 9.4 9.6 9:68 10.0 10,2 10,4 10.6 


$fcounts DE AE ER E 1e : 

[11] 1 1 916 26 35 27 10 IR R Graphics: Device 2 (ACTIVE) NS 

$density _ 

[1] 0.04 0.04 0.36 0.64 1.04 1.40 1.08 0.40 Loi Normale 
$mids 


[11] 9.1 9.3 9.5 9.7 9.9 10.1 10.3 10.5 


$xname 
[1] "NormalVector" 


fequidist 
[i] TRUE 


attr(,"class'") 
[1] "histograrm" 
>| 


unités 


et pour ajuster en utilisant la commande curve( ) : 


R Statistical Software 


1190/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


> NormalVector<-rnormin=125, m=10, sd=0.3) 

> hist (NormalVector,freq=FALSE,xlab="unités",col="grey",main="Loi Normale") 
> curve(dnorm(ix,mean=mean(NormalVector) ,sd=sd(iNormalVector)),add=TRUE,col="darkblue",lwd=2) 
> | RE 


Loi Normale 


unités 


Ou encore un autre très grand classique: 


x<-seqi-5,5,0.01) 

curve (dnorm(ix,0,1)j ,xlim=c({-10,10) ,ylim=c(0,0.5),col="red", lud=3,ylab="") 
curve (dnorm(x,2,3) ,col="green", lwd=3,add=T) 

curve (dnorm(x,0,5),col="blue" ,add=T) 

curve (dnorm(x,-2,0.8) ,col="orange" ,add=T) 

abline (h=0, 1ty=3)abline (v=0, 1tvys=3) 

legend (par ("usr")[2],par("usr")[4],xjust=i1, 

ci 

expression(paste (mu[1],"=0,",sigmal1],"=1")), 
expression(paste(mu[2],"=2,",sigmal2],"=3")), 
expression(paste(mu[3],"=0,",sigmal3],"=5")), 
expression(paste(mu[4],"=-2,",sigmal[4],"=0.8"))), 
lud=3,col=c{i"red",'"green’","blue" ,'"orange")) 

title (main="Distribution Gaussienne") 


> 
> 
> 
> 
> 
> 
E ) 
+ 
+ 
+ 
+ 
+ 
+ 
> 
> | 


qui donne: 
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Distribution Gaussienne 
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Loi Normale avec fréquences 


Exceptionnellement et seulement pour la loi Normale (sinon cela commencerait à être 
ennuyeux si nous le faisons pour toutes les autres lois) nous allons donner la méthode pour 
avoir comme dans Minitab, le graphique non pas avec les densités mais avec les fréquences: 


R & Console EEE 


N <= 125 

x <— rnormi(N,10,0.3) 

H <— hist(x, freq=TRUE) 

dx <- min(diff(H$breaks)) 
curve(Nfdx*dnormix,10,0.3), ada=TRUE, col="blue") 


R R Graphics: Device 2 (ACTIVE) Lee.) (ES) 


> 
> 
> 
> 
> 
> 


Histogram of x 
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Ou une autre manière de faire utilisant la commande density( ) : 
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N <- 125 

x <— rnorm(N,m=10,sd=0.3) 
hist(ix,xlab="unités",col="grey",vlim=c(0,35) ,main="Loi Normale") 
h<-hist(x,xlab="unités",col="grey",main="Loi Normale") 
d<-density(NormalVector) 

lines(x=d$x,y=d$ytlengthix) *diff(h$breaks)[1],lwd=2,col="blue") 


Loi Normale 


me 
© 
= 
D 
= 
[ex 
0] 
Fe 
LL 


unités 


Nous pouvons également par un cas pratique démontrer que les centiles sont uniformément 
distribués (rappelons que pour beaucoup de gens c'est non-intuitif et que nous avons fait la 
démonstration mathématique dans le cours théorique): 
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QR R Console | = | [a] | 23 | 
> X <— rnorm(iles) 
> hist (pnorm(X)) 
> | 
UR R Graphics: Device 2 (ACTIVE) [= | CRE 
Histogram of pnorm(X) 
o 
o 
[=] 
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Il est aussi possible de travailler avec des données que typiquement des non statisticiens vont 
vouloir ajuster quand même à une loi normale: 
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isole 


> setwd("C:/") 
> mydata<-read.csv("Ventes.csv",header=T,sep=":" 
> H<-hist (Quantité, freq=TRUE) 
> dx<-min(diff(H$breaks)) 
> curve(length(iQuantité) fdx*dnormix,mean(Quantité),sd{(Quantité)),add=TRUS 
>| 
Histogram of Quantité 
Le) 
T 
#  Q 
© 
= om 
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[æ] 
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eo 
— 
[æ) 
CR 


Quantité 


Et nous pouvons centrer réduire les valeurs aussi (très utile en finance): 


0 


setwd{"C:/") 
mydata<-read.csv("Ventes.csv",header=T,sep=";") 
zQuantité<-scale (Quantité,center=TRUE,scale=TRUE) 

H<-hist (zQuantité,freq=TRUE) 

dx<-min(diff(H$breaks)) 

curve (length(izQuantité) *dx*dnormix,0,1) ,add=TRUE,col="blue") 


VVNNNNNVV 


Histogram of zQuantité 


Frequency 


zQuantité 
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Enfin, pour ceux qui cherchent à reproduire le graphique que nous avons présenté dans le 
cours théorique concernant la méthode par densité de noyaux, voici le script: 


QR RGui (64-bit) - [R Console — 


R File Edit View Misc Packages Windows Help x 


ÉSOSECEOE 


> # "Tight" x-axis (s0 it appears all horizontal lines span infinitely both left and right 


|> par (xaxs="i") 

|> 

|> # Sequence between -3.1 and 3.1 with 0.1 steps 

|> x <- seq(-3.1, 3.1, 0.1) 

|> 

|> # Plot a perfect bell curve, or a normal distribution probability density function 
|> plot(x, dnorm(x), "1", ylim=c(0, 0.5), col="grey", lwd=5) 

> 

|> # 100 normally distributed random values with mean © and standard deviation 1 

|> rx <- rnorm(100) 

|> 

ES # Add lines that attempt to characterize the distribution probability density for "rx" 


l> # using different bandwidth "bw" values 0.3, 0.1 and 0.5 (coarse to fine widths) 
|> lines(density(rx, bw=0.3), col="#333399") 
|> lines(density(rx, bw=0.1), col="#009900") 
[> lines(density(rx, bw=0.05), col="#FF6633") 
> 
|> # Ticks at bottom to indicate where the random "rx" values are: add legend 
|> rug(rx) 
|> legend{"topleft", legend=c{("reference", "0.3", "O.1", "0.05"), bty="n", 
+ col=c("grey", "#333399", "#009900", "#FF6633"), lwd=c(5, 1, 1, 1)) 
>| 
| 
CO 
S 
Ce qui donne: S 
€ qui donne: Lo) 
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Evidemment ce genre de manipulation avec les données que nous avons ci-dessus se passe de 
commentaires. 
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Loi Normale avec double axe 


Minitab n'est pas capable de plotter un histogramme et une distribution avec un axe respectif 
pour chacun ainsi qu'avec un échelle personnalisée adaptée à chaque graph. Par contre avec le 
tableur Microsoft Excel c'est très simple. Pour R je suis arrivé à faire mieux que Minitab en 
obtenant le double axe maïs je ne suis pas arrivé à ce jour à trouver une solution simple 
(comme dans le tableur Excel) pour changer l'échelle du deuxième axe à droite de O à 1... (si 
quelqu'un à une solution je suis preneur): 


R & Console ts e)(es) 


+ 


Y 


NormalVector <- rnorm(125,10,0.3) 
hist (NormalVector, hbreaks=seqimin(NormalVector), 
max (NormalVector), length=22), xlab = "ige", vylab= "Frequency", 
main = "Distribution et Histogrammen (avec mu=10 et std=0.3)", 
prob= FALSE, col= "lightgray") 
points(seqimin(NormalVector), max (NormalVector), length.out=500), 
dnormisegqimin(NormalVector]), max(NormalVector), length.out=500), 
mean(NormalVector), sd(iNormalVector)), type="l1", col="red") 
par (oma=c(0,0,0,2)) 
par (new=T) 
axis(4) 
mtext (text="Density",side=4, outer=TRUE, padij=1) 
legendi"topleft",col=ci"red","blue"),lty=1, legend=c{("Densité","Histogramme")) 


VON OV OV OH ENV + + + V 


R R Graphics: Device 2 (ACTIVE) 


Distribution et Histogramme 
(avec mu=10 et std=0.3) 


Frequency 


Figure 209 Graph histogramme avec courbe de densité et double axe 
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Loi Normale avec distribution et répartition des fréquences 


C'est un cas souvent demandé dans le cours Statistique avec des tableurs voyons comment 
faire cela avec R car c'est loin d'être intuitif pour changer. 


fl 
R & Console a | © | & 


x<-rnorm(100,50,10) 
hcum<-h<-hist (x,plot=FALSE) 


#Subtile mais utile! 
hcum$counts <- cumsum(hcum$counts) 


#classique 
plot (hcum, main="Fonction de densité et de répartition") 
pilot (h,add=T,col="grey") 


## Et on y ajoute l'ajustement par noyaux locaux 

d <- densityi(x) 

linesix=d$x,y=-d$ytlengthix}) ‘diff (h$breaks) [1],1lwd=2) 
lines(ix=-d$x,vy=-cumsum(d$y) /max (cumsum(d$y)) *lengthix) ,lwd=2) 


NEO ONTONE EN OR NO NON VON 


du. 


Fonction de densité et de répartition 


eu 
e 
[= 
D 
= 
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— 
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Figure 210 Graph de fonction de densité avec histogramme et fonction de répartition 
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Convolution de deux lois Normales 


Le but ic1 étant de reproduire la démonstration mathématique faite dans le cours théorique, 
donc de voir un cas pratique de convolution aussi par la même occasion, et vérifier si on 
retombe sur le même résultat qu'avec MATLAB: 


Pour les détails sur ce sujet, nous renvoyons le lecteur au chapitre sur le traitement du signal à 
la page 2870. 
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Loi Normale bivariée 


Un cas très important en finance et en maîtrise statistique des processus. Nous allons pour 
cela utiliser la théorie vue en cours sous forme de fonction R: 


mul <- 0 
mu2 <— 0.5 
sigi <- 0.5 
sig2 <- 2 
cho <= 0.5 


#limites pour les axes 
xXm <= -3 
Xp <- 3 
ym <= -3 
yp <- 5 


X <- seqixm, xp, length= as.integer {({xp + abs(ixm))j * 10)) 
y <- seq(ym, yp, length= as.integer((yp + abs(ym)) * 10)) 


bivariate <- function(ix,yi{ 

termi <- 1 / (2 * pi * sigl * sig2 * sgrt(i - rho“2)j) 
term2 <- (x - mul)*2 / sigl*2 

term3 <- -(2 * rho * (x - mul)j*(y - mu2))/(sigl * sig2) 
termd <- {y - mu2)*2 / sig2*2 

Z <= term + term + termi 

termS <- termi * exp(i-z / {2 *{1 - rho*2j)j) 

return (termS) 

} 


z <—- outer(x,y,bivariate) 


perspix, y, z, main = "Bivariate Normal Distribution", 

sub = bquote(boldimu[1])==.({mul)-", "esigma[1]==.{(sigi)-", "emu[2]==.{(mu2)- 
", "-sigma[2]==.{(sig2)-", "-rho==.{(rho)), 

col='"orchid2", theta = 55, phi = 30, r = 40, d = 0.1, expand = 0.5, 

itheta = 90, lphi = 180, shade = 0.4, ticktype detailed”, nticks=5) 


> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
+ 
+ 
+ 
+ 
+ 
— 
+ 
+ 
à 
> 
> 
> 
+ 
+ 
+ 
+ 
> 


Ce qui donne: 
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R & Graphics: Device 2 (ACTIVE) EEE 


Bivariate Normal Distribution 


L=0, Gels,u=0$s., S2e2, p=05 


Figure 211 Graph de loi Normale bivariée 


S1 nous n'avons que des points dont la distribution est inconnue, nous pouvons utiliser la 
commande bkde2D() du package KernSmooth pour chercher la meilleure densité 3D 
approchée par noyaux locaux: 
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mui<-0;mu2<-0;sigi<-0.5;:sig2<-2;:rho<-0.5 

Xme—-5S:xp<-5; vm<e--5;:vp<-5s 
xX<-seq{(xm,xp,length=as.integer ((xp+abs (xt) } *100)) 

y<-seq(vm, yp, length=as.integer ( (yp+abs (vm) ) *100)) 

d<-chind(ix,y) 

#pour la banduith elle est donnée pour x et respectivement pour y 
#plus ses valeurs sont grandes, plus la convergence est bonne 

par imfrow=c(2,2)) 

for(i in 1:4)j{ 

r<-bkdezD(d,bandwidth=c{i,i)) 
perspir$fhat,col="orchid2",d=0.1,r=40,shade=0.4,phi=30,theta=5s, 
itheta=90,ticktype="detailed",expand=0.5,main=paste("Banduith=",i)) 
} 


> 
> 
> 
-, 
> 
> 
> 
> 
> 
+ 
+ 
+ 
+ 
> 


Ce qui donne: 


Bandwith= 1 Bandwith= 2 


Bandwith= 3 Bandwith= 4 
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Ellipse de confiance (Youden Plot) 


Dans un autre style en utilisant le package mnormt et la commande dmnorm() associée 
nous avons un cas très classique beaucoup utilisé dans le domaine industriel (contrôle 
statistique des procédés) dans le cas de côtes bi-dimensionnelles: 


r=.5 

library(mnormt] 

Sema TIiXICilL.L.E,.11,2,8) 

f=function(x,y) dmnormichind(x,y) ,varcov=5) 
vx=seq(-3,3,length=201) 

vy=seq(-3,3,length=201) 

z=outer (VX,VY, ff) 

set.seed{i) 

X=rmnorm(1500,varcov=5) 

xhist <- hist(X[,1], plot=FALSE) 

yhist <- hist (X[,2], plot=FALSE) 

top <- maxicixhist$density, vhist$density,dnorm(0O))j) 

nf <- layout (matrix(c(2,0,1,3),2,2,byrow=TRUE), c(3,1), c(1,3), TRUE) 
par (mar=c(3,3,1,1)) 

image (vx,vy,Z,col=reviheat.colors(101))) 

contour (vXx,vYy,2z,col="blue",add=TRUE) 

points(X,cex=.2) 

par (mar=c(0,3,1,1)) 

barplot(xhist$density, axes=FALSE, ylim=c(0, top), space=0,col="light green") 
lines((density(X[,1])$x-xhisté$breaks[1])/diffixhistébreaks)[1], 
dnormidensity(X[,1])$x),col="red") 

par (mar=c(3,0,1,1)) 

barplotivhist$density, axes=FALSE, xlim=c(0, top), space=0, 
horiz=TRUE,col="light green") 

lines (dnormidensity{(X[,2])$x),(density(X[,2])$x-vhist$breaks[1])/ 
diffiyhist$breaks)[1],col="red") 


> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
FU 
> 
> 
+ 
> 
& 
> | 
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Ce qui donne: 
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e 


R R& Graphics: Device 2 (ACTIVE) ER ES 
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Figure 212 Graph de Youden (fonction de densité bivariée avec histogramme et fonction de densité en marge) 


Enfin, si nous avons deux variables aléatoires centrées réduites corrélées entre elles, nous 
pouvons représenter les ellipses de confiance plus simplement en utilisant les données du 
cours théorique: 
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RGui (64-bit} - [R C 
R Fichier Edition Voir Misc Packages Fenêtres Aide 


> mydata<-read.csv("C:/tmp/EllipseConfiance.csv",header=T,sep=";") 
> mydata 
x1 
1315-25 
115-971 
115.05 
116.21 
115.90 
1154.55 
114.98 
115.25 
116.15 
115.92 
125.75 
114.90 
116.01 
115,03 
115.29 
115:63 
115.40 
115.58 
115,72 
115.40 


1 
2 
3 
4 
5 
6 
7 
8 
9 


H H 
k © 


HHHH 
On 5 © D 


a 
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Nous avons alors: 
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libraryicar) 


dataEllipse (mydataf$xi,mydata$x2,levels=c(0.5, 0.9),center.pch=19, 


fill=TRUE, fill.alpha=0.1) 


center.cex=1.5,ellipse.label=c(0.5,0.9), Ilty=2, 


mydata$x2 


115.0 1152 1154 115.6 115.8 116.0 


mydata$x1 


Figure 213 Graph d'ellipses de confiance pour fonctions bivariées 
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Loi Normale trivariée 


Considérons un processus de fabrication sous contrôle statistique de joints dont trois cotes 
sont mesurées à chaque fois. Diamètre interne, externe et épaisseur. Les trois cotes suivante 
une loi Normale centrée. Évidemment, ci-dessous nous générons les données mais on peut 
simplement avoir un fichier *.csv avec trois colonnes (dixit trois vecteurs) avec les valeurs 
mesurées: 


FR R Console = | © |{s23m) 


libraryirgl) 

#Plot d'une fonction Normale trivariée avec intervalle 

#de probabilité de 95% d'un processus de fabrication sous contrôle 
#favec espérance de déviation e n* égale 0, variance unitaires et 
#corrélation de 0.8 

if (requireNamespace("MASS")) «{ 

Sigma<-matrix(c(10,3,0,3,2,0,0,0,1), 3,3) 

Mean<-c(0,0,0) 

x <— MAS5S::mvrnorm(1000, Mean, Sigma) 

open3di) 

#On ne peut pas mettre d'accents dans les légendes et le titre 
plot3di(ix, xlab="Var. Diametre interne *",ylab="Var. Diametre externes”, 
zlab="Var. Epaisseur*", box=TRUE) 

plot3d( ellipse3d(Sigma, centre=Mean), col="green", alpha=0.5, add = TRUE) 
} 


VH+++++H HN VV VY 


Ce qui donne: 
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51 RGL device 7 [Focus] 


Var. Diametre interne % 


Figure 214 Graph de fonction de densité trivariée 


Évidemment c'est une approche purement qualitative! 
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Exemple 160.: Loi Uniforme (continue) 
R 3.0.2 


Nous allons voir à partir de ce point comment représenter graphiquement les diverses 
fonctions les plus connues associées à des variables aléatoires d'importance majeure! 
Cependant avant de commencer par le premier exemple, il est important je pense de 
considérer le cas suivant qui dans un même graphique (certes un peu dense et manquant de 
couleurs) rassemble les 4 aspectes possibles d'une variable aléatoire normale (v.a. continue 
pour rappel): 


plot (qnorm(s,mean = mean(v), sd = sd(v)),s,ylim=yrange,xlim=xrange, type="h") 


> v<-rnorm(n=10000 ,m=0 ,sd=1) 

> xrange<-c(-4,4) ;yrange<-c(0,1) 

> hist(v) 

> hist(v,freq=F,ylim=yrange,xlim=xrange) 

> grid) 

> curve (dnorm(x,mean=mean (v) ,sd=sd(v)),ylim-yrange,xlim-=xrange ,add=T) #densité 
> curve (pnorm(x,mean=mean (v) ,sd=sd(v)) ,ylim=yrange ,xlim=xrange ,add=T) #distribution 
> size<-25 

> s<-sample (pnorm(v,mean=mean (v) ,sd=sd(v)),size) 

> par (new=TRUE) 

> 

> | 


-2 0 2 


qnorm(s, mean = mean(v), sd = sd(v)) 


SL 


Pour la loi uniforme (continue) nous aurons en utilisant les commandes runif(}) et dunif( ) : 
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> UniformVector<-runif(125,min"3,max=7) 

> hist (UniformVector , freq=FALSE,xlab="unités",col="grey",main="Loi Uniforme Continue”) 

> curve(dunif(x,minemin(UniformVector) ,max=max (UniformVector)),add=TRUE,col="darkblue", lud=2) 
> 


Loi Uniforme Continue 


et là contrairement au support sur Minitab et SPSS nous allons faire les autres distributions 
classiques vu dans le cours théorique de niveau Rec puisque les commandes ne sont pas 
directement visibles. A 
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Exemple 161.: Loi Géométrique 
R 3.0.2 


Voici notre première v.a. discrète. Là aussi avant de poursuivre considérez le graphique 
suivant qui en un seul tenant rassemble les 4 aspect d'une variable aléatoire et remarquez 
surtout les arrondis (via l'utilisation de la fonction round ) ) pour gérer le fait que le support 
concerne les valeurs entières: 


v<-rgeom(n=10000 ,prob=0.8) 

hist(v) 

xrange<-c(min(v) ,max (v)) ;yrange<-c(0,1) 
hist(v,freq=F,ylim=yrange ,xlim=xrange) 

grid() 

curve (dgeom(round(x) ,prob=0.8) ,ylim=yrange ,xlim=xrange,add=T) 
curve (pgeom(round(x) ,prob=0.8) ,ylim=yrange,xlim=xrange, add=T) 
size<-25 

s<-sample (pgeom(v,prob=0.8),size) 

par (new=TRUE) 

plot (qgeom(s,prob=0.8),s,ylim=yrange,xlim=xrange, type="h"}) 


VVVVVNVNNNVNNVNNY 


08 


Desssity 
04 


0.0 


qggeom(s, prob = 0.8) 


mn 


Nous avons vu dans le cours théorique que la loi géométrique (loi discrète pour rappel) était 
en réalité un simple cas particulier de la loi binomiale négative. Voyons comment tracer aussi 
cette dernière en utilisant les commandes rgeom() et dgeom( ) : 
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e . 


R R Console 


= | © | & 


+ 


> GeomVector<-rgeom(125,0.8) 
> hist (GeomVector,freq=FALSE,xlab="unités",col="grey",main="Loi Géométrique") 


> lines(seq(min(GeomVector) ,max (GeomVector),1) ,dgeomiseq(min(GeomVector) ,max (GeomVector),1),0.8) ,col="green") 
> | 


| R R ES 2 (ACTIVE) ee. 


Loi Géométrique 


unités 


Nous pouvons voir qu'il y a priori un souci 1c1 car une densité supérieure à l'unité cela n'est 
normalement pas possible et le regroupement des barres (intervalles) n'est pas des plus 
adéquats. 


Il existe encore une fois une autre manière d'avoir un plus joli résultat (mais en réalité un peu 
incorrecte puisque cela peut donner l'impression que la fonction de densité est continue) et qui 
utilise la commande lines( ) et density() cette dernière étant une méthode d'estimation de 
fonction de densité par noyaux et par défaut utilisant une gaussienne: 
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( R à Console Lez) 


N <- 125 
x <— rgeomiN, .8) 
histi(x, 
xlim=cimin(x),maxi{(x)), probability=T, nclass=max(x)-min(x)+1, 
col='lighthlue!, 
main='Geometric distribution!) 
lines (densitvy(x,buwu=1), col='red', lud=3) 


NON EE EN Te 


Geometric diSu muuvr 


Mais là on voit que la ligne de densité devient vraiment n'importe quoi mais au moins la 
densité de l'histogramme est juste! Donc bref ikŸ a un compromis à trouver (sinon on 
augmente le nombre de simulation de 125 à 10'000 par exemple...). 


Puisque la loi binomiale tend vers une loi de Poisson quand le nombre d'essais devient infini 
et que la probabilité devient infiniment petite. il nous faut donc l'étudier! 
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Exemple 162.: Loi Binomiale 
R 3.0.2 


Pour la loi binomiale (loi discrète pour rappel) je n'ai à ce jour pas trouvé mieux que ce qu'il y 
a ci-dessous en utilisant les commandes rbinom() et dbinom() (c'est un peu particulier car 
c'est une loi bien évidemment discrète): 


R à Console [s|g|&x| 


> BinomialVector<-rbinom(125,12,0.6) 

> hist (BinomialVector,freq=FALSE,xlab="unités",col="grey",main="Loi Binomiale") 

> lines(seq(min(BinomialVector) ,max(BinomialVector),1),dbinom(seq(min(BinomialVector) ,max (BinomialVector)),12,0.8) ,col="green") 
> 


IR R Graphics: Device 2 (ACTIVE) 
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Dans la pratique on préfère représenter les lois discrètes par des diagrammes en bâtons (stick 
charts), voyons comment reproduire le diagramme ci-dessus adéquatement pour le coup: 
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FE 


MR Console CRE 


> success <- 0:12 
> plot(success,dbinom(success,size=12,prob=0.8), 


+ type="h",main="Binomial Distribution (n=12, p=0.8)", 

+ ylab="Probability",xlab ="Successes",lwd=3) 

> 

L “ cn [nt= || 


Binomial Distribution (n=12, p=0.8) 
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Nous pouvons aussi forcer l'affichage de tous les pas de l'axe des abscisses: 
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re 


R ele lx) 


> success<-0:12 
> plot (success,dbinom(success,size=12,prob=0.8),type="h",main="Distribution binomiale (n=12,p=0.8)", 


+ ylab="Probabilité",xlab="success",lwd=3, 
+ xaxp = c(0, 12, 12)) 

— } 
1 R Graphics: Device 2 (ACTIVE) bn)(ne1)(sESs) 


Distribution binomiale (n=12,p=0.8) 
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Malheureusement nous n'avons pas trouvé à ce jour comment contrôler la distance entre les 
barres … 


Il existe une autre manière d'avoir un plus joli résultat (mais en réalité un peu incorrecte 
puisque cela peut donner l'impression que la fonction de densité est continue) et qui utilise la 
commande lines() et density( ) cette dernière étant une méthode d'estimation de fonction de 
densité par noyaux et par défaut utilisant une gaussienne: 
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RE R Console 

+ N <=. 225 

> n <= 12 Binomial distribution 
> p <- .8 

> x <- rbinom(N,n,p) 

> histix, 

+ xlim = cimini(ix), max(x)), 

+ probability = TRUE, 

+ nclass = max(x) - minix) + 1, 

+ col = 'lightblue', 

+ main = 'Binomial distribution!) 

> lines(density(x, bwu=1), col = 'red', lud = 3) 
> 


Mais là on voit que la ligne de densité n'est pas vraiment juste non plus mais au moins la 
densité de l'histogramme est juste! Donc bref 1l y a un compromis à trouver (sinon on 
augmente le nombre de simulation de 125 à 10'000 par exemple...). 
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Exemple 163.: Loi Binomiale négative 
R 3.0.2 


Nous avons vu dans le cours théorique que la loi géométrique était en réalité un simple cas 
particulier de la loi binomiale négative (loi discrète). Voyons comment tracer aussi cette 
dernière en utilisant les commandes rnbinom( ) et dnbinom\ ) : 


€ 


R & Console (Ss|g|x 


> BinomNegVector<-rnbinom(125,10,0.5) 

hist (BinomNegVector,freq=FALSE,xlab="unités",col="grey",main="Loi Binomiale Négative") 
lines (segqimin(BinomMNegVector) ,max(BinomNegVector),1), 

dnbinom(seqimin(BinomMNegVector) ,max (BinomNegVector),1),10,0.5),col="green") 


R R Graphics: Device 2 (ACTIVE) -=-|-0-/55) 


V+VY 
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Nous pouvons voir qu'il y a priori un souci 1c1 car une densité supérieure à l'unité cela n'est 
normalement pas possible et le regroupement des barres (intervalles) n'est pas des plus 
adéquats. 


Il existe encore une fois une autre manière d'avoir un plus joli résultat (mais en réalité un peu 
incorrecte puisque cela peut donner l'impression que la fonction de densité est continue) et qui 
utilise la commande lines( ) et density() cette dernière étant une méthode d'estimation de 
fonction de densité par noyaux et par défaut utilisant une gaussienne: 
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N<-125 

x<-rnbinom(N,10,0.5) 

hist{(x, 

xlim=cimini(x) ,max(x)),probability=T,nclass=max(x)-minix)+1, 
col='lighthlue!, 

main='Binomai negative distribution!) 

lines (density(x,bw=1) ,col='red',lud=3) 


VMM+H++VYV 


ES 


Binomai negative distribution 


Mais là on voit que la ligne de densité devient vraiment n'importe quoi mais au moins la 
densité de l'histogramme est juste! Donc bref 1l y a un compromis à trouver (sinon on 
augmente le nombre de simulation de 125 à 10'000 par exemple...). 


Puisque la loi binomiale tend vers une loi de Poisson quand le nombre d'essais devient infini 
et que la probabilité devient infiniment petite. il nous faut donc l'étudier! 
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Exemple 164.: Loi de Poisson 
R 3.0.2 


Pour la loi Poisson (loi discrète pour rappel) je n'ai à ce jour pas trouvé mieux que ce qu'il y a 
ci-dessous et utilisant les commandes rpois() et dpois() (c'est un peu particulier car c'est 
une loi bien évidemment discrète): 


> PoissonVector<-rpois(125,5) 
> hist (PoissonVector,freq=FALSE,xlab="unités",col="grey",main="Loi de Poisson") 
> lines(seq(min(PoissonVector) ,max(PoissonVector),1) ,dpois(seq(min(PoissonVector) ,max (PoissonVector)),mean(PoissonVector)),col="green") 


> 


R R LP a Ets 2 (ACTIVE) Co | 
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Là aussi il existe encore une fois une autre manière d'avoir un plus joli résultat (mais en 
réalité un peu incorrecte puisque cela peut donner l'impression que la fonction de densité est 
continue) et qui utilise la commande lines( ) et density(}) cette dernière étant une méthode 
d'estimation de fonction de densité par noyaux et par défaut utilisant une gaussienne: 
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R & Console slg|x|] 


> N <= 125 

> x <= rpoisiN, 0.6) 

> hHisti(x, 

+ xlim=c(min(x),max(x)), probability=T, nclass=max(x)-min(x)+1, 
+ col='lighthlue!, 

+ main='Poisson distribution!) R R Graphics: Device 2 (ACTIVE) 
> lines(density(x,bw=1), col='red', lwd=3) 
> 


Poisson distribution 


Mais là on voit que la ligne de densité devient vraiment n'importe quoi mais au moins la 
densité de l'histogramme est juste! Donc bref il a un compromis à trouver (sinon on 
augmente le nombre de simulation de 125 à 10'000 par exemple...). 


La distribution de Poisson tend vers une loi Normale dont l'écart-type est égale à l'espérance 
et que l'espérance (in extenso l'écart-type) deviennent très grand. Mais nous avons déjà étudié 
la loi Normale comme tout premier exemple, nous n'allons donc pas y revenir. 


Nous avons démontré aussi dans le cours théorique que la loi hypergéométrique était une 
généralisation de la loi binomiale (et donc par extension une généralisation de la loi 
géométrique). Voyons comment l'obtenir. 
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Exemple 165.: Loi Hypergéométrique 
R 3.0.2 


Donc pour la loi géométrique (loi discrète pour rappel) en se basant toujours sur la même 
approche que les cas précédents mais avec les commandes rhyper() et dhyper() , nous 


avons: 
R & Console (sa|lglx| 
> HypVector<-rhyper (100,15, 5, 5) 
> hist (HypVector,freq=FALSE,xlab="unités",col="grey",main="Loi Hypergéométrique") 
> lines (seq(min(HypVector) ,max (HypVector),1),dhyper (seq(min(HypVector) ,max (HypVector,1)),15,5,5) ,col="green") 
> 


R R Graphics: Device 2 (ACTE) -=-)(-0-/5 
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Nous pouvons voir encore une fois, qu'il y a encore une fois un souci avec le regroupement 
des barres (intervalles) qui n'est pas des plus adéquats... 


Il existe (encore une fois...) une autre manière d'avoir un plus joli résultat (mais en réalité un 
peu incorrecte puisque cela peut donner l'impression que la fonction de densité est continue) 
et qui utilise la commande lines( ) et density(}) cette dernière étant une méthode d'estimation 
de fonction de densité par noyaux et par défaut utilisant une gaussienne: 
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TR RGO Go 


+ 


N <- 100 

x <= rhyper(N, 15, 5, 5) 

histi(x, 
xlim=c(min(x),max(x)), probability=T, nclass=max(x)-min(x)+1, 
col='lightblue!, 
main='Hypergeometric distribution!) 

lines(density(x,bw=1), col='red', lwd=3) 


NE ENVYT 


Hypergeometric distribution 


Bref c'est beaucoup mieux quand même! & 
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Exemple 166.: Loi Multinomiale 
R 3.0.2 


Nous savons que la loi multinomiale est importante dans plusieurs domaines comme nous 
l'avons vu dans le cours théorique (test de McNemar et régression logistique multinomiale). 
Voyons comme faire un graphique de cette dernière en utilisant la fonction dmultinom( ) 
ainsi que la fonction scatterplot3d( ) du package scatterplot3d pour l'aspect visuel. Vous 
allez voir que ce n'est pas trivial: 


FE mn 
Œ R Console ENEIES 
> library("scatterplot3d") 
> R = expand.grid(0:12, 0:12) 
> R, 3] = 12 - RI, 1] - RI, 2] 

» rames i(R}) = El'xl", "x2",; °x3") 

> for (i in 1:nrow(R)) !{ 

+ v = R{i, 1:3] 

+ if (sum(v) == 12 & all(v >= 0)) !{ 

+ R$pli] = dmultinomi(v, prob = c(0.5, 0.3, 0.2)) 
_ } else RSpli] = 0 

+ 

> scatterplot3d(x = R$xil, y = R$x2, z = RS$p, type = "h", 
+ lwd = 10, pch = " ", xlab = "x 1", ylab = "x 2", 
+ zlab = "P(x 1,x 2,1-x 1-x 2)", color = grey(1/2)) 
> title("Multnomial pmf (3rd dimension suppressed)") 

> 

Le on | 

Œ R Graphics: Device 2 (ACTIVE) [sex 
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Exemple 167.: Loi Exponentielle 
R 3.0.2 


La loi exponentielle (loi continue pour rappel) découle de plusieurs manières de la loi de 
Poisson comme nous l'avons vu dans le cours théorique. Voyons donc comme l'obtenir 
directement et proprement en utilisant les commandes rexp() et dexp( ) : 


e . 


R R Console Rex] 


> ExpVector<-rexp(125) 

> hist (ExpVector,freq=FALSE,xlab="unités",col="grey",main="Loi Expontentielle") 
> curve(dexpi{x}) ,add=TRUE,col="darkbhlue", lwd=2) 

> d 


Loi Expontentielle 


unités 


ou encore le grand classique: 


x<-seq(0,5,0.01) 
curve(dexp(x,0.5),xlim=c(0,3),ylim=c(0,1),col="red", lwud=3,vylab="") 
curve (dexp({x,1i)j ,col="green’", lud=3,add=T) 
curve (dexp(x,1.5),col="blue" ,add=T) 

curve (dexp(x,2)j ,col="orange" ,add=T) 
abline({h=0,1ty=3) ;:abline(v=0,lty=3) 

legend {par ("usr'")[2],par("usr'")[4],xjust=1, 
c{ 

expression(paste(lambda[1],"=0.5")), 
expression(paste(lambda[2],"=1")), 
expression(paste(lambdal[3],"=1.5")), 
expression(paste(lambda[4],"=2"))), 
lud=3,col=c{i"red","green","blue",'"orange")) 
titleimain="Distribution exponentielle") 


VVM+++++HVNVVVVVY 


“ 
7 
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qui donne: 


R R Graphics: Device 2 (ACTIVE) slg|x] 
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Exemple 168.: Loi du khi-2 
R 3.02 


La loi du khi-2 (loi continue pour rappel) découle de la loi Gamma comme nous l'avons vu 
dans le cours théorique. Voyons donc comme l'obtenir directement et proprement en utilisant 
la commande dchisq( ) et on arrête de faire les histogrammes car on a compris le principe!: 


x<-secq(0,5,0.01) 

curve (dchisq(ix,1),xlim=c(0,3),ylim=c(0,1) ,col="red", lud=3,ylab="") 
curve (dchisq(x,2) ,col="green", lud=3,add=T) 
curve (dchisqix,4),col="blue" ,add=T) 

curve (dechisq(ix,8) ,col="orange",add=T) 
abline(h=0,1ty=3);abline(v=0,lty=3) 

legend (par ("usr'")[2],par("usr")[4],xjust=i, 
c{ 

expression(paste(df{[1],"=1")), 
expression(paste(df[2],"=2")), 
expression(paste(df{3],"=4")), 
expression(paste(df[4],"=8")j)), 

lwvd=3 ,col=c("red","green’","blue",'"orange")) 
title (main="Distribution du Khi-deux'") 


> 
> 
> 
> 
> 
> 
> 
+ 
Le 
La 
+ 
+ 
+ 
> 
> 


qui donne: 
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Distribution du Khi-deux 
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Exemple 169.: Loi de Student 
R 3.02 


La loi de Student (loi continue pour rappel) découle comme nous l'avons démontré dans le 
cours théorique du rapport entre une variable aléatoire normalement distribuée et la racine 
carrée d'un variable aléatoire distribuée selon une loi du kh1-2. Voyons donc comme l'obtenir 
directement et proprement en utilisant la commande dt( ) : 


| (se 
> x<-seq(-3,3,0.01) 
> curvel(dtix,1),xlim=c{(-10,10)j ,ylim=c(0,0.4) ,col="red", lud=3,vylab="") 
> curveldtix,2),col="green", lwd=3,add=T) 
> curveldti(ix,4),col="blue", lwd=3,add=T) 
> curve(dt(x,8) ,col="orange", lud=3,add=T) 
> abline(h=0, 1ty=3):abline(v=0,1tvy=3) 
> legendi(par ("usr")i[2],par("usr")[4],xjust=1, 
+ c{ 
+ expression(paste(df[1],"=1")), 
+ expression(paste(df[2],"=2")), 
+ expression(paste(df[3],"=4")), 
+ expression(paste(df[4],"=8"))), 
+ lwd=3,col=ci"red",'"green","blue",'"orange")) 
> ‘bad ds de Student") 
> 


ù 3 


Ce qui nous donne: 
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Exemple 170.: Loi de Fisher 
R 3.02 


La loi de Fisher (loi continue pour rappel) découle comme nous l'avons démontré dans le 
cours théorique du rapport entre deux variables aléatoires indépendantes distribuée selon une 
loi du khi-2. Voyons donc comme l'obtenir directement et proprement en utilisant la 
commande df{ ) : 


x<-seq(0,2,0.01) 
curve(dfix,1,1),xlim=c(0,3) ,vlim=c(0,1) ,col="red", lud=3,vylab="") 
curve (df(x,3,1),col="green", lwd=3 ,add=T) 
curve (df(x,1,3)j,col="blue", lud=3 ,add=T) 
curve(df(x,5,5),col="orange", lud=3 ,add=T) 
abline (h=0, 1ty=3} :abline (v=0,1ty=3) 
legendipar ("usr")[2],par("usr'")[4],xjust=i, 
c{ 

expression(paste(df[1],"=(1,1)")), 
expression(paste (df[2],"=(3,1)")), 
expression(paste(d£f[3],"=(1,3)")), 
expression(paste(df[4],"={(5,5)"))), 
lud=3,col=c{i"red","green", "blue", '"orange")) 
title(main="Distribution de Fisher") 


MH ++++NNNNNNY 


Es 


Ce qui nous donne: 
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Exemple 171.: Loi Log-Normale 
R 3.0.2 


La loi Log-Normale (loi continue pour rappel) découle comme nous l'avons démontré dans le 
cours théorique du logarithme d'une variable aléatoire Normale (cas très courant en finance!). 
Voyons donc comme l'obtenir directement et proprement en utilisant la commande dinorm( ) 


ES RCE 
> x<-seq(0,2,0.01) 
> curve(dlnormix,i,1)j ,xlim=c(0,3),ylim=c(0,1) ,col="red", lwud=3 ,ylab="") 
> curve(dlnormix,3,1)j ,col="green", lud=3 ,add=T) 
> curve(dlnormix,1,3) ,col="blue", lud=3,add=T) 
> curve (dlnormix,5,5),col="orange", lud=3 ,add=T) 
> abline{h=0, lty=3);:abline (v=0,1ltys=3) 
> legendipar ("usr'")[2],par("usr")[4],xjust=1, 
+ ci 
+ expression(paste (mu[1i]l,"=1,",sigmal1]l,"=1")), 
+ expression(paste (mu[2],"=3,",sigmal[2],"=1")), 
+ expression(paste(mu[3],"=1,",sigmal3],"=3")), 
+ expression(paste (mu[4],"=5,",sigmal4],"=5"))), 
+ lud=3,col=ci"red", "green", "blue" ,'"orange")) 
> D PE Log-Normale") 
> 
R 
« 
ce qui donne: R 


Distribution Log-Normale 
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Exemple 172.: Loi de Weibull 
R 3.02 


La loi de Weibull (loi continue pour rappel) serait donc empirique comme nous l'avons 
mentionné dans le cours théorique (cas très courant en ingénierie!). Voyons donc comme 
l'obtenir directement et proprement en utilisant la commande dweibull( ) : 


VV +++HVNVVNYVY 


(cm )| (=) 
x<-secd(0,2,0.01) 
curve (dweibull(x,shape=1,scale=1) ,xlim=c(0,10) ,ylim=c(0,1.2),col="red", lud=3,vylab="") 
curve (dueibull(x,shapes=3,scale=1) ,col="green", lud=3,add=T) 
curve (dueibull(x,shape=1,scales=3) ,col="blue", lud=3,add=T) 
curve (dueibull(ix,shape=5,scale=5) ,col="orange", lud=3,add=T) 
abline (h=0, 1lty=3) ;abline(v=0,1ty=3) 
legend (par ("usr")[2]1,par("usr")[4]1,xjust=1, 
cl 
expression(paste (beta[1],"=1,",eta[1],"=1")), 
expression(paste(beta[2],"=3,",eta[2],"=1")), 
expression(paste (beta[3],"=1,",eta[3],"=3")), 
expression(paste (beta[4],"=5," ,eta[4],"=5"))), 
lwds=3,col=c{("red",'"green", "blue", "orange")) 
title(main="Distribution de Weibull à deux paramètres") 


Ce qui nous donne: 


Distribution de Weibull à deux paramètres 
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Exemple 173.: Loi Gamma 
R 3.02 


La loi Gamma (loi continue pour rappel) serait donc empirique comme nous l'avons 
mentionné dans le cours théorique (cas très courant dans les théories statistiques en général!). 
Voyons donc comme l'obtenir directement et proprement en utilisant la commande 
dgamma( ) : 


x<-seg(0,5,0.01) 

curve (dgamma(x,shape=1,rate=1) ,xlim=c(0,10) ,ylim=c(0,1.2),col="red",lwud=3,vylab="") 
curve (dgammai(ix,shape=3,rate=1) ,col="green", lud=3,add=T) 
curve (dgamma(x,shape=1i,rate=3) ,col="blue", lud=3,add="T) 
curve (dgamma(x,shape=5,rate=5) ,col="orange", lud=3,add=T) 
abline (h=0,1ty=3);abline(v=0,1ty=3) 

legend (par ("usr'")[2],par("usr'")[4],xjust=i1, 

ci 

expression(paste(a[1],"=1,",lambdal1],"=1")), 
expression(paste(a[2],"=3,",lambdal[2],"=1")), 
expression(paste(a[3],"=1,",lambdal3],"=3")), 
expression(paste(a[4],"=5,",lambdal4],"=5"))), 
lvd=3,col=c{"red","green’”, "blue", "orange")) 
titleimain="Distribution Gamma") 


> 
> 
> 
> 
> 
> 
> 
+ 
+ 
+ 
+ 
+ 
+ 
> 
> | 


D 


Ce qui nous donne: Ÿ 
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Exemple 174.: Loi Beta 
R 3.02 


La loi Beta (loi continue pour rappel) serait donc à peu près empirique comme nous l'avons 
mentionné dans le cours théorique (cas très courant dans la gestion de projets et certains 
modèles d'analyse bayésienne!). Voyons donc comme l'obtenir directement et proprement en 
utilisant la commande dbeta( ) : 


> x<-sed(0,5,0.01) 

> curve(dbetai(ix,shapel=0.5,shape2=0.5),xlim=c(0,1.2),ylim=c(0,3),col="red", lud=3,ylab="") 
> curve(dbetai(x,shapel=2,shape2=1) ,col="green", lud=3,add=T) 
> curvel(dbetaix,shapel=1,shape2=3) ,col="blue", lud=3,add=T) 

> curve(dbeta(x,shapel=5,shape2=5) ,col="orange", lud=3,add=T) 
> curve(dbeta(x,shapel=1,shape2=1) ,col="pinKk",luwd=3,add=T) 

> æbline(h=0, 1ty=3) :abline (v=0, lty=3) 

> legendipar("usr")[2],par("usr'")[4],xjust=1, 

+c( 

+ expression(paste {alphal[1],"=0.5,",beta[1],"=0.5")), 

+ expression(paste (alpha[2],"=2,",beta[2],"=1")), 

+ expression(paste (alphal[3],"=1,",betal[3],"=3")), 

+ expression(paste (alpha[4],"=5,",betal[4],"=5")), 

+ expression(paste {alpha[S],"=1,",betal[s],"=1"))), 

+ lwds=3,col=ci"red",'"green", "blue" ,"orange","pink")) 

> De ne Beta") 

> 


Ce qui nous donne: VS 


Distribution Beta 


15 20 25 30 


a 
ME 
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Maintenant voyons un cas intéressant. 
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Rappelons que dans le cours théorique, nous avons démontré pour le test A/B Bayésien que: 


: ag-—1 B(a 1 + i, Bp + BA) 
Pr(pg > PA) = 2. (Be + i)B(1 + à, Bs)B(@4, Ba) 


Voyons cependant, par curiosité, d'abord la comparaison non-bayésienne avec prop.test( ): 


R RGui (64-bit) - [R Console — 0 


R File Edit View Misc Packages Windows Help a x 


> prop.test (n=c(1000,1000), x=c(100,78), correct=F) 
2-sample test for equality of proportions without continuity correction 


data: c(100, 78) out of c(1000, 1000) 
X-squared = 2.9847, df = 1, p-value = 0.084085 
alternative hypothesis: two.sided 

95 percent confidence interval: 

—0.0029398 0.0469398 
sample estimates: 
prop 1 prop 2 

0.100 0.078 


” 


AC 
. 2 à SN __— sn . 
Maintenant écrivons explicitement la somme duvas bayésien comme l'intuition nous dirait de 
le faire: 


R RGui (64-bit) - [R Console] L Ü 


R File Edit View Misc Packages Windows Help & x 


# succès+i de A 
a_control <- 78+1 

+ échecs+1 de À 

b_ control <- 1000-78+1 
# succès+i de B 

a_test <-— 100+1 

# échecs+1 de b 

b_ test <-— 1000-100+1 


Prob B est meilleur <- 0 
for (i in 0:(a test-1) ) !{ 
Prob B est meilleur <- Prob B est meilleurtbeta(a control+i,b control+b test) / 
(b_test+i)*beta(l+i,b test)*beta(a control,b control) 


} 


round(Prob B est meilleur, 4) 
11 0 


VV V +++ VNVN VV VV VV NN NV 


Il y clairement un problème, et celui-ci vient en réalité de la fonction beta( ) qui donne très 
vite des Infinis. Il vaut alors mieux travailler avec la fonction log-beta Ibeta( ) comme ci- 
dessous: 
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R RGui (64-bit) - [R Console] - [1 


GR File Edit View Misc Packages Windows Help - D x 


ROSE | 


a_AÀA <- 78+1 
b_A <— 1000-76+1 
a_B <- 100+1 
b_B <-— 1000-100+1 


total <- 0 


for (i in O:(a_B-1) ) !{ 
total <- total + exp(lbeta(a A+i, b B+b A) 
— log(b_ B+i) 
- lbeta(i+i, b_B) 
— lbeta(a À, D A)) 


} 
total 
1] 0.9576921 


VV VV VV YNU NV 
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Exemple 175.: Loi Triangulaire 
R 3.6.3 


La loi triangulaire est très connue par les managers qui débutent en simulation de scénarios en 
entreprise (c'est souvent la progression intellectuelle qui suit l'estimation ponctuelle et précède 
la méthode utilisant la loi bêta). 


Voyons donc comment créer cette fameuse variable aléatiore à l'aide du EnvStats et de ses 
fonctions dtri( ), ptri( ), qtri( ) et surtout de rtri( ). 


E 


onsole MERE 


library("EnvStats") 
tri<-rtri(n=100000, min=3, max=20, mode=12) 
hist(tri) 


VVV NV 


Histogram of tri 
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Exemple 176.: Petite compilation pour comparaisons 
R 3.0.2 


Voici si jamais une petite commande pour rassembler quelques fonctions de distribution 
(ensuite à vous de généraliser en fonction de vos besoins): 


c 
R R Console 


par (mfcol=c(2,4)) 
pilot (dnorm,-5,5) 
plot (pnorm,-5,5) 
plot (dexp,0,5) 
pilot (pexp,0,5) 
plot (dlnorm,0,5) 
plot (plnorm,0,5) 
plot (dcauchy,0,5) 
plot (pcauchy,0,5) 


1.0 
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Figure 215 Graph d'une galerie de fonctions de répartition et densité 


Notons qu'il existe un package sympa, nommé vistributions, pour enseigner les 4 lois les plus 
fondamentales: 
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RE Console 


library("vistributions") 

library ("ggpubr") 

plotl<-vdist normal perc(probs=0.5S,mean= 60, sd=3, type="both") 
plot2<-vdist binom perc(n=10, p=0.5, ©.05) 
piot3<-vdist chisquare perc(probs=0.05, df=8, type="upper") 
ploté<-vdist f perc(probs=0.20, num df=4, den df=5, type="upper") 
fles quatre graphes dans une unique fenêtre 

ggarrange (ploti,plot2,plot3,ploté,ncol = 2, nrow = 2) 


> 
> 
> 
> 
> 
> 
> 
> 
> | 


MR Graphics: Device 2 (ACTIVE) [s [=] D | 
Normal Distribution 0.25- 
P(57.977 < X < 62.023) = 50% 


25% Û 50% Û 25% 0.20 - 
I 1 | 
! 1 
1 1 
0.05 - | 
1 AT 


000-.— 
45 48 51 54 57 60 63 66 69 72 75 0 1 2 3 4 5 6 7 8 9 10 
Mean: 60 Standard Deviation: 3 No. of success 
Chi Square Distribution: df = 8 f Distribution 
P{X > 15.507) = 5% P(X > 2.24) = 20% 
95% 5% 80%b0% 


0 5 10 3 
Mean = 8 Std Dev. = 4 Mean = 1667 Std Dev. = 3.119 
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Exemple 177.: Diagramme quantile-quantile Normal (q-q 


plot) 
R 3.0.2 


La commande qqnorm( ) permet de comparer des données à la distribution Normale 
empirique correspondante: 


R à Console s|e|x|] 


# 


> setwdi{i"C:/"] 
> mydata<-read.csv("VentesClean.csv",header=T,sep=";:") 
> qanormimydatafQuantite,main="©Q-Q plot") 
> -qridii 
> qaline imydataf$Quantite,col="red") 
> op<-par(fig=c(0.02,0.5,0.5,0.98) ,new=TRUE) 
> hist (mydataf$Quantite,probability=T,col="light hlue",xlab="", 
+ ylab="",main="",axes=FALSE) 
> lines(density(mydataf$Quantite) ,col="red",lwd=2) 
> box) 
Q-Q plot 
Q 
m 
un 
d à 
= 
[æ) 
[ua] 
= Le | 
G 
2 à 
EL 
E o 
Asa] — 
(ep) 
[re] 
[en 


Theoretical Quantiles 


Figure 216 Graph quantile-quantile avec histogramme et fonction de densité 


Ou avec les mêmes données que dans le cours Minitab: 
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À R Console 


qanorm(ic(-1.2,0.2,-0.6,0.08,-1),main="Q0-Q plot") 
grid) 
qaline(ci-1.2,0.2,-0.6,0.08,-1),col="red") 


Sample Quantiles 


-0.5 0.0 0.5 


Theoretical Quantiles 


Figure 217 Graph qq plot simple 
S 
| . eŸ : 
On peut faire mieux avec le package car et la commande qqPlot() non seulement au niveau 
de la qualité du visuel mais aussi au niveau du choix des fonctions d'ajustement: 


libraryi(car) 

setwud({"C:/") 
mydata<-read.csv("VentesClean.csv",header=T,sep=";:") 
par (mfrow=c(1,2)) 


qaPlot (mydata$Quantite,dist="norm",ylab="Quantité") 
aqaPlot (mydatafQuantite,dist="pois",lambda=mean(mydata$Quantite) ,ylab="Quantité") 


Ce qui donne: 
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Quantité 
Quantité 


8 10 12 14 16 


norm quantiles pois quantiles 


Figure 218 Graph q-q plot avec intervalles confiance 
On peut aussi mélanger deux graphiques classiques entre eux: 


MR Console MIRE 


> library("car") 

> mydata<-read.csv("c:/tmp/VentesClean.csv",header=T, sep=",") 
> par(mfrow=c(1,2)) 

> boxplot (mydata$Quantite,ylab="Quantité") 

> qqPlot (mydata$Quantite,dist="norm") 

mR 


R Graphics: Device 2 (ACTIVE) SE) 
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Figure 219 Graph q-q plot avec Box-Whisker 
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On peut aller encore plus loin avec le package qqplotr et 4 bandes différentes: 


GR RGui (64-bit) - [R Console] . C] 


QR File Edit View Misc Packages Windows Help - 5 x 


ES OISOSN | 


> library("qqplotr") 

> #on doit d'abord obligatoirement transformer en dataframe 
|> ftet renommer la colonne en "norm" à ce jour 

> smp<-data.frame (norm-mydata$Quantite) 


> ggplot (data = smp, mapping = aes(sample = norm)) + 


#bande inversées de kolmogorov-smirnov 

geom qq _ band(bandType = "ks", mapping = aes(fill = "KS"), alpha = 0.5) + 
fbande proposées par Aldor-Noiman et al. (2013) 

geom_ qq _ band(bandType = "ts", mapping = aes(fill = "TS"), alpha = 0.5) + 


fbande basée sur la distribution normale (bande classique) 

geom_qq_ band(bandType = "pointwise", mapping = aes(fill = "Normal"), alpha = 0.5) + 
#bande basée sur le bootstraping 

geom_ qq _ band(bandType = "boot", mapping = aes(fill = "Bootstrap"), alpha = 0.5) + 
stat_qq line() + 

stat_qq point() + 

labs(x = "Theoretical Quantiles", y = "Sample Quantiles") + 

scale fill discrete ("Bandtype") 


VO + + + + + + + + 


Ce qui donnera graphiquement: 
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Exemple 178.: Loi faibles des grandes nombres vs loi forte des 


grands nombres 
R 4.1.1 


Dans ce qui suit, nous parlons d'une marche aléatoire simple, À ;= +1 avec une probabilité 
égale, et nous calculons des moyennes glissantes: 


ÿ pe n=12;. 
n ni 


Ce qui sous forme de langage et graphique R sera donné par: 


QG R Console RES 


> n <- 2000; m <- 50; e <- 0.05 

> s <- cumsum(2* (rbinom(n, size=l, prob=0.5) - 0.5)) 

> plot(s/seq.int(n), type = "l", ylim = c(-0.4, 0.4) ,main="loi forte des grandes nombres") 
> abline(h = c(-e,e), 1ty = 2) 

> 


ni 
R R Graphics: Device 2 (ACTIVE) (Es) 


loi forte des grandes nombres 


0.4 


(a 
[æ)] 
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La loi forte des grands nombres (convergence presque sûrement) dit que nous pouvons être 
sûrs à 100 % que cette courbe qui s'étend vers la droite finira par, à un moment donné, tomber 
entièrement dans les bandes pour toujours par la suite (vers la droite)! 


Alors que la loi faible des grands nombres (convergence en probabilité) indique qu'une grande 
partie des chemins d'échantillonnage seront dans les bandes du côté droit, au temps n. Nous 
ne pouvons jamais être sûrs qu'une courbe particulière sera à l'intérieur à un moment donné, 
mais à regarder la masse de nouilles dans la bande dans le graphique ci-dessous nous montre 
que ce serait un pari assez sûr. La loi faible des grands nombres indique également que nous 
pouvons rendre la proportion de nouilles à l'intérieur aussi proche de 1 que nous le souhaitons 
en rendant # suffisammen grand. 


®: See) 
> x <- matrix(2* (rbinom(n*m, size=1l, prob=0.5) - 0.5), ncol = m) 

> y <- apply(x, 2, function(z) cumsum(z)/seq along(z)) 

> matplot(y, type = "1", ylim = c(-0.4,0.4),main="loi faible des grandes nombres") 

> abline(h = c(-e,e), 1ty = 2, lwd=2) 

>| 

“IR R Graphics: Device 2 (ACTIVE) 


loi faible des grandes nombres 
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Exemple 179.: Théorème central limite 
R 3.62 


Bon voici les deux des trois exemples types du théorème central limite (le code lui-même 
suffit comme explication): 


R À Console ER ES 
La] 

> for (i in 1 : 1000) mns=c(mns, mean(runif(40))) 

> hist (mns) 

a | 

M À Graphics: Device 2 (ACTIVE Æelelx) 


Histogram of mns 


Frequency 


et évidemment on peut faire le même exemple avec la somme plutôt que la moyenne: 
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MR Console EAGLE 


1000) sum(runif(40))) 


> Ed (1. in À € 
> hist (sommes) 
> | 


sommes=c (sommes, 


(ACTIVE) 


Histogram of sommes 


Frequency 


W 
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Exemple 180.: Divergence de Kullback-Leïbler et distance de 


Wasserstein 
R 3.5.2 


Comme promis, voyons une application numérique du calcul de la divergence de Kullback- 
Leibler et de la distance de Wasserstein car non seulement c'est important de savoir les 
calculer, mais c'est aussi un exercice pour faire un peu de script avec R: 


> x <- seq(-5, 5, length=300) #on définit un même support 

> y <- cbind(u=dunif(x, 0,2), nl=dnorm(x), n2=dnorm(x,1), t=dt(x, df=10)) #on crée 4 distributions 
> matplot(x,y,type="l") #on affiche le tout 

> 


Donc le graphique fait à l'aide de la fonction matplot() donne: 


Fr 


R =] Oo | x 


0.4 


Et maintenant les applications numériques donnent pour la divergence de Kullback-Leïbler 
(qui pour rappel, ne satisfait pas les propriétés d'une distance!): 
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MR RGui (64-bit) - [R Console] — [ 


MR File Edit View Misc Packages Windows Help …_ EF x 


> #Créons la fonction KL 

> KL <- function(p, q, seuil=ie-10 ) { 

step = 1/sum(p) 

use <-— (p>seuil) & (q>seuil) #pour éviter des pbms numériques 
k <- sum( pluse] * log(pluse]/q{use]) ) 

return( k * step ) 


: 


V+++++ 


> #Et allons-y pour quelques exemples 
> KL(yl,"n1"] ,; yl,"n1"] ) 
| [1] 0 
> KL(y{,;"n1"] , yl,"n2"] ) 
| [1] 0.5 
|> KL(yl,"n1"] , yl,"t"] ) 
[1] 0.01119959 
| > #Notons que KL(P,Q) != KL(Q,P) 
> KL(yl,"t"] , yl,"n1"]) 
[1] 0.01805289 
| > tetc. 
> | 


Et voyons maintenant la distance de Wasserstein avec la fonction wasserstein1d( ) du 
package transport: 


MR RGui (64-bit) - [R Console] — 
| ŒR File Edit View Misc Packages Windows Help ll x 


EE 


library ("transport") 
x<-segq(-5,5,length=300) 
y<-chind(u=dunif(x,0,2),ni=dnorm(x) ,n2=dnorm(x,1),t=dt(x,df=10)) 
matplot(x,y,type="l") 
wassersteinid(y{,"n1"], yl,"n1"]) 

[1] 0 

> wassersteinid(y[{,"n1"], yl,"n2"]) 
| [1] 0.0002687853 

> wassersteinid(y{,"n1i"], yl,"t"]) 

[1] 0.006143664 

> wassersteinid(y{,"t"], yl,"n1"]) 

# 0.006143664 

> 


VMVVNVNV 
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Si vous avez tenu jusqu'ici en lisant tous les chapitres précédents, vous êtes à même 
maintenant (en théorie) à comprendre la cheatsheet suivante sur les bases de R: 


RD 2 
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13. Statistiques paramétriques 


Nous allons donc voir dans ce chapitre si nous retrouvons les résultats calculés à la main dans 
le cours théorique pour voir si les résultats correspondent aux démonstrations mathématiques 
détaillées et aussi vérifier s'il y a correspondance avec Minitab, SPSS et MS Excel (puisque 
nous savons que l'implémentation des algorithmes et l'approche calculatoire peut différer!). 


Pour que les choses soient claires, nous ne reviendrons pas dans ce chapitre ni dans celui des 
Statistiques non paramétriques sur le problème de la p-value et de ses utilisations fallacieuses 
que nous avons longuement développement lors des séances théoriques. 


Ce chapitre contient actuellement seulement: 

32 tests paramétriques sur un peu plus de 416 connus 
Comme nous le savons sur un total de plus de 800 tests paramétriques et non-paramétriques!!! 
Remarque: Nous verrons à la fin de ce chapitre qu'il existe un package qui construit 


automatiquement les phrases de conclusions et d'analyses (en anglais) pour les tests 
statistiques les plus simples (voir page 1442). 
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Pédagogie 
Commençons avec un package qui sera très utile aux professeurs (et probablement aussi aux 
étudiants/praticiens des statistiques) pour enseigner et faire comprendre de façon assez 


intuitive et illustrée le risque de première et deuxième étape. 


Pour cela nous installons le package smovie et exécutons la commande suivante: 


R File Edit View Misc Packages Windows Help CR 


BROBCECE 


| > shypo (mu0 = 0, eff = 5, n = 16, a = 2.3, delta a = 0.01)| 


Ce qui aura pour effet d'ouvrir la fenêtre suivante: 


+ [sample size, n n =16 sa= 2.3 


+ {| critical value, a 


—— N(0,36/n) —— N(5,36/n) 


+ | mu under HO, mu0 


+ |'eff size, eff = mul - mu0 


- + | standard deviation, sigma 
Targets: alpha = 0.05 beta = 0.1 
@ set a and n by hand 


density 
000 005 010 015 0.20 0.25 


( set a to achieve target alpha 


© set a and n to achieve target alpha and beta 


P = 0.036 , « = 0.063 


1.0 


08 


0.6 


— type ll, B — typel,œ 


probability of error 
0.4 


0.2 


0.0 


a 
critical value 


Figure 221 Graph avec erreur de type I et IL 


Il ne reste ensuite plus qu'à jouer avec les boutons pour enseigner ou se sensibiliser au sujet 
des erreurs de type I et II de façon ludique et interactive! 
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Exemple 181.: Tests de Normalité (ou d'adéquations en 
général) 


Nous savons que la grande majorité des tests statistiques analytiques (ceux pour lesquels une 
formule close existe) nécessitent l'hypothèse de normalité. Il est logique de commencer par ce 
type de vérification avant de poursuivre dans une quelconque analyse. 


Remarque: Nous ne reviendrons pas dans ce cours/livre R du "pseudo-débat" qu'il y a chez 
certains praticiens quant à l'usage des tests de normalité/adéquation et le nom ("test de 
normalité") qui leur a été attribué. 


Test d'adéquation d'Anderson-Darling (ie Agostino-Stephens) 
R 3.0.2 


Nous souhaitons ici simplement vérifier que nous obtenons les mêmes résultats que ceux 
obtenus dans Microsoft Excel avec la méthode Monte Carlo (et in extenso vérifier les résultats 
obtenus lors de l'étude théorique du test de d'Anderson-Darling) et Minitab. 


En utilisant la commande ad.test(}) et avec les mêmes données brutes que dans le cours 
théorique, nous avons en utilisant le package ADGofTest: 


= RGui {64-bit} - [R Consc 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> library(ADGofTest) 
> sample<-c(-1.2,0.2,-0.6,0.8,-1) 
> ad.test (sample, pnorm) 


« 


Anderson-Darling GoF Test 


data: sample and pnorm 
AD = 0.636, p-value = 0.6058 
alternative hypothesis: Ni 


È 


> | 


Donc ici nous voyons un énorme avantage par rapport à Minitab déjà: nous pouvons choisir la 
distribution selon nos désirs! 


Nous voyons cependant une différence significative entre R et Minitab. Mais nous en 
connaissons l'origine puisque nous avons fortement critiqué certains aspects du test d'AD 
pendant le cours théorique (cependant la conclusion reste la même). 


Il existe un autre package spécialisé dans les tests de Normalité et qui est nortest mais bon 
voilà 1l souffre d'un léger "problème" comme en atteste la capture d'écran ci-dessous (car il 
suite la recommandation des articles d'origine des auteurs): 
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R Fichier Edition Voir Misc Packages Fenêtres Aide 


1> library(inortest) 

> Mesures<-c(i-1,2,0.2,-0.6,0.8,-1) 

> ad.test (Mesures) 

Erreur dans ad.test (Mesures) : sample size must be greater than 7 


> | 


Accessoirement, rappelons que nous avons vu dans le cours théorique que le test d'ajustement 
de Cramer-Von Mises est un cas particulier du test d'Anderson-Darling (il n'y a simplement 
pas de dénominateur). Ce test existe aussi sous la commande cvm.test() dans le package 
nortest mais 1l souffre du même défaut. Effectivement: 


K Fichier Edition Voir Misc Packages Fenêtres Aide 


|> libraryinortest) 
> sample<-c(-1.2,0.2,-0.6,0.8,-1) 
> cvm.test (sample) 


Erreur dans cvym.test (sample) : sample size must be greater than 7 


> | 


Û 


Sinon on peut aussi s'amuser à comparer avec plein de distribution: 
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MR RGuï (64-bit) - [R Console] = 


GR File Edit View Misc Packages Windows Help x 


> ad.test (rnorm(6),pnorm) # teste une distribution normale 


Anderson-Darling GoF Test 


| data: rnorm(6é) and pnorm 
AD = 0.41755, p-value = 0.8256 
alternative hypothesis: NA 


> ad.test(rpois(6,4),ppois,4) # teste une distribution de poisson 
Anderson-Darling GoF Test 


data: rpois(6, 4) and ppois 
AD = 2.5732, p-value = 0.04734 
alternative hypothesis: NA 


| > ad.test(runif(6,1,10),punif,1i,10) # teste une distribution uniforme 
Anderson-Darling GoF Test 


data: runif(6, 1, 10) and punif 
AD = 0.174666, p-value = 0.9972 
alternative hypothesis: NA 


> ad.test(rexp(6,2),pexp,2) # test une distribution exponentielle 


Anderson-Darling GoF Test 


data: rexp(6, 2) and pexp 
| AD = 2.2392, p-value = 0.07027 
alternative hypothesis: NA 


| > ad.test(rlnorm(6),plnorm) # test une distribution log-normale 


Anderson-Darling GoF Test 


| data: rlnorm(6) and plnorm 
| AD = 2.9487, p-value = 0.03068 


| alternative hypothesis: NA 
LA 


Il est intéressant d'observer que la fonction ad.test( ) accepte des fonctions de distribution 
discrètes en entrée. 
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Test de Normalité de Shapiro-Wilk 
R 3.0.2 


Nous souhaitons ici vérifier que nous obtenons les mêmes résultats que ceux obtenus dans 
Microsoft Excel avec la méthode Monte Carlo (et in extenso vérifier les résultats obtenus lors 
de l'étude théorique du test de Ryan-Joiner) et Minitab. 


Rappelons que l'avantage de ce test non paramétrique de normalité (donc basé sur les rangs) 
est sa simplicité mais qu'il n'est pas contre pas adapté lorsque que trop de valeurs identiques 
se répètent. 


En utilisant la commande shapiro.test(}) et avec les mêmes données brutes que dans le cours 
théorique, nous avons: 


KR Fichier Edition Voir Misc Packages Fenêtres Aide 


> Mesures<-c(0.1685,0.1705,0.1708,0.1713,0.1728,0.1732,0.1735, 
+ 0.1739,0.1740,0.1747) 
> shapiro.test (Mesures) 


Shapiro-Wilk normality test 


data: Mesures 
U = 0.9246, p-value = 0.3971 


> | 


La sortie est complément différente de Minitab au niveau esthétique (c'est bien dommage!) 
mais la valeur W et la p-value sont conformes en ordre de grandeur (voir mon livre Minitab 
pour les valeurs numériques exacte à comparer). 


Sinon on peut aussi s'amuser a voir le comportement de ce type de tests: 
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UR RGui (64-bit) - [R Console] = 


GR File Edit View Misc Packages Windows Help 4 x 


> set.seed({(i) 
> shapiro.test(rnorm(6)) # teste une distribution normale 


Shapiro-Wilk normality test 


data: rnorm(é) 
W = 0.86168, p-value = 0.195 


> shapiro.test(rpois(6,4)) # teste une distribution de poisson 
Shapiro-Wilk normality test 


data: rpois(6, 4) 
W = 0.77942, p-value = 0.03806 


> shapiro.test(runif(6,1,10)) # teste une distribution uniforme 
Shapiro-Wilk normality test 


data: runif(6, 1, 10) 
W = 0.940599, p-value = 0.664 


> shapiro.test(rexp(6,2)) # test une distribution exponentielle 
Shapiro-Wilk normality test 


data: rexp(6, 2) 
W = 0.72308, p-value = 0.01072 


> shapiro.test(rlnorm(6)) # test une distribution log-normale 
Shapiro-Wilk normality test 


data: rlnorm(é) 
W = 0.87328, p-value = 0.2396 


> | 


Là encore il est intéressant d'observer que la fonction shapiro.test( ) accepte des fonctions de 
distribution discrètes en entrée. 
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Puissance du test d'Anderson-Darling ou Shapiro-Wilk (ou autre) 
R 3.5.1 


Une question et un besoin fréquent dans la pratique est d'estimer la puissance d'un test de 
normalité et indirectement la taille de l'échantillon. 


Avant de voir comment faire cela, nous laisserons le soin au lecteur de se documenter. De 
nombreuses études (dont le code n'est pratiquement jamais donné) semblent montrer que: 


1. Les tests-T, la régression linéaire, et l'ANOVA sont relativement robustes voire... très 
robustes à la non-normalité (mais 1l faut vérifier toutefois dans la pratique quand on 
manipule des données de sujets qui sont relatifs à la santé public). 


2. Le test de Shapiro-Wilk est plus puissant que le test d'Anderson-Darling (ou même de 
Cramèr-von-Mises ou de Kolmogorov-Smirnov) 


À ce jour, et a priori, on peut calculer la puissance de ce type de tests qu'avec les techniques 
de Monte-Carlo. 


Pour cela nous allons utiliser le package PoweR et ses nombreuses fonctions, mais en 
particulier sa fonction powcomp.fast(). Mais pour la comprendre ainsi que le package en 
général, il faut d'abord voir la fonction get.index( ) et ses deux listes: 


R 
R File Edit View Misc Packages Windows Help 
ÉROBCSIOIE 
> library("PoweR"}) 
> getindex(})[1] 
$'‘mat.laws" 

Index Law Nbparams Defaultil Default2 Default3 Default4 
4 1 Laplace (mu,b) 2 0.000000 1 NA NA 
2 2 Normal (mu, sigma) 2 0.000000 pu NA NA 
3 3 Cauchy (mu, sigma) 2 0.000000 1 NA NA 
4 4 Logistic(mu,sigma) 2 0.000000 1 NA NA 
2 5 Gamma (shape, rate) 2 2.000000 1 NA NA 
6 6 Beta(a,b) 2 1.000000 1 NA NA 
7 7 Uniform(a,b) 2 0.000000 1 NA NA 
8 8 Student-t (df) 1 1.000000 NA NA NA 
Li 9 Chi-squared(df) 1 1.000000 NA NA NA 
10 10 Lognormal (logmean, logsd) 2 0.000000 "à NA NA 
LL 11 Weibull (shape, scale) 2 1.000000 L NA NA 
42 12 ShiftedExp(l,rate) 2 0.000000 un NA NA 
13 13 U*{j+1} 1 1.000000 NA NA NA 
14 14 AveUnif(k,a,b) 3 2.000000 0 1.0 NA 
15 15 UUnif (ji) 1 1.000000 NA NA NA 
16 16 VUnif(j) 1 1.000000 NA NA NA 
LT L7 JSU (mu, sigma, nu, tau) 4 0.000000 1 0.0 5e-01 
18 18 Tukey (1) 1 1.000000 NA NA NA 
19 19 LoConN (p,m) 2 0.200000 3 NA NA 
20 20 JSsB(g,d) 2 0.000000 LS NA NA 
21 21 SkewN(xi,omega, alpha) 3 0.000000 L 0.0 NA 
22 22 ScConN(p, d) 2 0.200000 2 NA NA 
23 23 GP (mu, sigma, xi) 3 0.000000 L 0.0 NA 
24 24 GED (mu, sigma, p) 3 0.000000 1 1.0 NA 
25 25 Stable (alpha,beta,c,mu) 4 1.000000 0 1-0 0e+00 
26 26 Gumbel (mu, sigma) 2 1.000000 x NA NA 
27 a à Frechet (mu, sigma, alpha) 3 0.000000 1 20 NA 
28 28 GEV (mu, sigma, xi) 3 0.000000 LA 0.0 NA 
29 29 GArcSine (alpha) 1 0.500000 NA NA NA 
30 30 FoldN (mu, sigma) 2 0.000000 1 NA NA 
31 31 MixN (p,m,d) 3 0.500000 0 1-0 NA 
32 32 TruncN(a,b) 2 0.000000 1 NA NA 
33 33 Nout (a) 1 1.000000 NA NA NA 
34 34 GEP(ti1,t2,t3,crit) 4 0.500000 0 1-0 1e-06 
35 35 Exponential (lambda) 1 1.000000 NA NA NA 
36 36 ALaplace (mu,b,k) 3 0.000000 1 2.0 NA 
37 a% NIG(alpha,beta,delta,mu) 4 1.000000 0 +:0 0e+00 
38 38 APD(theta,phi,alpha, lambda) 4 0.000000 1 0.5 2e+00 
39 39 modAPD (mu,sigma,thetal,theta2) 4 0.000000 1 0-5 2e+00 
40 40 LPtn(alpha,mu, sigma) 3 1.959964 0 1,0 NA 
>| 


R Statistical Software 1260/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


R File Edit Windows 


Help 


ñ 
> getindex(})[2] 
$‘mat.stats”® 
Index Stat Alter Nbparams 
a s À Kk-S 3 0 
2 ) AD°* 3 0 
3 3 z:.€ 3 0 
4 4 Z_A 3 0 
5 5 PS 3 0 
6 6 &K”2 3 0 
7 T JB 3 0 
8 8 DH 3 0 
9 ) RJB 3 0 
10 10 T_{Imom} 3 0 
11 LE T_{lmom}"{(1)} + 0 
12 Le T_{lmom}"{(2)} 3 0 
LA 13 T_{lmom}”{(3)} 3 0 
14 14 BM_{3-4} 3 0 
ET LS BM_{3-6} 3 0 
16 16 T_{MC-LR} s| 0 
4? 17 T_w 0,1,2 0 
18 18 T_{MC-LR}-T_w 4 0 
ag. 19 T_{S,5} 3 0 
20 20 T_{K,5} 3 0 
2% 24 Li 4 0 
22 22 n° 4 0 
23 23 tilde{W} 4 0 
24 24 D 0,1,2 0 
25 25 E 4 0 
26 26 cs 3 0 
27 27 Q 0,1,2 0 
28 28 Q-0* 0,1,2 0 
22 29 BCMR 3 0 
30 30 beta_3°2 3 0 
31 31 T°* (alpha) 1 z 
32 32 rm Es | 0 
33 33 R_{sJ} K | 0 
34 34 Q* 0,1,2 0 
35 35 Rn 3 0 
36 36 X_{APD} 3 0 
137 37 Z_{EPD} 0,1,2 0 
38 38 GLB 3 0 
39: 33 V_3-ML 0,1,2 0 
40 40 V_4-ML 0,1,2 0 
41 41 Ss ss 0 
42 42 A2 3 0 
43 43 wW”2 3 0 
44 44 vu”? 3 0 
45 45 sgrt{n}D 3 0 
46 46 V à 0 
v 


Au cas où cette image ne serait pas compréhensible voici un extrait de l'article de l'auteur 
d'origine: 
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Sciences.ch 


Test Reference 
1 Liliefors K —S Lilliefors (1967) 
2  Anderson-Darling AD* D'Agostino and Stephens (1986) 
3 Zhang-Wu Ze Zhang and Wu (2005) 
4  Zhang-Wu Z4 Zhang and Wu (2005) 
5  Glen-Leemis-Barr Ps Glen, Leemis, and Barr (2001) 
6 D'’Agostino-Pearson K? D’Agostino and Pearson (1973, 1974) 
7 Jarque-Bera JB Jarque and Bera (1987) 
8 Doornik-Hansen DH Doornik and Hansen (2008) 
9  Gel-Gastwirth RJB Gel and Gastwirth (2008) 
10  Hosking Tiynom Hosking (1990) 
11 Hosking ee. Hosking (1990) 
12 Hosking T7 Hosking (1990) 
13 Hosking +0 Hosking (1990) 
14  Bontemps-Meddahi BM3-4 Bontemps and Meddahi (2005) 
15  Bontemps-Meddahi BM3_6 Bontemps and Meddahi (2005) 
16  Brys-Hubert-Struyf Tuc-_L1r Brys, Hubert, and Struyf (2008) 
17 Bonett-Seier T,, Bonett and Seier (2002) 
18 Combination of Tyc-L1r & Ts Brys et al. (2008), Bonett and Seier (2002) 
19 Cabana-Cabana Ts, Cabaña and Cabaña (1994) 
20 Cabana-Cabana TK 1 Cabaña and Cabaña (1994) 
21 Shapiro-Wilk W Shapiro and Wilk (1965) 
22 Shapiro-Francia W” Shapiro and Francia (1972) 
23 modified Shapiro-Wilk W Rahman and Govindarajulu (1997) 
24 D'’Agostino D D'Agostino (1971) 
25 Fillibenr Filliben (1975) 
26 Chen-Shapiro CS Chen and Shapiro (1995) 
27 Zhang Q Zhang (1999) 
28 Zhang Q —- Q* Zhang (1999) 
29 Barrio-Cuesta Albertos-Matran-Rodriguez BCMR del Barrio et al. (1999) 
30 Coin # Coin (2008) 
31  Epps-Pulley T‘(a) Epps and Pulley (1983) 
32 Martinez-Iglewicz 1, Martinez and Iglewicz (1981) 
33 Gel-Miao-Gastwirth R,J Gel, Miao, and Gastwirth (2007) 
34 Zhang Q° Zhang (1999) 
35  Desgagné-Lafaye de Micheaux-Leblanc Pi Desgagné et al. (2009) 
36  Desgagné-Lafaye de Micheaux-Leblanc P> Desgagné et al. (2009) 
37 Desgagné-Lafaye de Micheaux-Leblanc S2 Desgagné and Lafaye de Micheaux (2016) 
38  Desgagné-Lafaye de Micheaux-Leblanc K2 Desgagné and Lafaye de Micheaux (2016) 
39  Desgagné-Lafaye de Micheaux-Leblanc X 4pp Desgagné and Lafaye de Micheaux (2016) 
40  Desgagné-Lafaye de Micheaux-Leblanc Desgagné et al. (2013) 
41 Spiegelhalter S Spiegelhalter (1977) 


La suite est un peu cauchemardesque pour les utilisateurs de R sous Microsoft Windows. 
Dans l'idéal il faudrait utiliser Linux où ce package propose l'assistant que voilà via la 
fonction power.gui( ): 
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admin@localhost:- 


File Edit View Search Terminal Help 
[admin@localhost -]$ R 


R version 3.5.1 (2018-07-02) -- "Feather Spray" 
Copyright (C) 2018 The R Foundation for Statistical Computing 
Platform: x86 64-redhat-linux-gnu (64-bit) 


R is free software and comes with ABSOLUTELY NO WARRANTY. 
You are welcome to redistribute it under certain conditions. 
Type ‘'license()' or ‘'licence()' for distribution details. 


Natural language support but running in an English locale 


R is a collaborative project with many contributors. 
Type ‘'contributors()' for more information and 
‘citation()' on how to cite R or R packages in publications. 


Type ‘'demo()' for some demos, ‘'help()' for on-line help, or 
‘help.start()' for an HTML browser interface to help. 
Type ‘q()' to quit R. 


[Previously saved workspace restored] 
> library("PoweR") 
Loading required package: parallel 


Loading required package: Rcpp 
> power.qgui()l 


File Edit Options Help 


Generate sample Computestatistic Criticalvalues  Compute power | Examples 


Computation of power and level tables for hypothesis tests 


law 

law.pars [NULL Command editor 
M 

sample size 

stat indices 
levels 
alter 

parstats (NULL 

law indices 
parlaws (NULL 


nbclus 1 


model NULL 


Submit 
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S1 on utilise cet assistant, cela nous donne le code suivant une fois copié/collé dans l'éditeur R 


de Microsoft Windows: 


RGui (64-bit) - [R Console] 


R 
GR File Edit View Misc Packages Windows Help 


library("PoweR") 

#la loi de l'hypothese nulle: N(0,1) 
law.index <- 2 

fle nombre de simulation de Monte Carlo 
M <- 10*5 

#la taille des échantillons 

vectn <- c(10, 15, 20, 35, 50, 75, 100) 
fle seuil de confiance 

levels <- 0.05 


stat.indices <- cli1, 2, 7, 21) 

fquelques lois prises come tests 

fLaplace, Normal, Beta, Uniforme,Student,Chi-2,Log-Normal,Weibull 
law.indices <- c(1,2,6,7,8,9,10,11) 

fle type d'hypothèses alternatives (bilatéral, bilatéral sans val. extrêmes) 
alter <- create.alter(stat.indices,c(3,3,3,4,3)) 

critval <- many.crit(law.index, stat.indices, M, vectn, levels, alter) 

table <- powcomp.fast(law.indices, stat.indices, vectn, M, levels, 

critval = critval, alter) 


VEMNNNVNNNN NN NN NNNVNY 


fles types de tests: Kolmogor-Smirnov, Anderson-Darling, Jarque-Bera, Shapiro-Wilk 


Soit la longue table suivante: 


M RGui (64-bit) - [RC 
ŒR File Edit View Misc Packages Windows Help 


le] 


EEE] 

law n level K-S AD°* JB W 
1 Laplace (mu=0,b=1) 10 0.05 13.917 16.138 17.852 15.513 
| 2 15 0.05 17.900 21.667 24.451 20.829 
3 20 0.05 22.228 27.287 30.348 26.116 
4 35 0.05 32.980 41.670 44.278 39.732 
S 50 0.05 43.441 54.583 55.470 51.896 
6 75 0.05 57.671 70.646 69.774 67.735 
7 100 0.05 69.816 82.411 79.778 79.412 
8 Normal (mu=0,sigma=1) 10 0.05 4.956 5:178 4.984 5.190 
9 15 0.05 4.877 5.005 4.993 5.003 
| 10 20 0.05 4.950 4.952 5:137 5.076 
| 11 35 0.05 4.841 4.928 4.951 4.927 
| 12 50 0.05 5-027 5.026 5.108 5.019 
l'43 75 0.05 4.852 4.818 5:150 4.919 
| 14 100 0.05 4.895 4.887 5:22 4.996 
| ES Beta(a=1,b=1) 10 0.05 6.102 7.826 1.560 8.350 
| 16 15 0-05 7.765 11.722 0.612 12.765 
| EL 20 0.05 10.019 17.065 0:292: 20-212 
| 18 35 0.05 17.281 36.945 0.078 48.340 
| 19 50 0.05 26.188 58.154 0:947 75:215S 
20 75 0.05 42.290 82.825 29.553 95.818 
LE 100 0.05 58.604 94.896 75.507 99.636 
22 Uniform(a=0,b=1) 10 0.05 6.189 8.047 1.622 8.501 
23 15 0.05 7.784 11.760 0.622 12.928 
24 20 0.05 9-975 17-057 0:259 20:177 
| 25 35 0.05 17.288 36.924 0.089 48.333 
26 50 0.05 26.116 58.002 0.941 75.076 
| 27 75 0.05 41.983 82.751 29.336 95.885 
28 100 0.05 58.451 95.058 75.455 99.635 
29 Student-t(df=1) 10 0.05 57.764 61.481 58.862 59.587 
| 30 15 0.05 74.093 78.297 76.029 76.424 
31 20 0.05 84.487 87.949 86.174 86.574 
32 35 0.05 96.771 98.118 97.397 97.678 
33 50 0.05 99.383 99.745 99.536 99.635 
34 75 0.05 99.970 99.988 99.976 99.984 
35 100 0.05 100.000 100.000 99.998 100.000 
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La suite..….: 

R RGui (64-bit) - [R Console] = 

ŒR File Edit View Misc Packages Windows Help C1 Ian 2€ 
LI 

36 Chi-squared(df=1) 10 0.05 53.399 70.042 52.638 73.972 

37 15 0.05 74.919 89.670 71.646 92.615 

38 20 0.05 88.633 97.080 84.719 98.466 

39 35 0.05 99.485 99.973 98.635 99.992 

40 50 0.05 99.989 99.999 99.945 100.000 

41 75 0.05 100.000 100.000 100.000 100.000 

42 100 0.05 100.000 100.000 100.000 100.000 

| 43 Lognormal (logmean=0, logsd=1) 10 0.05 45.873 58.100 50.257 61.095 

44 15 0.05 65.161 79.235 69.607 82.683 

45 20 0.05 79.148 90.598 82.752 93.259 

46 35 0.05 96.262 99.347 97.634 99.736 

47 50 0.05 99.557 99.971 99.810 99.993 

| 48 75 0.05 99.990 99.999 99.999 100.000 

49 100 0.05 100.000 100.000 100.000 100.000 

50 Weibull(shape=1,scale=1) 10 0.05 29.799 41.406 33.578 44.877 

51 15 0.05 44.534 61.885 49.424 67.764 

52 20 0.05 58.559 77.615 63.145 83.721 

53 35 0.05 85.237 96.615 88.282 98.647 

| 54 50 0.05 96.201 99.678 97.685 99.956 

55 75 0.05 99.768 99.998 99.939 100.000 

[56 100 0.05 99.994 100.000 99.998 100.000 


Average power 


2 
3 
14 
5 
6 
7 


| Average gap 10 0.05 7.915 
2 


-.305 16.720 0.391 
100 0.05 11.892 1.205 6.368 0.402 
n level K-8 AD°* JB W 
| Worst gap 10 0.05 20.573 3.930 21.334 2.339 
|2 15 0.05 23.230 5.879 20.969 3.622 
20 0.05 25.162 6.106 20.576 4.232 
35 0.05 31.059 11.409 48.262 4.546 
17.074 74.268 3.574 
75 0.05 53.902 13.134 66.549 2.911 
100 0.05 41.184 4.740 24.180 2.999 


sous w 
ui 
o 
© 
© 
oi 
+ 
rs 
u 
Go 
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On peut même demander à ce package d'avoir cette table en LaTeX: 
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R RGui (64-bit) - [R Console] _ X 


ŒR File Edit View Misc Packages Windows Help #8 x 


a|°][(@|(6] 


\begin{table}[ht] 

\caption{]{Power of SK-S$, SAD"*$, SJB$ and SWS$ tests} 

\begin{center} 

\begin{tabular}{lrrrrrri 

\hline 

& & & \multicolumn{4}{c}{\textbf{Goodness-of-fit tests}} \\ 

\cline{4-7} \\ [-1.5ex] 

\textbf{Alternative} & S$n$ & S\alpha$ & SK-S$ & SAD"*S & SJBS & SWS \\ 

\hline \\ [-1.5ex] 

Laplace (mu=0,b=1) & 10 & 0.05 & 14.068 & 15.63 & 17.609 & 15.152 \\ 
& 15 & 0.05 & 18.637 & 21.885 & 24.355 & 21.144 \\ 


& 20 & 0.05 8 22.33 & 27.185 & 29.902 8 25.834 \\ 
& 35 & 0.05 & 33.217 & 41.933 & 44.267 & 40.225 \\ 
& 50 & 0.05 & 43.204 & 54.62 & 55.647 & 52.322 \\ 
& 75 & 0.05 & 59.057 & 71.434 & 70.014 & 68.678 \\ 


& 100 & 0.05 & 71.07 & 82.95 & 80.149 & 80.056 \\ 
Normal (mu=0,sigma=1) & 10 & 0.05 & 5.002 & 5.013 & 4.902 & 4.918 \\ 
& 15 & 0.05 & 5.138 & 4.961 & 4.981 & 5.005 \\ 
20 & 0.05 & 4.943 & 4.927 & 4.909 & 4.919 \\ 
35 & 0.05 & 5.074 & 5.009 & 4.979 & 5.143 \\ 
50 & 0.05 & 5.067 & 4.961 & 5.006 & 5.071 \\ 
75 & 0.05 & 5.137 & 5.059 & 5.041 & 5.286 \\ 
& 100 & 0.05 & 5.258 & 5.203 & 5.013 & 5.166 \\ 
Beta(a=1l,b=1) & 10 & 0.05 & 6.314 & 7.976 & 1.679 & 8.379 \\ 
& 15 & 0.05 & 8.093 & 11.852 & 0.592 & 13.1 \\ 
& 20 & 0.05 & 10.11 & 16.829 & 0.263 & 19.641 \\ 
& 35 & 0.05 & 17.474 & 37.264 & 0.074 & 49.073 \\ 
& 
& 


& 
& 
& 
& 


50 & 0.05 & 26.125 & 58.165 & 0.901 & 75.606 \\ 
75 & 0.05 & 43.224 & 83.552 & 28.719 & 96.216 \\ 
& 100 & 0.05 & 59.46 & 95.158 & 74.804 & 99.656 \\ 
Uniform(a=0,b=1) & 10 & 0.05 & 6.397 & 7.888 & 1.672 & 8.3 \\ 
& 15 & 0.05 & 8.127 & 11.817 & 0.615 & 12.968 \\ 
& & 0.05 & 10.012 & 16.886 & 0.313 & 19.692 \\ 
& 35 & 0.05 & 17.447 & 37.124 & 0.088 & 48.951 \\ 
& & 0.05 & 25.858 & 57.782 & 0.907 & 75.326 \\ 
& 75 & 0.05 & 43.197 & 83.297 & 28.665 & 96.021 \\ 
& 100 & 0.05 & 59.358 & 95.047 & 74.505 & 99.636 \\ 
Student-t(df=1) & 10 & 0.05 & 57.516 & 61.024 & 58.511 & 59.073 \\ 


& 15 & 0.05 & 74.566 & 78.377 & 75.946 & 76.319 \\ 
& 20 & 0.05 & 84.395 & 87.999 & 86.099 & 86.545 \\ 
& 35 & 0.05 & 96.798 & 98.128 & 97.409 & 97.727 \\ 
& 50 & 0.05 & 99.357 & 99.703 & 99.568 & 99.635 \\ 
& 75 & 0.05 8 99.968 & 99.991 & 99.979 & 99.985 \\ 


& 100 & 0.05 & 99.997 & 100 & 99.999 & 100 \\ 
Chi-squared(df-1) & 10 & 0.05 & 53.421 & 69.674 & 52.129 & 73.46 \\ 
& 15 & 0.05 8 75.269 & 89.492 & 70.982 & 92.562 \\ 


On peut facilement "à la main" retomber sur les valeurs calculées par ce package. Par 
exemple reproduisons la valeur suivante: 


Normal (mu=0,sigma=i) 10 ©.05 4.956 5.178 4.984 5.190 
15 0.05 4.877 5.005 4.993 5.003 
20 0.05 4.950 5.137 5.076 
35 0.05 4.841 4.928 4.951 4.927 


50 0.05 5.027 5.026 5.108 5.019 
75 0.05 4.852 4.918 5.130 4.919 
100 0.05 4.895 4.887 5.212 4.996 


Cela donne alors: 
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R RGui (64-bit) - [R Console] _ n 


GR File Edit View Misc Packages Windows Help =l|'#..xX 


library ("ADGofTest") 

N<-10000 

n<-20 

seuil<-0.05 
res.pow<-replicate(n=N,expr=ad.test (rnorm(n,mean=0, sd=1) ,pnorm,mean=0, sd=1) $p.value) 
> (TypellError<-sum(res.pow>seuil)/N*100) 

[1] 95.13 

> (Power<-100-TypeIIError) 

[1] 4.87 

> | 


VVUVNVNV 
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Test d'adéquation d'une loi de Poisson (ou binomiale) par la méthode 


de minimisation du Khi-2 
R 3.2.0 


Nous voulons à nouveau vérifier les calculs effectués à la main dans le cours théorique (avec 
l'aide de MS Excel) et comparer aussi les résultats avec Minitab. 


Donc d'abord, R a comme Minitab pas la possibilité à ce jour d'imposer l'espérance de loi de 
Poisson donc il va en calculer l'estimateur. 


Donc d'abord nous importons le jeu de données histoire de pas l'écrire à la main: 


KR Fichier Edition Voir Misc Packages Fenétres Aide 


> F<-read.csv("C:/tmp/Khi2Poisson.csv",header=T) 
> F 
Décalage 


1 
2 
3 
4 
5 
6 
7 
8 


DUNNNNNNNNNNNERHH HRK OOO0O0O 
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Ensuite, nous installons le package ved et utilisons la fonction goodfit() de ce dernier 
(fonction qui ne prend à ce jour que trois distributions discrètes possibles en entrée) pour dans 
un premier temps avoir un tableau de fréquences observées et théoriques: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


EC) 


> goodfit (F$Décalage, type = "poisson", method = "MinChisqg") 


Observed and fitted values for poisson distribution 
with parameters estimated by ‘MinChisqg' 


count ochserved fitted 
(a) 5 3.118591 

12 15.137901 
37 36.740316 
56 59.446850 
72 72.139988 
75 70.034701 
. 659043 
.289673 
-.839417 
.857613 
.241192 


LQOJJnnEo DH 


Bon c'est bien joli même si c'est conforme aux calculs faits à la main, mais allons au point qui 
nous intéresse: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> F<-read.csv("C:/tmp/Khi2Poisson.csv",header=T) 
> gf<-goodfit (F$Décalage, type = "poisson", method = "MinChisqg") 
> summary(igf) 


Goodness-of-fit test for poisson distribution 


x"2 d£ P(S %°2) 
Pearson 6.489353 9 0.690117 


Message d'avis 
In summary.goodfit (gf) : Chi-squared approximation may be incorrect 
> | 


Nous avons bien les mêmes résultats qu'avec Minitab et nous sommes très proches du calcul 
effectué "à la main”. 
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Test d'adéquation d'une loi de Poisson (ou binomiale) par la méthode 


du maximum de vraisemblance 
R 3.5.1 


Nous avons vu dans le cours théorique une autre manière de faire un ajustement de certaines 
lois ou modèles appelées "test d'ajustement par la méthode du maximum de vraisemblance". 
Nous avons également discuté du débat qu'il y a entre cette méthode et la précédente. 


Même si nous n'avons pas fait les calculs à la main dans le cours théorique par fénéantise, 
voyons toutefois comment exécuter un test de ce type en utilisant à nouveau le package ved et 
la fonction goodfit( ): 


R RGui (64-bit) - [R Ce _ 


R File Edit View Misc Packages Windows Help UE: 


library("vcd") 
F<-read.csv("c:/tmp/Khi2Poisson.csv",header-=T) 
gf<-goodfit (F$SDécalage, type="poisson",method="ML") 
g£ 


VMVNVV 


Observed and fitted values for poisson distribution 
with parameters estimated by ‘ML' 


count observed fitted pearson residual 
0 5 3.186632 1.01582759 
L 12 15:399399 —0.86626397 
2 37 37.208798 —0.03422968 | 
3 56 59:937172 —-0.50855301 | 
E 12 1712:411595 —0.04836894 
9 75 69.985807 0.59937145 
6 53 56.367735 —0.44856220 
7 45 38.913869 0.97563890 
8 28 23.506409 0.92683070 | 
9 11 12.621636 -0.45645237 | 
10 6 6.099405 —-1.37924584 | 


> summary(gf) 
Goodness-of-fit test for poisson distribution 
X°2 df P(> x”2) 


Likelihood Ratio 13.17236 9 0.1549612 
> | 


A comparer avec la méthode précédente 
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Exemple 182.: Tests des valeurs aberrantes 


Nous savons que les tests de normalité peuvent échouer pour de nombreuses raisons 
(distribution non-normale, mesures expérimentales inadéquates, etc.) mais une qui est assez 
facile à identifier et résoudre est la présence (et donc l'élimination) de valeurs aberrantes. 


Valeurs aberrantes avec les centiles 
R 3.6.1 


On peut éliminer de manière brute les valeurs aberrantes selon des critères de centiles simples 
et ce sans packages comme l'illustre l'exemple suivant: 


R File Edit View Misc Packages Windows Help 


> sample<-c(1.12835,-1.56840,0.81032,2.41354,1.45458,0.067670, 
+ -0.92040,0.37598,-0.51846,2.31527) 
> length(sample) 
[1] 10 
> (x<-quantile(sample,c(0.01,0.99))) 
15 99$ 
—1.510080 2.404696 
| > sample[sample >=x[1] & sample<=x{[2]] 


[1] 1.12835 0.81032 1.45458 0.06767 -0.92040 0.37598 -0.51846 
>| 


2-31527 
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Valeurs aberrantes avec les centiles des Box-Plot 
R 3.5.1 


Pas grand-chose à dire ici puisqu'il s'agit d'un outil principalement visuel et basé sur les 
centiles! Cependant à noter... Les box-plots utilisent tous des indicateurs (médiane, quartiles, 
centiles), qui sont des indicateurs non-paramétriques (!). Si nous avons placé ce sujet ici, c'est 
juste parce que cela semble pédagogiquement plus convenable (sinon quoi elle serait dans le 
chapitre sur les techniques non-paramétriques!).. 


Donc voyons à nouveau la fonction boxplot( ) à l'œuvre: 


a 


pu ALES 
> sample<-c(1.12835,-1.56840,0.81032,2.41354,1.45458,0.067670 

+ -0.92040,0.37598,-0.51846,2.31527) 

> boxplot (sample) 

> boxplot (sample) Sout 


numeric (O0) 
> #donc aucun outlier dans cet échantillon! 
> | 


On peut rajouter une valeur aberrante et ensuite voir comment l'enlever: 
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Vincent ISOZ, Daname KOLANI 
C[sVeTx] 


MR Console 
sample<-c(1.12835,-1.56840,0.81032,2.41354,1.45458,0.067670, 


—0.92040,0.37598,-0.51846,2.31527,5.1) 
boxplot (sample) 
boxplot (sample) Sout 

ELA 5.4 


> 

> sample[!sample $in$ boxplot.stats (sample) $Sout] 
[1] 1.12835 -1.56840 0.81032 2.41354 1.45458 0.06767 
[7] -0.92040 0.37598 -0.51846 2.31527 


>| 


8 Graphics: Device 2 (ACTIVE) 
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Valeurs aberrantes avec les centiles des bagplots (cas 2D) 
R 3.5.1 


Bon là c'est pour info car: 


1. Je n'ai jamais vu de mes yeux qui ce soit l'utiliser (ce qui ne veut pas dire que c'est 
inutile!) 


2. Je n'ai aucune idée de comment ça marche et je n'ai pas envie de le savoir (faut donc 
pas nous poser de questions là-dessus) 


Il semblerait que cette technique utilise elle aussi que des indicateurs non-paramétriques (!), 
donc elle est aussi présente dans ce chapitre que pour des raisons pédagogiques (sinon quoi 
elle serait dans le chapitre sur les techniques non-paramétriques!). 


Donc voyons à la fonction bagplot( ) du package aplpack à l'œuvre: 


@ R Console IE] 


> library(aplpack) 

> bagplot (mtcarsS$wt,mtcarsS$mpg,xlab="Car Weight", 

+ show.outlier = T,ylab="Miles Per Gallon",main="Bagplot Example") 
> | 


MR Graphics: Device 2 (ACTIVE) Le (&) 


Bagplot Example 


Miles Per Gallon 
20 25 30 


15 


10 


Car Weight 
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Test de Grubbs (test des valeurs aberrantes de Grubbs) 
R 3.0.2 


Nous allons ici vérifier validité du test de Grubbs qui est implémenté dans R que nous avons 
vu dans le cours théorique et dont nous avons appris à calculer les valeurs critiques à la main 
pour n'importe quelle distribution. Nous allons aussi comparer le résultat à ce que renvoie 
Minitab. 


Nous utilisons alors la commande grubbs.test() du package outliers: 


R Fichier Edition Voir Misc Packages lSenètres Aide 


library(outliers) 
sample<-c(1.12835,-1.56840,0.81032,2.41354,1.45458,0.06760, 
-0.92040,0.37598,-0.51846,2.31527) 

grubbs.test (sample) 


Grubbs test for one outlier 
data: sample 
G = 1.6000, U = 0.6839, p-value = 0.4537 
alternative hypothesis: lowest value -1.5684 is an outlier 
>| 


« 


Nous retrouvons donc la même valeur de G que celles calculées à la main par Monte-Carlo 
dans Microsoft Excel et que dans Minitab (à pañtr de la version 17 pour ce dernier). Par 
contre pour les p-value nous en sommes à des kilomètres (il y a 50% de différence). 


Au fait c'est un piège car il faut ajouter un paramètre pour retrouver les valeurs que nous 
connaissons (la fonction faisant un test unilatéral par défaut): 


> grubbs.test (sample,two.sided=TRUE) 
Grubbs test for one outlier 
data: sample 


G = 1.6000, U = 0.6839, p-value = 0.9073 
alternative hypothesis: lowest value -1.5684 is an outlier 


> | 


Toujours avec le package outlier et sa fonction rm.outlier( ) on peut supprimer les outliers: 
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Sciences.ch 
Re RGui (6 R Console] 


View Misc 


R File Edit 


Packages 


> rm.outlier (sample) 
[1] 1.12835 0.81032 


Windows Help 


2.413544 1.45458 0.06767 -0.92040 
[7] 0.37598 -0.51846 2.31527 
>| 
| 
QC 
D 
N 


R Statistical Software 


1276/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Test de Dixon (test des valeurs aberrantes/outliers de Dixon) 
R 3.0.2 


Nous allons ici vérifier validité du test de Dixon qui est implémenté dans R que nous avons 
vu dans le cours théorique et dont nous avons appris à calculer les valeurs critiques à la main 
pour n'importe quelle distribution. Nous allons aussi comparer le résultat à ce que renvoie 
Minitab. 


Nous utilisons alors la commande dixon.test() du package outliers qui par défaut fait un test 
en bilatéral (contrairement à la fonction grubbs.test): 


_ 
RG u: (4-bii - IRC 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> library(outliers) 
[> sample<-c(0.41419,0.83173,0.71509,-1.65271,-0.63666,0.22945,0.50389) 
> dixon.test (sample) 


Dixon test for outliers 


data: sample 
Q = 0.409, p-value = 0.2464 
alternative hypothesis: lowest value -1.65271 is an outlier 


> | 


Nous retrouvons donc exactement les mêmes valeurs que celles calculées à la main par 
Monte-Carlo dans Microsoft Excel et que dans Minitab (à partir de la version 17 pour ce 
dernier). 


Le point qui est dommage cependant c'est que contrairement à Minitab, nous ne pouvons pas 
choisir le niveau de confiance (du moins à ce jour). 
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Test a-Poisson des valeurs aberrantes/outliers dans une table de 


contingence 
R 3.0.2 


Dans de nombreuses situations du management (des "affaires" ou du "business" si vous 
préférez..…), ou des sciences sociales ainsi que des statistiques gouvernementales, il arrive de 
devoir jongler avec des tables de contingences de dimensions quelconques et de devoir y 
identifier des valeurs aberrantes. 


Nous n'avons pas étudié ce sujet dans le cours théorique car il est principalement 
"computationnel" (ie: il nécessite des calculs intensifs). Voyons donc comment effectuer un 
test dans R en utilisant le package alphaOutlier et sa fonction aout.conttab( ) : 


R 4-bit = 
R File Edit View Misc Packages Windows Help 


EBRBEEI ES | 
| 


> library("alphaOutlier") 
> HairEyeColor!{,,1] 


Eye 
Hair Brown Blue Hazel Green 
Black 32 EL 10 = 
Brown 53 50 25 15 
Red 10 10 7 7 
Blond 3 30 S 8 


> aout.conttab(data = HairEyeColor{,,1], param = "ML", alpha = 0.01, show.estimates = TRUE) 


data is.outlier param 
1 32 TRUE 19.670251 
2 53 FALSE 50.229391 
3 10 FALSE 11.942652 
E 3 TRUE 16.157706 
s 11 FALSE 20.272401 
6 50 FALSE 51.767025 | 
4 10 FALSE 12.308244 | 
8 30 TRUE 16.652330 
9 10 FALSE 9.433692 
10 25 FALSE 24.089606 
14 ri FALSE 5.727599 
12 s FALSE 7.749104 
13 3 FALSE 6.623656 
| 14 15 FALSE 16.913978 
15 7 FALSE 4.021505 
16 8 FALSE 5.440860 


Comme nous pouvons le constater, le résultat est (comme souvent) contre intuitif pour la 


majorité des lecteurs et la majorité des cerveaux. 
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Exemple 183.: Transformations de variables 
R 3.0.2 


Dans le cours théorique nous avons mentionné les transformations empiriques de Box-Cox et 
Yale-Johnson qui permettent de travailler toutefois sur des tests statistiques importants 
nécessitant la normalité et nous avons mis en pratique ces derniers dans Minitab. Voyons 
comment faire la même chose avec R! 


Transformation de Box-Cox 
R 3.0.2 


Ici nous allons juste contrôler que nous retrouvons le même résultat de transformation 

(empirique) de Box-Cox que dans le cours Minitab. Nous utilisons pour cela un fichier 
contenant 125 mesures toutes positives définies dans une seule colonne et utilisons la 
commande powerTransform() du package car: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> setwd{("C:/") 

> mydata<-read.csvi"BoxCox.csv",header=T) 
> library(car) 
> 
b 


summary(ipowerTransformimydata$isymétrie)) 
cPower Transformation to Normality 


Est.Power Std.Err. Wald Lower Bound Wald Upper Bound 
mydata$isymétrie 0.031585 0.129 0.221 0.286846 


Likelihood ratio tests about transformation parameters 
LRT df pval 

LR test, lambda (0) O.0606576 1 8.054596e-01 

+ test, lambda (1) 57.6324291 1 3.164136e-14 

> 


Donc cette commande suggère qu'on peut normaliser cette variable en la mettant à la 
puissance 0.0318. Nous retrouvons donc la même valeur que dans Minitab à la différence que 
R est beaucoup plus précis et donne la p-value de l'utilité de la transformation. 


Nous pouvons ensuite utiliser notre connaissance des graphiques pour observer le résultat 
qualitativement: 
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le 


| 


QG À Console RER ES 
> library("car") 
> TransfData<-powerTransform(mydata$Asymétrie) 
> par(mfrow=c(2,2)) 
> hist (mydataSAsymétrie,main="Données d'origine") 
> hist ((mydataSAsymétrie"TransfData$lambda-1)/TransfDataS$lambda,main="Données transformées") 
> qgnorm(mydata$Asymétrie) 
> qgline (mydata$Asymétrie,col="red") 
> qgnorm((mydataS$Asymétrie"TransfData$lambda-1) /TransfData$lambda) 
> qggline ((mydataS$Asymétrie”"TransfDataS$lambda-1) /TransfDataS$lambda, col="red") 
>| 
Q R Graphics: Device 2 (ACTIVE [= | ol! | bd 
Données d'origine Données transformées 
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Theoretical Quantiles 


Theoretical Quantiles 


Figure 222 Graph q-q plot de données transformées (avant/après) 


Nous pouvons aussi faire un test d'Anderson-Darling avant/après: 
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R File Edit View Misc Packages Windows Help EX 


> library("car") 
> ad.test (mydataS$Asymétrie) 


Anderson-Darling normality test 


data: mydataSAsymétrie 
A = 3.6822, p-value = 3.068e-09 


> ad.test ((mydata$Asymétrie”"TransfDataS$lambda-1)/TransfData$lambda) 
Anderson-Darling normality test 


data: (mydataSAsymétrie”"TransfDataS$lambda - 1)/TransfData$lambda 
A = 0.248911, p-value = 0.7432 


>| 


Sinon, il y a une manière plus directe pour transformer un vecteur de données avec la 
transformation de Box-Cox avec le package caret et la fonction preProcess() comme nous 
le verrons lors de notre introduction au Machine Learning à la page 2050. 
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Transformations de Johnson (Yeo-Johnson) 
R 3.0.2 


Bon le but ici ne sera pas de débattre de la justesse de ces transformations (ou de leur origine 
scientifique) qui ont donc pour rappel de "normaliser"?! des données. Ceci a aussi déjà été fait 
en cours et de plus, il suffit de Googler un peu pour se faire sa propre opinion sur cette 
technique "d'ingénierie statistique". 


Les transformations proposées sont les mêmes que pour Minitab mais avec une notation 
différente pour les coefficients. Donc si jamais voici un extrait du package: 


The Johnson system (Johnson 1949) is a very flexible system for describing statistical distributions. 
It is defined by 


= y +6log f(u),u = (x —£)/A 
and where f() has four possible forms: 


SL:  f(u) = u the log normal 

SU: fu) = u + V1 + u? an unbounded distribution 
SB:  f(u) = u/(1 — u) a bounded distribution 

SN:  exp(u) the normal 


Nous reprenons donc les mêmes données que pour la transformation de Box-Cox et utilisons 
la commande RE.Johnson( ) du package J ohn$on: 


2 Dans le sens: faire que la distribution ressemble le plus possible à une loi Normale 
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Sciences.ch 


FR RGu (62-bi0 - 1R 
| File Edit View Misc Packages 


EIRE) E 


Windows Help 


|> mydata<-read.csv("c:/tmp/Johnson.csv",header=T, sep=";" 


> library("Johnson") 


> print (RE.Johnson(mydata$Asymétrie)) 


|[[11] 


$'function 
[1] "se" 


$p 
[1] 0.8855616 


$transformed 
[1] -0.7795899655 OO. 
[7] 0.3970087488 OO. 
[113] 0.8575438925 1. 
[19] -0.0486705064 -0. 
[25] 0.6615474569 -0. 
[131] -0.8690820276 O. 
[37] 0.8545844307 -0. 
[43] 0.4999277983 -1. 
[49] -1.0136207556 -1. 
[55] -0.1896353643 -0. 
[61] -0.1273580535 OO. 
[67] -0.4533525513 -0. 
[73] -0.0640142724 OO. 
[79] 1.0466233303 OO. 
[85] 0.9372266089 1. 
[911 0:6302309352 -1; 
[97] -0.1180064026 -1. 
[103] 2.0178972910 -1. 
[109] -1.2591538414 1. 
[1151 0-:1966559999 O0. 
[121] O0.6308070191 1. 


$£.gamma 
[1] 2.955939 


$£.lambda 
[1] 45.651 


$f.epsilon 
[1] 0.02256813 


$f.eta 
[1] 1.337693 


> 


|[1] "Johnson Transformation" 


3197706016 
2161383659 
7466184278 
0439025255 
3412953906 
2145449210 
5384528488 
3169314841 
5121654346 
3713609943 
3112613794 
6076663955 
3279131215 
4517959561 
5957405342 
7396482829 
8270301620 
8762046865 
9140759796 
6846486787 
0513683823 


0.2003421347 -1.4407310753 -0.6891497014 0.5550079913 
—0.6537811064 -0.4795806295 -0.0008394425 1.1302044129 
0.4250469439 -0.8108308706 -0.1140903650 0.7647341607 
1.4382462632 -1.1619016606 -0.8916019580 -0.1173707327 
2.7546531446 2.3594738795 -0.7930629138 -0.3496759653 
0.2052739267 -1.7361173211 0.4084217666 0.6125645420 
—0.8950878559 1.3403005864 -0.1320183929 0.3598749975 
0.0435761495 -1.4193751787 -0.0801577289 0.4789831252 
—0.0521961416 -0.8483603486 0.5168224468 0.7043974856 
—1.4345850541 0.3966950441 -1.5616883657 1.4513751813 
—0.1261861679 -0.1446430428 -1.2475139543 -0.6436482619 
—1.6090900283 0.5841830635 -0.5860191084 0.5102992942 
1.1771959097 -0.3154176023 -0.8017294121 -0.2105508140 
—0.5836483174 0.0803706608 0.1673266682 0.5786257541 
—1.0829250366 0.2968309572 0.8020192767 -0.4882885190 
0.9821745486 -0.2056599490 0.8839882491 1.1844287263 
0.5808743008 -1.8967358321 -1.4237879044 -0.8950878559 
1.5561705022 0.5364007290 1.5365571161 -1.4398876043 
—0.6397120901 0.0119762011 -0.2073010310 0.0973701731 
—0.4736109994 -0.4273854931 -1.1349880626 0.9510728483 
1.0418679387 0.0302584869 -0.7373594274 


Comparons avec la sortie de Minitab 15: 


Valeur de P pour un meilleur ajustement : 0.885562 
Valeur de Z pour un meilleur ajustement : 0,48 
Meilleur type de transformation : 58 


Fonction de transformation égale 
2.95594 + 1.33769 * Lné ( X - 0.0225681 )/( 45.67% -X)) 


Et nous pouvons faire le même type d'analyse graphique et de normalité qu'avec celle vue lors 
de notre étude de la transformation de Box-Cox: 
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Frequency 


Sample Quantiles 


VVVNVNNNNNV 


R nsole (ES) CE ] Ces? 
par (mfrow=c(2,2)) 
hist (mydataS$Asymétrie,main="Données d'origine") 
hist (RE.Johnson(mydata$Asymétrie)Stransformed,main="Données transformées") 
qanorm(mydata$Asymétrie) 
qaline (mydata$Asymétrie,col="red") 
qqnorm(RE.Johnson (mydataS$Asymétrie)S$transformed) 
qaqline (RE.Johnson (mydataS$Asymétrie)S$transformed,col="red") 
R Graphics: Device 2 TIVE — [a] bd 
Données d'origine Données transformées 
l'el 
o Lai 
m = 
o 
R s © 
L-a 
o 2 
o o 
PTT CS PS PS PS | 
0 5 10 15 20 -2 -1 0 1 2 3 
mydata$Asymétrie RE.Johnson(mydata$Asymétrie)$transformed 
Normal Q-Q Plot Normal Q-Q Plot 
[=] n 
Lau œ 
SE 0 
Ll'el = 
— — _ 
o Le] 
= © o 
ee 
[re] = 
LA 
D 
-2 -1 0 1 - -2 -1 0 1 2 
Theoretical Quantiles Theoretical Quantiles 


Nous pouvons aussi faire un test d'Anderson-Darling avant/après: 
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R File Edit View Misc Packages Windows Help …_ EX 


| > library("ADGofTest") 
> ad.test (mydataSAsymétrie,pnorm,mean (mydata$Asymétrie),sd(mydata$Asymétrie)) 


Anderson-Darling GoF Test 

data: mydata$Asymétrie and pnorm 

| AD = 3.6822, p-value = 0.01253 

alternative hypothesis: NA 

> ad.test (RE.Johnson (mydataSAsymétrie) S$transformed, pnorm) 
Anderson-Darling GoF Test 

data: RE.Johnson(mydataS$Asymétrie)Stransformed and pnorm 

AD = 0.24319, p-value = 0.9738 


alternative hypothesis: NA 


> | 


Sinon, 1l y a aussi une manière plus directe pour transformer un vecteur de données avec la 
transformation de Johnson avec le package caret et la fonction preProcess() comme nous le 
verrons lors de notre introduction au Machine Learning à la page 2050. 
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Exemple 184.: Puissance d'un test Z à 1 échantillon en 


bilatéral 
R 3.02 


Calculer la puissance d'un test a priori ou a posteriori est important dans la démarche 
scientifique. Nous allons ici vérifier que nous retrouvons ou non les mêmes résultats que ceux 
calculés à la main dans le cours théorique ou avec Minitab et MS Excel. 


Remarque: Le package que nous allons utiliser contient de nombreux calculs de puissance et 
de taille d'échantillon, mais au même titre que pour le cours Minitab, nous nous limiterons 


seulement à ce que nous avons démontré mathématiquement dans le cours théorique. 


Pour cela, nous allons utiliser la commande pwr.norm.test() du package pwr: 


ee 


KR Fichier Edition Voir Misc Packages Fenêtres Aide 
SEE 


> libraryipur) 
> pur.norm.test (d=2/3,n=9,sig.level=0.05,alternative="two.sided") 


Mean power calculation for normal distribution with known variance 


da 

n 

sig.level 
power 
alternative 


0.6666667 
9 

0.05 
0.5160053 
tuo.sided 


> | 


Donc à part que la syntaxe de la commande est piège puisque: 
Ô 
pwrnormtest| —,n,a,H, 
(oz 


Nous retrouvons bien les mêmes résultats qu'avec Minitab (et donc les mêmes conclusions) 
simplement affiche automatiquement la courbe de puissance ce qui est bien pratique. 
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Exemple 185.: Taille d'échantillon (effectif) d'un test Z en 


bilatéral 
R 3.02 


Calculer la taille nécessaire d'un échantillon a priori pour avoir une certaine puissance du test 
est aussi important dans la démarche scientifique. Nous allons ici vérifier que nous retrouvons 
ou non les mêmes résultats que ceux calculés à la main dans le cours théorique ou avec 
Minitab et MS Excel. 


Pour cela, nous allons encore une fois utiliser la commande pwr.norm.test() du package 
pwr: 


le 


LEE 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> library(pur) 
> pur.norm.test (d=2/3,power-=0.8,sig.level=0.05,alternative="tuwuo.sided") 


Mean power du oi for normal distribution with known variance 


d 

n 

sig.level 
power 
alternative 


0.6666667 
17.65994 
0.05 

0.8 
tuo.sided 


> | 


Donc à part que la syntaxe de la commande est piège puisque: 


Ô 
pwr.norm.test Ë 1,4,H, | 
(Co 


Nous retrouvons bien les mêmes résultats qu'avec Minitab (et donc les mêmes conclusions) 
simplement affiche automatiquement la courbe de puissance ce qui est bien pratique. Nous 
pouvons cependant la construire nous même rapidement avec R: 
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delta<-seq(-5,5,1) 
sigma=3 
d=delta/sigma 
purTest=pur.norm.test (d=d,n=9,sig.level=0.05,alternative="tuo.sided")$power 
plot idelta,purTest,type="1",vlim=c(0, 1j) 
grid) 


VYAVVYVYNY 
1.0 


00 02 04 06 08 


Figure 223 Graph de puissance d'un test 


Bingo! 
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Exemple 186.: Intervalle de confiance de la moyenne (test Z à 


un 1 échantillon) 
R 3.0.2 


Curieusement le test Z n'est pas intégré par défaut de R. Certes il est extrêmement simple de 
récrire la fonction correspondante diront certains (et c'est vrai) mais pour moi ce n'est pas un 
argument car dans ce cas on peut aussi prendre le temps de récrire tous les tests statistiques 
car 1ls sont tous simples! Donc soit on a un outil qui nous fait gagner du temps 
systématiquement pour tout, soit pour rien mais pas l'entre deux! Pour cela, par exemple, je 
préfère de loin Minitab. 


Mais le test Z existe quand même dans le package TeachingDemos mais seulement dans le 
cas où les données mesurées sont connues (et non pas juste le résumé). 


Voyons cela avec le même exemple que dans le cours Minitab, SPSS et Microsoft Excel en 
utilisant la commande z.test( ) : 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> library (TeachingDemos) 
> ASC, 742: 5:419,2:9,6,14,6,1;:2,9,2,5;:11;: 19:51 
> Z.test(x,mu=5,stdev=2,alternative=c("tuo.sided"),conf.level=0.95) 


One Sample z-test 


data: x 
3.6707, n = 19.000, Std. Dev. = 2.000, Std. Dev. of the sample mean 
0.459, p-value = 0.0002419 
alternative hypothesis: true mean is not equal to 5 
95 percent confidence interval: 
5.784917 7.583504 
sample estimates: 
mean Of x 
6.684211 


| 


Nous retrouvons donc les valeurs de Minitab mais en plus précis et nous voyons in extenso 
que les résultats avec Microsoft Excel étaient peu précis. 
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Exemple 187.: Test Z de différence de la moyenne (test Z à un 


1 échantillon) en unilatéral gauche 
R 3.0.2 


Il est connu dans un État que les enfants d'un certain âge ont un poids de 45 kilogrammes et 
un écart-type de 13 kilogrammes (espérance et écart-type de la population). Un plainte est 
posée par des parents d'élèves comme quoi les enfants d'une école sont sous-alimentés. Pour 
cela les parents d'élèves s'appuient sur le fait que 25 enfants du même âge ont un poids moyen 
de 40.5 kilogrammes. 


Vérifions si ce sous-poids est significativement inférieur comme dans le cours théorique et 
voyons si nous obtenons le même résultat qu'avec Microsoft Excel et Minitab: 


Le 
=: RGui {64-bit} - [R Consc 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> library(TeachingDemos) 
> z.test(rep(40.5,25)j,mu=45,stdev=13 ,n=25,alternative=c("less") ,conf.level=0.95) 


One Sample z-test 


data: rep(40.5, 25) 
z = -1.7308, n = 25.0, Std. Dev. = 13.0, Std. Dev. of the sample mean = 
2.6, p-value = 0.041775 
alternative hypothesis: true mean is less than 45 
95 percent confidence interval: 
—-Inf 44.777662 
sample estimates: 
mean of rep(40.5, 25) 
40.5 


> | 


Nous pouvons donc bien constater que nous obtenons les mêmes résultats que ceux calculés à 
la main et que dans des logiciels comme Microsoft Excel et Minitab. 


Sinon avec le package BSDA (Basic Statistics and Data Analysis) nous avons: 
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R RGui (64-bit) - [R Console 


R Fils Edit View Misc Packages Windows Hel 
9 P 


ÉROSGE|OE 


> library("BSDA") 
> z.test(rep(40.5,25),mu=45,sigma.x=13,alternative=c("less"),conf.level=0.95) 


One-sample z-Test 


data: rep(40.5, 25) 
z = -1.7308, p-value = 0.04175 
alternative hypothesis: true mean is less than 45 
95 percent confidence interval: 
NA 44.77662 

sample estimates: 
mean Of x 

40.5 


> | 
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Exemple 188.: Test Z de différence de la moyenne à deux 


échantillons en bilatéral 
R 3.02 


Pour cet exemple nous allons utiliser le même package BSDA que précédemment mais avec 
un Jeu de donnée différent: 


I See 
File Edit Format View Help 
Sen-El;Caz-El 
133;135 
170;116 

148; 142 
168,144 
138,154 
135119 
137;139 
151;115 
163122 
155;148 
140,146 
150;133 
163135 
151;132 
162,128 
139;138 
139,153 
164;153 
144118 


= —— 2 — — —" —————— >" ————— 


Une fois importé, le test Z sur ces données nous donne: 


R File Edit View Misc Packages Windows Help _uiix 


> z.test (mydata$Sen.El,mydataS$Caz.El,sigma.x=15,sigma.y=9,mu=0,conf.level=0.95) 
Two-sample z-Test 


data: mydata$Sen.El and mydata$Caz.El 
z = 3.6722, p-value = 0.0002405 
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval: 
6.871239 22.602445 
sample estimates: 
mean of x mean of y 
150.0000 135.2632 


> 


A comparer avec le résultat obtenu dans Microsoft Excel (puisque dans Minitab il faut une 
macro à ce jour pour faire un test Z à deux échantillons): 
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F] A | B C 
Test de la différence significative minmmale (z-Test) 


Sen-El Caz-El 

Moyenne 150 1352631579 

Variances (connues) 225 81 

à Observations 19 19 
[M Différence hypothétique des moyennes 0 
8 H 3.672150885 
C2 P(Z<=2) unilatéral 0.000120259 
1 Valeur critique de z (unilatéral) 1.644853627 
IN P(Z<=2) bilatéral 0.000240518 
à Valeur critique de z (bilatéral) 1959963985 


W 
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Exemple 189.: Test Z par Monte-Carlo 
R 3.0.2 


Le but de cet exercice est plus pédagogique qu'autre chose. Imaginons effectivement que vous 
connaissez les estimateurs de la moyenne et l'écart-type d'une loi Normale et la taille de 
l'échantillon que vous allez mesurer. 


La question pourrait être alors simplement la suivante: si je tirais au hasard des individus 
d'une telle population (simulable par du Monte Carlo en théorie), quelle est la probabilité 
cumulée (ou 1 — la p value) que ma mesure dépasse une certaine valeur seuil. 


Nous avons alors dans le cas particulier unilatéral la possibilité d'utiliser la fonction 
as.randtest() du package aded. Ce qui donne: 


R R Console ER ES 
libraryiade4) 

par (mfrow = c(2,2)) 

ÉOE (x 10 6i2,:5:2:1911 À 

sim<-as.randtest (sim=rnorm(200,mean=5,sd=2) ,alter="greater" ,obs=x0) 
plotisim,main=paste("p.value = ", roundisim $pvalue, dig = 5j)j) 

} 

par (mfrow = c(1,1)) 


VMM+H++VV UV 


R R Graphics: Device 2 (ACTIVE) 


du 


p.value = 0.95025 


Frequency 
Frequency 


0 2 4 6 6 10 12 


sim 


p.value = 0.01493 p.value = 0.00498 

” : | 

— nb. _ Ÿ 
0 5 10 15 


sim 


Frequency 
Frequency 


Figure 224 Graph d'histogrammes avec p-value par simulation Monte Carlo 


R Statistical Software 1294/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Exemple 190.: Intervalle de confiance de Student de la 


moyenne géométrique 
R 3.4.1 


Bon nous allons ici reproduire le même exemple que dans le cours théorique calculé à main et 
dans Microsoft Excel et nous allons voir si nous retombons sur les mêmes résultats. 


Pour calculer l'intervalle de confiance de la moyenne géométrique, nous allons utiliser le 
package DescTools et sa fonction Gmean( ): 


R | 
R File Edit View Misc Packages Windows Help 


> library("DescTools") 

> x <- c(6.34,5.2,4.4,3.30,2.74,2.02,1.69, 

> Gmean(x,method ="classic", conf.level = O. 
mean lwr.ci upr.ci 

.209754 1.245865 3.919376 


s | 


F 


LS] 


S 
Ÿ 

On ne retrouve donc pas le même résultat que &elui calculé à la main et dans Microsoft Excel. 

La raison est simplement que le package DescTools utilise la méthode de calcul de Stata qui a 


priori est fausse: 


https://wWww.stata.com/manuals13/rameans.pdf 


On ne retrouve pas non plus le même résultat que cette vidéo YouTube: 


https://www.voutube.com/watch?v=XsH33QpDQac 


car en réalité la personne qui a enregistrée cette vidéo utilise le Z alors que c'est le T de 
Student qu'il faut utiliser pour l'intervalle et c'est que fait DescTools (et de toute façon comme 
précisé plus haut ce dernier fait le calcul faux aussi..….)! 
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Exemple 191.: Intervalle de confiance de la moyenne (test t à 


un 1 échantillon) 
R 3.0.2 


Là encore nous allons vérifier la conformité des résultats avec toujours les mêmes logiciels et 
les calculs effectués à la main suite à la démonstration mathématique faite dans le cours 
théorique. 


Le test de Student à 1 échantillon est lui intégré par défaut dans R mais là encore seulement si 
les données brutes sont disponibles (encore une fois c'est dommage mais bon...). 


Nous utilisons donc la commande t.test( ) : 


> x<=-Cc(3,7,12,5,9,13,2,8,6,14,6,1,2,3,2,5,11,13,5) 
> t.test(x,mu=5S,alternative=c{("tuo.sided"),conf.level=0.95) 


One Sample t-test 


data: x 
t = 1.7354, df = 18, p-value = 0.09975 
alternative hypothesis: true mean is not equal to S 
95 percent confidence interval: 
4.645311 6.723110 
sample estimates: 
mean Of x 
6.664211 


> | 


et là nous sommes en conformité avec Minitab (mais ce dernier ne donne pas la p-value) et 
Microsoft Excel(avec qui on retrouvait toutes les valeurs). 


Nous retrouvons donc les bons résultats avec les mêmes conclusions. 


On peut avoir de multiples intervalles de confiance à l'aide du package Rmisc et de sa 
fonction group.CI( ): 
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Sciences.ch 


R File 


0 


Edit 


179 
160 
136 
227 
217 
168 
108 
124 
143 
140 


View Misc 


MR RGui (64-bit) - [R Console] 


> library("Rmisc") 
> head(chickwts, 10) 
weight 


feed 
horsebean 
horsebean 
horsebean 
horsebean 
horsebean 
horsebean 
horsebean 
horsebean 
horsebean 
horsebean 


Packages Windows 


1 
2 
3 
4 
5 
6 
7 
8 
9 
L 
> 
> 
> 


#intervalle de 
#fl'intervalle de Student 


confiance de la moyenne par groupe basée sur 


Help 


group.CI(weight-feed,data=chickwts,ci-0.95) 
feed weight.upper weight.mean weight.lower 


casein 
horsebean 
linseed 
meatmeal 
soybean 
sunflower 


364.5226 
187-8313 
251.9390 
320.5099 
277.6818 
359.9458 


) 
| 


V+H HV VV OU EB & NH 


require ("latticeExtra") 
with(group.CI(weight-feed,chickwts), 
segplot (feed-weight.lower+weight.upper,center=weight.mean) 


323.5833 
160.2000 
218.7500 
276.9091 
246.4286 
328.9167 


282.6440 
132-5687 
185.5610 
233.3083 
215.1754 
297.8875 


Avec le graphique correspondant: 
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sunflower 


soybean 


meatmeal 


linseed 


horsebean 


casein 
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Exemple 192.: Test t-Student bilatéral d'un échantillon 
R 3.0.2 


Comme d'habitude nous allons contrôler que nous obtenons les mêmes résultats que ceux 
calculés à la main ou avec Microsoft Excel et Minitab après la démonstration mathématique 
du test dans le cours théorique. Nous utiliserons les mêmes données de mesures et la 
commande t.test( ) : 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> Mesures<-c(15.0809,15.0873,14.9679,15.0423,15.1029, 

+ 14.9903,15.1299,15.0414, 15.0351,15.0559,15.0793,15.0753,15.0483, 
+ 15.0515,15.0962,15.0654,14.9759,15.0507) 

> t.test (Mesures,mu=15,conf.level=0.95,alternative="tuwo.sided") 


One Sample t-test D 


data: Mesures 
5.1991, df = 17, p-value = 7.24e-05 

alternative hypothesis: true mean is not equal to 15 
95 percent confidence interval: 

15.031911 15.075485 
sample estimates: 
mean Of x 

15.005369 


> | 


Nous retrouvons les mêmes valeurs avec les mêmes conclusions! 
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Exemple 193.: Puissance d'un test t à 1 échantillon en bilatéral 
R 3.0.2 


Calculer la puissance d'un test a priori ou a posteriori est important dans la démarche 
scientifique. Nous allons ici vérifier que nous retrouvons ou non les mêmes résultats que ceux 
calculés à la main dans le cours théorique ou avec Minitab et MS Excel. 


Pour cela, nous allons utiliser la commande pwr.t.test() du package pwr: 


KR Fichier Edition Voir Misc Packages Fenêtres Aide 


> libraryipuwur) 
> pur.t.test(d=2/3,n=9,sig.level=0.05,type="one.sample",alternative="tuo.sided") 


One-sample t test power calculation 


9 
0.6666667 
0.05 
0.4210519 
two.sided 


n 
d 

sig.level 
power 
alternative 


> | 


Nous retrouvons donc bien les mêmes valeurs que dans Minitab et presque les mêmes que 
celles calculées à la main dans le cours théorique. 
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Exemple 194.: Résolution du test t à 1 échantillon en bilatéral 
R 3.0.2 


N'ayant pas trouvé de fonctions dans quelque package que ce soit pour la résolution du test Z, 
nous allons donc passer directement au f et nous sauterons le calcul de la résolution du test p 
n'ayant pas trouvé de package intégrant aussi la fonction. 


Donc rappelons d'abord que nous avons obtenu ci-dessus: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> library(puwr) 
> pur.t.test({d=2/3,n=9,sig.level=0.05,type="one.seample",alternative="tuo.sided") 


One-sample t test power calculation 


n = 
d 0.6666667 
sig.level = 0.05 
power 0.4210519 
alternative two.sided 


> | 


Nous avons alors simplement en suivant la même ligne directrice: 


RGui (64-bit) - [R Console] (s=s](stis] 


R Fichier Edition Voir Misc Packages Fenêtres Aide _lslxl 


ÉOSOESINIE) 


> library (pwr) 
> pwr.t.test (power=0.4210519,n=9,sig.level=0.05,type="one.sample" ,alternative="two.sided") 


One-sample t test power calculation 


n 9 


d = 0.6666608 

sig.level = 0.05 
power = 0.4210519 
alternative = two.sided 


>| 


4 Lu L 


Eh bien en utilisant le package OPDOE et sa fonction delta.t.test( ) nous pouvons en 
quelque sorte rebrousser chemin: 
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KR Fichier Edition Voir Misc Packages Fenétres Aide 


Bee] 


> library(OPDOE) 


> delta.t.test (type="one.sample" ,power=0.4210519,n=9,sig.level=0.05,alternative="two.sided") 


[1] 0.6667515 
> | 


Nous retrouvons bien la différence de 2/3 (à une petite erreur d'arrondi près). 
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Exemple 195.: Taille d'échantillon (effectif) d'un test t à 1 


échantillon en bilatéral 
R 3.02 


Calculer la taille nécessaire d'un échantillon a priori pour avoir une certaine puissance du test 
est aussi important dans la démarche scientifique. Nous allons ici vérifier que nous retrouvons 
ou non les mêmes résultats que ceux calculés à la main dans le cours théorique ou avec 
Minitab et MS Excel. 


Pour cela, nous allons encore une fois utiliser la commande pwr.t.test() du package pwr: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> library(puwur) 
> pur.t.test(d=2/3,power-=0.8,sig.level=0.05,type="one.sample",alternative="tuo.sided") 


One-sample t test power calculation 


n = 19.66693 
d 0.6666667 
sig.level 0.05 
power = 0.8 
alternative twuo.sided 


Nous retrouvons donc bien les mêmes valeurs que dans Minitab et que celles calculées à la 
main dans le cours théorique au dixième près. 


Il est intéressant de comparer avec le package OPDOE et sa fonction size.t.test( ) : 


: 
RRGu (64-bit - [RC 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


Bel] 


> library(OPDOE) 


|> size.t.test (type="one.sample",power=0.68,delta=2/3,sig.level=.05,alternative="two.sided") 
[17 20 
>| 
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Exemple 196.: Test t-Student pour données appariées (deux 


échantillons) 
R 3.0.2 


Là encore nous allons vérifier la conformité des résultats avec toujours les mêmes logiciels et 
les calculs effectués à la main suite à la démonstration mathématique faite dans le cours 
théorique. 


Nous utilisons donc la commande t.test( ) : 


KR Fichier Edition Voir Misc Packages Fenêtres Aide 


> setwd{"C:/") 
> mydata<-read.csv("Pipelines.csv",header=T,sep=":") 
> t.test (mydata$Pipelinel,mydata$Pipelinez,paired=TRUE) 


Paired t-test 


data: mydata$Pipelinel and mydata$Pipelinez 
t = 1.191565, df = 18, p-value = 0.2489 
alternative hypothesis: true difference in means is not equal to O 
95 percent confidence interval: 
-4.097271 14.834113 
sample estimates: 
mean of the differences 
5.368421 


> | 


Les résultats sont donc conformes à la différence que la p-value est extrêmement précise dans 
R... 


Nous retrouvons donc les bons résultats avec les mêmes conclusions. 


Nous pouvons faire un type de graphique très adapté aux données appariées à l'aide du 
package PairedDate: 
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a 2x 


Q À Console RER ES 


> library("PairedData") 

> with(mydata, 

+ plot (paired(Pipelinel,Pipeline2),type="profile")+ 

+ geom_ line (color="red3",size=0.7)+ 

+ geom point ()+theme bw()+ 

+ theme (panel.background=element rect(fill="gray97"))) 
> 


Pipeline1 Pipeline2 


Nous pouvons faire mieux avec le package ggstatsplot que nous recommandons fortement au 
lecteur de parcourir??. Pour cela nous arrangeons un peu les données au préalable: 


22 https://github.com/IndrajeetPatil/ggstatsplot/blob/master/README.md 
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R RGuïi (64-bit) - [R Console] 
ŒR File Edit View Misc Packages Windows Help 


EROIOCBIEIE 


> mydata<-read.csv("c:/tmp/Pipelines.csv",header=T,sep=";") 

> library("gtools") 

> FirstSet<-data.frame(StackedColumn=mydata({,1],Group="Pipelineli") 

> SecondSet<-data.frame (StackedColumn=-mydata{,2],Group="Pipeline2") 

> (mydata<-smartbind(FirstSet,SecondSet)) 

StackedColumn Group 
163 Pipelinel 
150 Pipelinel 
171 Pipelinel 
155 Pipelinel 
186 Pipelinel 
145 Pipelinel 
154 Pipelinel 
173 Pipelineli 
152 Pipelinel 
150 Pipelinel 
143 Pipelinel 
138 Pipelinel 
166 Pipelinel 
193 Pipelinel 
158 Pipelinel 
175 Pipelinel 
167 Pipelinel 
150 Pipelinel 
158 Pipelinel 
167 Pipeline2 
157 Pipeline2 
149 Pipeline2 
145 Pipeline2 
135 Pipeline2 
157 Pipeline2 
135 Pipeline2 
167 Pipeline2 
154 Pipeline2 
165 Pipeline2 
170 Pipeline2 
165 Pipeline2 
154 Pipeline2 
176 Pipeline2 
155 Pipeline2 
157 Pipeline2 
134 Pipeline2 
156 Pipeline2 
147 Pipeline2 


HP 


D ND ND ND ND ND ND D ND ND 
TETE on 06 0 0 


Et ensuite allons-y pour le graphique: 
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MR Console 


> library("ggstatsplot") 

> ggbetweenstats ( 

— data = mydata, 
x = Group, 
y = StackedColumn, 
pairwise.comparisons = TRUE, 
title = "“Student-T Test", 
messages = FALSE 


MR Graphics: Device 2 (ACTIVE) 


Student-T Test 
twaich(34.80) = 1.24, p = 0.223, Jiiodoe = 0.39, Clsse, [-0.24, 1.02], nobs = 38 


€ 
E 
3 
Ô 
£ 
Ë 


Pipeline1 
(n = 19) 


R Statistical Software 


Sciences.ch 


Pipeline2 
(n = 19) 


In favor of null: 10g.(BF5.) = 0.55, ru, = 0.71 
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Exemple 197.: Test t-Student homoscédastique bilatéral 


d'égalité de la moyenne (deux échantillons) 
R 3.0.2 


Nous continuons donc avec le contrôle de conformité avec les démonstrations mathématiques 
faites en cours et les calculs faits à la main et dans Minitab et toujours avec les mêmes 
données. 


Nous utilisons donc la commande t.test( ) : 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> setwd{i"C:/"] 
> mydata<-read.csv{("Pipelines.csv",header=T,sep=";"] 
> t.test (mydata$Pipelinel,mydata$Pipeline2,var.equal=T) 


Two Sample t-test 


data: mydataf$fPipelinei and mydatafPipelinez 
t = 1.2398, df = 36, p-value 0.2231 
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval: 
-3.41343 14.115027 
sample estimates: 
mean of x mean of y 
160.3684 155.0000 


> | 


Nous retrouvons donc les mêmes valeurs que Minitab et MS Excel. À la différence que 
Minitab donne des informations que R ne donne pas et réciproquement (alors qu'avec 
Microsoft Excel on pouvait bien évidemment avoir toutes les informations). 


Nous retrouvons donc les bons résultats avec les mêmes conclusions. 
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Exemple 198.: Test t-Student hétéroscédastique bilatéral 


d'égalité de la moyenne (test de Welch) 
R 3.0.2 


Nous continuons donc avec le contrôle de conformité avec les démonstrations mathématiques 
faites en cours et les calculs faits à la main et dans Minitab et toujours avec les mêmes 
données. 


Nous utilisons donc la commande t.test( ) : 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> setwd{"C:/") 
> mydata<-read.csv{("Pipelines.csv",header=T,sep=";"] 
> t.test (mydata$Pipelineli,mydata$Pipeline2,var.equal=F) 


Welch Two Sample t-test 


data: mydatDMPipeline1 and mydata$Pipelinez 


t = 1.2398, df = 34.797, p-value = 0.2233 
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval: 
—-3.423986 14.160828 
sample estimates: 
mean of x mean of y 
160.3684 155.0000 


> | 


Nous retrouvons donc à peu près les mêmes valeurs que Minitab et MS Excel. À la différence 
que Minitab donne des informations que R ne donne pas et réciproquement (alors qu'avec 
Microsoft Excel on pouvait bien évidemment avoir toutes les informations). 


Nous retrouvons donc les bons résultats avec les mêmes conclusions. 


Nous pouvons faire mieux avec le package ggstatsplot que nous recommandons fortement au 
lecteur de parcourir? sa documentation. Pour cela nous arrangeons un peu les données au 
préalable: 


3 https://github.com/IndrajeetPatil/ggstatsplot/blob/master/README.md 
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R RGuïi (64-bit) - [R Console] 
ŒR File Edit View Misc Packages Windows Help 


EROIOCBIEIE 


> mydata<-read.csv("c:/tmp/Pipelines.csv",header=T,sep=";") 

> library("gtools") 

> FirstSet<-data.frame(StackedColumn=mydata({,1],Group="Pipelineli") 

> SecondSet<-data.frame (StackedColumn=-mydata{,2],Group="Pipeline2") 

> (mydata<-smartbind(FirstSet,SecondSet)) 

StackedColumn Group 
163 Pipelinel 
150 Pipelinel 
171 Pipelinel 
155 Pipelinel 
186 Pipelinel 
145 Pipelinel 
154 Pipelinel 
173 Pipelineli 
152 Pipelinel 
150 Pipelinel 
143 Pipelinel 
138 Pipelinel 
166 Pipelinel 
193 Pipelinel 
158 Pipelinel 
175 Pipelinel 
167 Pipelinel 
150 Pipelinel 
158 Pipelinel 
167 Pipeline2 
157 Pipeline2 
149 Pipeline2 
145 Pipeline2 
135 Pipeline2 
157 Pipeline2 
135 Pipeline2 
167 Pipeline2 
154 Pipeline2 
165 Pipeline2 
170 Pipeline2 
165 Pipeline2 
154 Pipeline2 
176 Pipeline2 
155 Pipeline2 
157 Pipeline2 
134 Pipeline2 
156 Pipeline2 
147 Pipeline2 


HP 


D ND ND ND ND ND ND D ND ND 
TETE on 06 0 0 


Et ensuite allons-y pour le graphique: 
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> library("ggstatsplot") 
> ggbetweenstats ( 


— data = mydata, 

_ x = Group, 

- y = StackedColumn, 

_ title = "Student-T Test", 
+ messages = FALSE 

+ 

> 


| twvein(34.80) = 1.24, p = 0.223, Giesge = 0.39, Closx, [-0.24, 1.02], nons = 38 


Pipeline1 Pipeline2 
(n = 19) (n = 19) 
Group 


In favor of null: log (BF;;) = 0.55, r2,, = 0.71 
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Exemple 199.: Graphique de Gardner-Altman pour test de 


Student des moyennes appariées ou non 
R 3.4.1 


Pour faire ce graphique, nous allons utiliser le package dabestr et ses fonctions dabest( ) et 
plot(). 


Voici donc deux graphiques différents (cas non appariés pour les deux) d'abord avec 
seulement deux groupes: 


F 


GRR Console a | © | ZX 


> library("dabestr") 
> 
> unpaired mean diff <- dabest{(iris, Species, Petal.Width, 


_ idx = c("setosa", "versicolor"), 
+ paired = FALSE) %5>% 
+ mean _diff() 


> plot (unpaired mean diff) 


© 


Petal.Width 
pesedun 


e2ueJeyIp ueeu 


o 
on 


setosa versicolor versicolor 
N = 50 N = 50 minus setosa 
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et avec trois groupes: 


> unpaired mean diff <- dabest(iris, Species, Petal.Width, 

+ idx = c("setosa", "versicolor", "virginica"), 
+ paired = FALSE) +>* 

+ mean _diff() 

> ééidiiiiRE 

> 


& 
TD 
> 
_) 
@ 
Q 


versicolor virginica 
N= 50 N= 50 


Unpaired 
a 


mean difference 


a 
NS 
on 


= 


versicolor virginica 
minus minus 
setosa setosa 
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Exemple 200.: Two one-sided test (TOST) de Student 
R 3.4.1 


Nous avons étudié et démontré en détails dans le cours théorique le fameux test TOST de 
Student qui permet d'inverser la logique classique des tests NHST et donc au contraire de 
"prouver" l'hypothèse nulle au lieu de l'hypothèse alternative. 


Nous avons fait un exemple numérique détaillé calculé à la main que nous allons reproduire 
donc ici avec R et voir si nous tombons sur les mêmes résultats et mêmes conclusions. 


Nous allons comparer ici les packages TOST et equivalence de R pour le même cas et 
comparer les résultats mais aussi parce que les paramètres d'entrée doivent être saisis de 
manière très différente et les comparer n'est dénué d'intérêt. 


Commençons par la fonction tost( ) du package equivalence: 


C RGui (64-bit) - [R Console] 


R File Edit View Misc Packages Windows Help - mx 


> M249<-c(180,143,117,169,111,114,166,131,93,177) 
> M4<-c(65,112,139,112,125,78,138,84,134,69) 

> 

> (mul<-mean(M249)) 

[1] 140.1 

> (mu2<-mean (M4)) 

[1] 105.6 

> (stdvl<-sd(M249)) 

[1] 31.32429 

> (stdv2<-sd(M4)) 

[1] 29.1479 

> 

> library("equivalence") 

> tost(M249, M4, epsilon = 20, paired = FALSE, var.equal = FALSE, conf.level = 0.95, alpha = 0.05) 


Welch Two Sample TOST 


data: M249 and M4 

df = 17.907 

sample estimates: 

mean of x mean of y 
140.1 105.6 


Epsilon: 20 

95 percent two one-sided confidence interval (TOST interval): 
11.03025 57.96975 

Null hypothesis of statistical difference is: not rejected 
Ji p-value: 0.8509422 

> 


où le paramètre epsilon correspond bien évidemment à notre ô du cours théorique. 


Même si l'intervalle de confiance et la p-value sont correcte (correspondent aux calculs à la 
main et aux valeurs renvoyées par Minitab) la question est pourquoi renvoyer qu'une seule des 
p-Valeurs et un seule intervalle de confiance? Toutefois la conclusion correspond à celle du 
cours théorique: Nous échouons à rejeter l'hypothèse nulle que la différence absolue est 
supérieur à 20. 


R Statistical Software 1314/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Bref... cette fonction de ce package est fiable au niveau des conclusions mais on est loin de 
détails que l'on obtient avec Minitab (à moins qu'il y ait une subtilité dans les paramètres 
d'entrée qu'un jour un lecteur nous indiquera???7)! 


Voyons si le package TOSTER et sa fonction TOSTtwo( ) font mieux ? : 


 RGui (64-bit) - [R Console] 


R File Edit View Misc Packages Windows Help |5} x 


> library("TOSTER") 


> TOSTtwo(mil=mul, m2=mu2, sdi=stdvl, sd2=stdv2, nl=10, n2=10, 

+ low egbound d=-0.57971, high eqgbound d=1.57, alpha = 0.05, var.equal = TRUE) 
TOST results: 

t-value lower bound: 3.85 p-value lower bound: 0.0006 

t-value upper bound: -0.961 p-value upper bound: 0.175 

degrees of freedom : 18 


Equivalence bounds (Cohen's dj): 
low egbound: -0.5797 
high eqgbound: 1.57 


Equivalence bounds (raw scores): 
low egbound: -17.5395 
high eqgbound: 47.5014 


TOST confidence interval: 
lower bound 90% CI: 11.037 
upper bound 90% CI: 57.963 


NHST confidence interval: 
lower bound 95% CI: 6.073 
upper bound 95% CI: 62.927 


Equivalence Test Result: 
The equivalence test was non-significant, t(18) = -0.961, p = 0.175, given equivalence bounds$ 


Null Hypothesis Test Result: 
The null hypothesis test was significant, t(l8) 


2.550, p = 0.0201, given an alpha of 0.05. 


Based on the equivalence test and the null-hypothesis test combined, we can conclude that the$ 
>| 


Commençons par parler des paramètres d'entrée /ow_egbound_d et high_eqgbound_d qui ne 
sont pas intuitifs dans le cas présent si on ne lit pas la documentation! Ces deux paramètres 
correspondent au nombre de fois qu'on doit retirer ou ajouter le d de Cohen: 


[u2 — pl 
SE 


d de Cohen = 


à lui-même afin d'obtenir : 


[u2 — dl + Ô 


d de Cohen + x(d de Cohen) = SE 


Maintenant analysons les résultats! D'abord on peut remarquer que les t-values sont très 
similaires mais pas identiques à celles calculés à la main. Cela s'explique par le fait que le 
package utilise en réalité de la correction de Welch et fait le calcul non pas sur 18 degrés de 
liberté mais sur 17.907. 
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Les intervalles de confiance correspondent aux calculs à la main et nous pouvons constater 
que nous retrouvons un de ceux donnés par le package equivalence. 


Maintenant parlons des phrases complètes non visibles ci-dessus dans la capture d'écran et qui 
sont: 


Equivalence Test Result: 

The equivalence test was non-significant, t(18) = -0.961, p = 0.175, 
given equivalence bounds of -17.540 and 47.501 (on a raw scale) and 
an alpha of 0.05. 


Null Hypothesis Test Result: 
The null hypothesis test was significant, t(18) = 2.550, p — 0.0201, 
given an alpha of 0.05. 


Based on the equivalence test and the null-hypothesis test combined, 
we can conclude that the observed effect is statistically different 
from zero and statistically not equivalent to zero. 


Bon les f-value et p-value obtenues ici ne correspondent ni à ceux obtenus dans le cours 
théorique, n1 à celle renvoyée par le package equivalence ni par Minitab. Toutefois la 
conclusion reste la bonne et la même! 


Et cette dernière fonction donne aussi le graphique suivant: 


R R Graphics: Device 2 (ACTIVE) (non /[.03.)(0Es 
Equivalence bounds -17.54 and 47.501 
Mean difference = 34.5 
TOST: 90% C1[11.037;57.963] non-significant 
NHST: 95% CI [6.073;62.927] significant 


Mean Difference 


Notez que le package TOSTER à aussi une fonction pour faire un TOST des proportions 
nommée TOSTtwo.prop( ) et aussi d'autres TOST de Student pour les données appariées! 
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Exemple 201.: Test du ratio des moyennes de Fieller 
R 3.1.1 


Nous continuons donc avec le contrôle de conformité avec les démonstrations mathématiques 
faites en cours concernant le ratio de deux moyennes et son intervalle de confiance. 


En utilisant les mêmes données que pour l'exemple précédent, nous obtenons (attention!!! le 
"rho" de cette fonction n'est pas la corrélation mais l'hypothèse nulle... hummm... 
hummm.….): 


ft RGui (64-bit) - [R Console] eu X 


R File Edit View Misc Packages Windows Help _#1x 


> library(mratios) 
> mydata<-read.csv("c:/tmp/Pipelines.csv",header=T, sep=";") 
> t.test.ratio(mydata$Pipelinel,mydata$Pipeline2,alternative="two.sided",rho=1,var.equal=T,conf.level=0.95) 


Ratio-t-test for equal variances 


data: x and y 
t = 1.2398, df = 36, p-value = 0.2231 
alternative hypothesis: true ratio of means is not equal to 1 
95 percent confidence interval: 
0.9785813 1.0940151 
sample estimates: 
mean x mean y x/y 
160.368421 155.000000 1.034635 


>| 


Ce qui correspond à peu près aux calculs faits à la main où nous avions obtenu: 


g+ - g(1-g) 
= {0.987,1.084) 


Malheureusement nous sommes obligés de mettre des vecteurs dans la fonction de ce package 
ce qui limite son utilisation. 


ToDo: Trouver une manière de contourner le faire de devoir mettre les vecteurs avec les 
valeurs sources. 
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Exemple 202.: Comparaison de proportions sur une même 


population (test binomial exact) 
R 3.0.2 


Nous continuons donc avec le contrôle de conformité avec les démonstrations mathématiques 
faites en cours et les calculs faits à la main et dans Minitab et toujours avec les mêmes 
données. 


Nous utilisons donc la commande binom.test( ) : 


R 
R File Edit View Misc Packages Windows Help | le) 12e 


Biel] 


> binom.test(5,12,p=0.5) 


Exact binomial test 


data: 5 and 12 
number of successes = 5, number of trials = 12, p-value = 0.7744 
alternative hypothesis: true probability of success is not equal to 0.5 
95 percent confidence interval: 
0.1516522 0.7233303 
sample estimates: 
probability of success 
0.4166667 


> 


Nous retrouvons donc exactement les mêmes données que celles calculées à la main et dans 
Microsoft Excel et Minitab (nous parlons alors parfois de test binomial exact de Clopper- 
Pearson). 


Nous retrouvons donc les bons résultats avec les mêmes conclusions. 


R Statistical Software 1318/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Exemple 203.: Intervalle de confiance de la proportion 
R 3.0.2 


Nous continuons donc avec le contrôle de conformité avec les démonstrations mathématiques 
faites en cours et les calculs faits à la main et dans Minitab et toujours avec les mêmes 
données. 


Nous utilisons donc la commande prop.test() avec ou sans correction de Yates: 


> prop.test(8,300,0.5,alternative="two.sided",conf.level=0.95) 


i-sample proportions test}with continuity correction 


data: 8 out of 300, null probability 0.5 
X-squared = 266.9633, df = 1, p-value < 2.2e-16 
alternative hypothesis: true p is not equal to 0.5 
95 percent confidence interval: 

0.01245178 0.05388304 

sample estimates: 


P 
0.02666667 


> prop.test(8,300,0.5,alternative="two.sided",conf.level=0.95,correc=F) 


1i-sample proportions test without continuity correction 


data: 6 out of 300, null probability 0.5 
X-squared = 268.8533, df = 1, p-value < 2.2e-16 
alternative hypothesis: true p is not equal to 0.5 
95 percent confidence interval: 

0.01357307 0.05172894 

sample estimates: 


b 
0.02666667 


> | 


Dans les deux cas, nous voyons que nous ne retrouvons pas le même résultat que les calculs 
faits à la main et dans Microsoft Excel pour l'intervalle de confiance (mais pour le reste c'est 
OK...). Il y a une différence d'environ 10% en ce qui concerne les bornes c'est donc non 
négligeable. La raison de cette différence s'explique simplement par le fait que R utilise le test 
du chi-deux qui comme nous l'avons démontré dans le cours théorique est équivalent au carré 
du test Z. 


Plus simplement: la p-valeur de prop.test de R est le score Z de Rao et l'intervalle de 
confiance et le CI de Wald. 


Voyons aussi un cas ludique d'application copié du blog d'Arthur CHARPENTIER et qui est 
instructif aussi bien au niveau de l'apprentissage de R (manipulation de matrice et vecteurs et 
certains subtilités graphiques) que de la compréhension de statistiques: 
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Sciences.ch 


ENNNNNNNNNNNNNNNN 


R RGui (64-bit) - [R Console] — 
ŒR File Edit View Misc Packages Windows Help - 


VVNVVYNVNNVNNNNV NV 


O 


#exemple pris de: https://freakonometrics.hypotheses.org/18117 
DD DD M 

fpartie intervalle de confiance de la proprtion (binomiale) 

n <- 1000 #nombre d'événements (contrats d'assurance)) 

xbar <- 150 #nombre d'événements d'intérêt (accidents déclarés) 
ns <- 100 #nombre de simulations 

#on produit un vecteur de 100*1000 éléments binaires de probabilité 150/1000 
v<-rbinom(n*ns,size=1l,prob=xbar/n) 

#on les range en 1000 lignes dans une matrice 

#(l'idée étant que chaque colonne contienne une simulation) 
M<-matrix(v,nrow=n) 


#on crée une fonction pour calculer l'intervalle de confiance de le proportion à 95% 
£IC<-function(x) mean(x)+c(-1,1)*1.96*sqrt (mean(x) *(1-mean(x)))/sqrti(n) 
#on l'applique sur chacune des ns colonne de la matrice M 
fce qui donnera donc 100 (ns) intervalles de confiance 
head(IC<-t (apply(M,2,fIC)),10) 
[1] [,2] 
[1,] 0.1344514 0.1795486 
[2,1] 0.1222392 0.1657608 
[3,] 0.1410501 0.1869499 
[4,1] 0.1100877 0.1519123 
[5,] 0.1222392 0.1657608 
(6,1 0-1372775 0:1827225 
[7,] 0.1072929 0.1487071 
[8,] 0.1054318 0.1465682 
[9,1] 0.1203656 0.1636344 


[10,] 0.1128862 0.1551138 


fon calcule aussi les 100 (ns) moyennes empiriques 

MN<-apply(M,2,mean) 

#*on crée une matrice contenant de façon binaire les cas ou la moyenne attendu est en 

#dehors des intervalles simulés 

k<-(xbar/n<IC[,1])|(xbar/n>IC[,2]) 

ton fait un plot pour mettre cela en évidence de manière sympa (de façon astucieuse) 

plot (MN,1:ns,xlim=range (IC) ,axes=FALSE, xlab="",ylab="",pch=19,cex=.7,col=c("blue","red") [1+k]) 
axis(i) 

segments (IC[,1],1:ns,IC[,2],1:ns,col=c("blue","red")[1+k]) 

abline (v=xbar/n) 


Ce qui donne graphiquement: 


re x 


À Graphics: Device 2 (ACTIVE) EIES 


R 
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Exemple 204.: Comparaison de proportions sur 2 échantillons 


indépendants 
R 3.0.2 


Nous continuons donc avec le contrôle de conformité avec les démonstrations mathématiques 
faites en cours et les calculs faits à la main et dans Minitab et toujours avec les mêmes 
données. 


Nous utilisons toujours la commande prop.test() sans correction de Yates: 


ne RGui {64-bit) - [R Cc 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


datal<-c(48,2) 

data2<-c(26,4) 

tableau<-as.table (chindidatal,dataz2)) 
prop.test (tableau,correct=FALSE) 


2-sample test for equality of proportions without continuity correction 


data: tableau 
X-squared = 2.3544, df = 1, p-value = 0.1249 
alternative hypothesis: tuo.sided 
95 percent confidence interval: 
-0.07724945 0.70788008 
sample estimates: 
prop 1 prop 2 
0.6486456 0.3333333 


Message d'avis : 


In prop.test (tableau, correct = FALSE) 
l'approximation du Chi-2 est peut-être incorrecte 


| 
R 


Donc nous ne retrouvons évidemment pas la même chose que dans Minitab et dans Microsoft 
Excel puisque nous y avions fait une approximation par la loi Normale alors que R fait une 
approximation par la loi de Khi-2 (bon la conclusion reste toutefois le même dans ce cas 
particulier). La raison de cette différence s'explique simplement par le fait que R utilise le test 
du chi-deux qui comme nous l'avons démontré dans le cours théorique est équivalent au carré 
du test Z. 


Je n'ai pas trouvé de package faisant le test réel Z de deux proportions dans R, mais il peut 
facilement être écrit à la main faute de mieux: 
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 RGui (64-bit) - [R Console] CO 
R 


File Edit View Misc Packages Windows Help | XX 


Rir-2 
pl<-2/ 48 
n_2 <- 26 

p_2 <- 4 / 26 


#$ calculate the z-statistic 

Z_stat <- (p 2 - p 1) / sqrt(p l*(1-p 1)/n l+p 2*(1-p 2)/n 2) 
z_stat 

[1] 0.7098815 

> (p_value<-l-pnorm(z stat)) 

[1] 0.2388888 

>| 


VUNNNNVV NV 


Et on voit que la conclusion reste la même! 


Si nous faisons comme Minitab immédiatement un test exact de Fisher (Minitab le fait 
automatiquement), nous avons avec R en utilisant la commande fisher.test( ) : 
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> datal<-c(48,2) 
> data2<-c(26,4) 
> fisher.test (matrice,alternative="tuwo.sided") 


Fisher's Exact Test for Count Data 


data: matrice 
p-value = 0.1903 
alternative hypothesis: true odds ratio is not equal to 1 
95 percent confidence interval: 
0.4831612 42.6350274 
sample estimates: 
odds ratio 
3.629396 


> | 


Le même résultat et la même conclusion qu'avec Minitab et MS Excel. 
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Exemple 205.: Taille d'échantillon (effectif) d'un test p 


(proportion) à 1 échantillon en bilatéral 
R 3.0.2 


Calculer la taille nécessaire d'un échantillon a priori pour avoir une certaine puissance du test 
est aussi important dans la démarche scientifique. Nous allons ici vérifier que nous retrouvons 
ou non les mêmes résultats que ceux calculés à la main dans le cours théorique ou avec 
Minitab et MS Excel. 


Pour cela, nous allons encore une fois utiliser la commande pwr.p.test() du package pwr: 


> library(pur) 
> h<-ES.h(0.3,0.5) 
> pwur.p.test (h=h,power=0.8,sig.level=0.05,alternative="tuwuo.sided") 


proportion power calculation for binomial distribution (arcsine transformation) 


h = 0.4115168 
n 46.346804 
sig.level = 0.05 D 
power 0.8 
alternative two.sided 


Nous retrouvons donc bien les mêmes valeurs que dans Minitab et toujours la même 
différence qu'avec ce que nous avons calculé à la main dans le cours théorique. 


Sinon pour calculer la puissance, en se basant aussi sur le calcul du cours théorique, 1l semble 
que l'équivalent dans R soit: 


R File Edit View Misc Packages Windows Help a x 


| 


> library("pwr") 
> pwr.p.test (ES.h(0.5,0.6),n=64, power=NULL, alternative = "two.sided") 


proportion power calculation for binomial distribution (arcsine transformation) 


h = 0.2013579 
n = 64 
sig.level = 0.05 
power = 0.3636848 
alternative = two.sided 


>| 
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au lieu des 0.3927 obtenus à la main (probablement... mais sans certitude (!)... à cause de 
l'approximation en arcsinus). Notez qu'on obtient exactement la même valeur numérique 
qu'avec Python. 


W 
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Exemple 206.: Taille d'échantillon (effectif) d'un test p 


(proportion) à 2 échantillons en bilatéral 
R 3.0.2 


Calculer la taille nécessaire d'un échantillon a priori pour avoir une certaine puissance du test 
est aussi important dans le démarche scientifique. Nous allons ici vérifier que nous retrouvons 
ou non les mêmes résultats que ceux calculés à la main dans le cours théorique ou avec 
Minitab et MS Excel. 


Imaginons que nous souhaiterions mettre en évidence une différence de 20% dans une étude 
(ou sondage) où nous nous attendons à avoir 50% de proportion expérimentale (donc une 
proportion de comparaison de 50-20=30%) 


Pour cela, nous allons encore une fois utiliser la commande pwr.2p.test() du package pwr: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> library(puwur) 
> h<-ES.h(0.3,0.5) 
> pur.2p.test (h=h,power=0.8,sig.level=0.05,alternative="tuo.sided") 


Difference of proportion power calculation for binomial distributiof$ 


0.4115168 
92.69608 
sig.leve 0.05 
power 0.8 
alternative = twuo.sided 


h 
n 
l 


NOTE: same sample sizes 


On retrouve le même résultat avec la fonction native power.prop.test( ): 
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R RGui (64-bit) - [R Console] — L 
R File Edit View Misc Packages Windows Help IX 


sC] 


> power.prop.test (p1=0.3,p2=0.5,power=0.8,alternative = "two.sided") 


Two-sample comparison of proportions power calculation 


n = 92.99884 
pli = 0.3 
p2 = 0.5 
sig.level = 0.05 
power = 0.8 
alternative = two.sided 


| NOTE : n is number in *each* group 


> | 


Nous retrouvons donc bien les mêmes valeurs que dans Minitab et toujours la même 
différence qu'avec ce que nous avons calculé à la main dans le cours théorique. 
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Exemple 207.: Test de k-proportions (test du khi-deux) 
R 3.6.3 


Rappelons que faire le test de (l'égalité) de k-proportions revient à faire un test (non- 
paramétrique) d'ajustement (indépendance) du khi-2 (voir page 1458): 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> NH <- c(120,130,125,128,80, 70,75) 
> chisq.test(M) 


Chi-squared test for given probabilities 


data: M 
X-squared = 43.486808, df = 6, p-value = 9.369e-08 


> as.table(chisq.test (M) $expected) 
À E € D E F G 

104 104 104 104 104 104 104 
> chisq.test (M) $fstatistic 
X-squared 

43.468077 

| > chisq.test (M) $method 

[1] "Chi-squared test for given probabilities" 
æ 


« 


Effectivement si on normalise le vecteur M ci-dessus en divisant chaque composante par le 
total des composantes, cela revient à comparer des proportions. 


Dans la pratique on fait cependant l'inverse: pour satisfaire les conditions d'application du 
test, 1l faut multiplier le vecteur des proportions par 100!!! 
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Exemple 208.: Test de Poisson à un échantillon 


unilatéral/bilatéral 
R 3.0.2 


Nous allons voir ici si nous retrouvons encore une fois les mêmes valeurs que celles calculées 
dans le cours théorique à la main ainsi que dans Minitab. 


Nous partirons des mêmes exemples que dans le cours théorique. 


Nous utilisons la commande native poisson.test() et en bilatéral pour déterminer pour une 
compagnie d'aviation ayant eu 2 deux crashs en 1'000'000 de vols (événement très rare), 
quelle est l'intervalle de confiance en bilatéral à 95% sachant qu'au niveau mondial le nombre 
d'accidents par millions est de 0.4. 


/ 
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> poisson.test (2,1000000,r=0.4) 
Exact Poisson test 


data: 2 time base: 1e+06 
number of events = 2, time base = 1e+06, p-value < 2.2e-16 
alternative hypothesis: true event rate is not equal to 0.4 
95 percent confidence interval: 
2.422093e-07 7.224688e-06 
sample estimates: 
event rate 
Ze-06 


> | 


Donc là nous retrouvons les mêmes valeurs que dans le cours Minitab globalement, maïs par 
contre pour la borne de gauche de l'intervalle, comme nous l'avons déjà mentionné dans le 
cours Minitab, le résultat ne correspond pas avec nos calculs faits à la main. Nous avions 
cependant montré dans le cours théorique quels étaient les calculs effectués en réalité dans 
l'algorithme (cependant sans en trouver la démonstration). 


Maintenant procédons à l'exemple unilatéral fait aussi dans le cours Minitab avec les non- 
conformes. 


Une société fabrique des télévisions en quantité constante et a mesuré le nombre d'appareils 
défectueux produits chaque trimestre pendant les dix dernières années (donc 4 fois 10 
mesures = 40 trimestres). La direction décide que le nombre maximum acceptable d'unités 
défectueuses est de 20 par trimestre et souhaite déterminer si l'usine satisfait à ces exigences 
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(sous l'hypothèse que la distribution des défectueux suive une loi de Poisson) à un niveau de 
confiance de 5%. 
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> poisson.test (713,7T-40,r=20 alternative = c("less")) 
Exact Poisson test 


data: 713 time base: 40 
number of events = 713, time base = 40, p-value = 0.0009355 
alternative hypothesis: true event rate is less than 20 
95 percent confidence interval: 
0.00000 18.96282 
sample estimates: 
event rate 
17.825 


> | 


Nous obtenons donc exactement le même résultat qu'avec Minitab! 
K 
® 
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Exemple 209.: Test de Poisson de la différence de deux 


moyenne 
R 3.2.0 


Nous reproduisons comme à l'habitude l'exemple du cours théorique et fait avec Minitab et à 
la main: 


Une compagnie d'aviation a eu 2 deux crashs en 1'000'000 de vols (événement très rare). Une 
autre compagnie a eu 3 crashs en 1'200'000 vols. Quel est l'intervalle de confiance en bilatéral 
à 95% en supposant que la différence devrait être nulle. 


Minitab nous donnait pour info: 


CMinitab - Sans titre - [Session] 


JE Fichier Edition Données Calc Stat Graphique Editeur Outils Fenêtre äide 


Test et limites de confiance pour les tests de Poisson à deux échantillons 


Nombre total Taux 
Echantillon d'occurrences N d'occurrence 
1 2 1000 0.0020 
2 3 1200 0.0025 
Différence = taux (1) - taux (2) 
Estimation de la différence : -0.0005 
Limites de confiance (à 95 %}j pour la différence : (-0.00446055, 0.00346055) 


Test de la différence = O0 {en fonction de la différence 0j : Z = -0.25 Valeur p = 0.805 


Valeur p du test exact = 1.000 


* REMARQUE * L'approximation selon la loi normale risque de ne pas être exacte pour les nombres totaux d'occurrences trop faibles. 


R n'implémente pas cette méthode à ce jour avec les hypothèses sous-jacente du modèle que 
nous avons vu dans le cours théorique (hypothèse de continuité, stabilité de la loi de Poisson). 


Par contre, la fonction study.exact() du package exactmeta contient bien le test de Poisson 
de la différence des moyennes mais sans correction de continuité et comme nous pouvons le 
voir le résultat est significativement différent de la sortie de Minitab et des calculs effectués à 
la main même si la conclusion reste la même dans ce cas particulier (j'ai par ailleurs manifesté 
mon scepticisme des hypothèses utilisées pour construire ce test dans le cours théorique. 
donc comme quoi...). 
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R Fichier Edition Voir Misc Packages Fenétres Aide 


> library(exactmeta) 


> study.exact (2,3,1000,1200,BB.grdnum=10000,type="risk difference" ,cov.prob=0.95) 
$fest 


[i] -0.0003609534 


$lower 
[i] -0.005520618 


$fupper 
[1] 0.005908967 


$status 
CAT 


$p 
CÉT à 


> | 


« 
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Exemple 210.: Intervalle de confiance de l'écart-type (test du 


Khi-2 de la variance) 
R 2.9.0 


Nous voulons déterminer l'intervalle de confiance de cette variance (c'est comme-si nous 
cherchions à comparer avec un ratio où nous avons 1 au dénominateur) en utilisant la fonction 
sigma2.test() du package sigma2tools. 


Un échantillon de 9 vis a été tiré d'une ligne de production et la mesure de leur diamètre en 
[mm] a été reportée ci-dessous: 


© RGui - [R Console] Eifei EX 
R Fichier Edition Voir Misc Packages Fenêtres Aide -|#/x| 


> libraryisigmaztools) 
> H<-c(13,13,12,12.55,12.99,12.689,12.68,12.97,12.99) 
> sigmaz.test (M) 


One-sample Chi-squared test for given variance 


data: M 

X-squared = 0.868976, df = 8, p-value = 0.002367 
alternative hypothesis: true variance is not equal to 1 
95 percent confidence interval: 

0.05118784 0.41177359 

sample estimates: 

Var Of x 

0.1121944 


et tout est parfait! Nous retrouvons les mêmes résultats que dans le cours théorique et qu'avec 
Microsoft Excel et Minitab. 
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Exemple 211.: Test de Fisher d'égalité des variances 
R 3.0.2 


Nous continuons donc avec le contrôle de conformité avec les démonstrations mathématiques 
faites en cours et les calculs faits à la main et dans Minitab et toujours avec les mêmes 
données. 


Nous utilisons donc la commande var.test( ) : 
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» AO. 2, Suds el;3es soldat dendpouil:9e1D) 
>'Bécld: LL: 3:2;:841;: 4 DB: Tr0: 0 0UTe den r dede ver de] 
> var.test (À,B) 


F test to compare two variances 


data: À and E 
0.8788, num df = 9, denom df = 11, p-value = 0.86 
alternative hypothesis: true ratio of variances is not equal to 1 
95 percent confidence interval: 
0.2449226 3.4377644 
sample estimates: 
ratio of variances 
0.8787574 


> | 


Nous retrouvons donc à peu près les mêmes valeurs que Minitab et MS Excel. À la différence 
que Minitab donne des informations que R ne donne pas et réciproquement (alors qu'avec 
Microsoft Excel on pouvait bien évidemment avoir toutes les informations). 
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Exemple 212.: Test de Levene et de Brown-Forsythe d'égalité 


de deux variances 
R 3.02 


Nous continuons donc avec le contrôle de conformité avec les démonstrations mathématiques 
faites en cours et les calculs faits à la main et dans Microsoft Excel(Minitab n'ayant pas le test 
de Levene mais de Brown-Forsythe même s'il indique le contraire) et toujours avec les mêmes 
données. 


Nous utilisons donc la commande leveneTest() du package car en préparant les données 
avec une structure peut triviale: 
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libraryicar) 
Equipei<-c(76,88,90,77,85,86, 79) 
Equipe2<-c(i77,75,680,63,87,90,85) 
y<-c(Equipel, Equipez) 
group<-as.factor(c(repii,lengthiEquipel)j),rep(2,length(Equipez)))) 
group 
[11 1 1 À 1 1 1 12 2 2 2 3 2 2 
Levels: 12 
> leveneTest(y,group) 
Levene's Test for Homogeneity of Variance (center = median) 
D£ F value Pri>F) 
group 1 0.036 0.8526 
12 


> | 


Nous retrouvons donc exactement les mêmes valeurs que celles calculées dans MS Excel. Par 
contre une valeur significativement différente de celle de Tanagra qui pour rappel était: 
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Parameters 


Sort results no 


Attribute_Y Attribute_X Description Statistical test 
Equipe 1 83,5714 5,4423  Levene's W 0,062976 
Pièces Equipe Equipe 2 F 82,4286 54116 df 2/18 
Equipe 3 7 83,8571 5,4292  p-value 0,939172 
AU 21 83,2857 5,1879 


Computation time : O ms, 
Created at 16/08/2013 16:34:39 


Même si la conclusion reste cependant la même! 


Voyons maintenant avec la variante robuste de Brown-Forsythe pour voir si là encore nous 
retrouvons les mêmes résultats (et bien évidemment avec les mêmes conclusions). Nous 
allons devoir utiliser la commande levene.test() du package lawstat-: 
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library(lawstat) 
Equipei<-c(78,88,90,77,85,88,79) 
Equipez<-c(77,75,80,83,87,90,85) 
y<-c(Equipel, Equipez) 
group<-as.factor(c(repi{il,lengthiEquipel)),rep(2,lengthiEquipezZ)))) NS 
group 
ENS TEA IA TASER 2 228 2 
Levels: 12 
> levene.test(y,group, location="median") 


modified robust Brown-Forsythe Levene-type test based on the absolute 
deviations from the median 


data: y 
Test Statistic = 0.036, p-value = 0.8526 


> | 


« 


Et nous retrouvons donc bien la même chose à la différence que R donne la statistique et la p- 
value avec plus de précision (comme à chaque fois quoi!). À comparer avec Tanagra aussi: 
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Exemple 213.: Robustesse de tests statistiques 
R 3.02 


Nous allons voir ici comme il est facile de mettre en œuvre avec R ce que nous avons fait 
dans le cours Microsoft Excel et qui consistait à tester la robustesse de certains tests simples 
ou particulièrement complexes. 


Nous n'allons pas ici refaire un exemple d'application pour chacun des tests (qu'ils soient 
paramétriques ou non paramétriques comme nous l'avions fait dans le cours MS Excel) car ce 
serait probablement plus ennuyeux qu'autre chose pour le lecteur. 


Afin de gagner du temps aussi de mon côté (car je déteste recréer la roue excepté si ce n'est 
pour faire mieux), j'ai reprise l'exemple mot pour mot, lettre par lettre du e-book de 
Vincent ZOONEKYND dont le but est de tester la robustesse du test de Student à la non- 
normalité des données (avec une distribution uniforme au lieu de Normale) et pour lequel il 
faudrait alors normalement utiliser un test non paramétrique de type Wilcoxon U. 


Donc nous y allons pour faire 1'000 tests de Student pour échantillons indépendants en 
bilatéral et faire la moyenne des p-value qui sont au-delà de 5% (soit les vrais positifs dans le 
cas présent): 


L- 
se, RGui (64-bit) - [R Cor 
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N<-1000 

n<-10 #individus par groupe 
#vecteus pour les deux groupes 
vl<-vector (];:v2<-vector () 
results<-vector {() 

LOE (CE En: TN] À 

vi<-runifin, min=-1, max=1) 
v2<-runifin, min=-1, max=1) 
results<-append(results,t.test(vil,v2,paired=FALSE,alternative="tuo.sided")$p.value) 
R 
sumiresults>0.05)/N 

1] 0.948 


> 
> 
> 
> 
> 
> 
+ 
+ 
+ 
+ 
> 
[ 

# 


Donc nous avons 94.90% de vrais positifs. Donc le test est robuste pour une distribution 
uniforme qui est non pathologique relativement à la loi Normale. En tout cas cela donne 
l'approche de la méthode pour généraliser ensuite à tout autre test. 


Nous pouvons faire de même avec l'intervalle de confiance (observez bien l'approche 
sémantique car c'est très pertinent!): 
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> N<-1000 £ 
n<-10 #individus par groupe 
#vecteus pour les deux groupes 
vi<-vector () ;:vZ<-vector () 
results<-vector () 


for (i in 1:N) { 

vi<-runifin, min=-1, max=1) 

v2<-runif(n, min=-1, max=1) 

IC<-t.test (vli,v2,paired=FALSE,alternative="tuo.sided") $conf.int 
results<-append(resuits,1IC[1]<0 & 1IC[2]>0) 

} 


sum(results)/N 
1] 0.946 
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Exemple 214.: ANOVA (Analyses de la Variance) 


Nous le savons, le nombre d'ANOVA possibles et imaginables existe en grand nombre. Nous 
allons donc ici uniquement nous concentrer sur celles étudiées et démontrées en détails dans 
le cours théorique. 


Avant de commencer juste en petit rappel sur la notation dans R des modèles de régression 
s'avère après expérience indispensable: 


Syntaxe(notation de Wilkinson) | Lecture 

Z-X+Y Le modèle est supposé du type 
2, =X;+Y 

Z-X*Y Le modèle est supposé avec 


interactions du type 

Z;=X; +Y +X;,Y, 

Z-XIY Le modèle est supposé avec 
interactions imbriqué 

ZEX +XT 

Z=X:T Le modèle est seulement avec 
interactions Z, = X,Y 


Z -— factor(X)+Error(interaction(factor(X),factor(Y )) Le modèle est hiérarchique 
complet 
Z - factor(X)+factor(Y)+Lettres Modèle carré latin 


S D'autres exemples suivront si 
o besoin… 
Tableau 2 Syntaxe pour les ANOVA 


Attention! Z-X+Y+X*#%Y n'est pas égal à Z-Y+X+X*Y dans les cas non-balancés! (voir cours 
théorique pourquoi!). 
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Exemple 1.: ANOVA à un facteur fixe (ANOVA:1 canonique) empilé 
R 3.0.2 


Imaginons une entreprise faisant les trois huit. Nous avons trois équipes qui travaillent sur une 
même machine. Nous souhaitons vérifier avec un seuil de confiance de 95% s'il y a une 
différence de productivité moyenne entre les trois équipes sur une semaine de travail. 


Nous allons vérifier que nous retrouvons bien les valeurs calculées à la main dans le cours 
théorique ainsi que dans le cours Microsoft Excel et Minitab en utilisant les mêmes données: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


mydata<-read.csv{("C:/ANOVilFacteurDesempile.csv",header=T,sep=";")] 
mydata 
Classes Valeurs 
Equipe 1 78 
Equipe 88 
Equipe 90 
Equipe TT 
Equipe 85 
Equipe 88 
Equipe 79 
Equipe 77 
Equipe +5 
Equipe 80 
Equipe 83 
Equipe 87 
Equipe 90 
Equipe 85 
Equipe 88 
Equipe 86 
Equipe 79 
Equipe 93 
Equipe 79 
Equipe 83 
Equipe 79 


VV 


L 
2 
3 
4 
5 
6 
7 
8 
9 


H H 
kH © 


HHHHH 
on On Bb © D 


Es 
-] 
LOL CL 0 WU NNNNNNNHHHHHH 


Déjà avant de sortir l'artillerie lourde une analyse qualitative peut parfois suffire: 
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e 


R Console a | T 
R OI ES 


+ 


> mydata<-read.csv("C:/ANOValFacteurDesempile.csv",header=T,sep=";") 
> boxplot (mydatafValeurs-mydata$Classes) 


Equipe 1 Equipe 2 Equipe 3 


Donc une analyse plus poussée se justifie bien! Nous utilisons alors la commande native 
aov() de R: Ÿ 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> mydata<-read.csv{("C:/ANOVilFacteurDesempile.csv",header=T,sep=";") 
> aovimydatafValeurs-mydatafClasses) 
Call: 

aov(formula = mydatafValeurs - mydata$Classes) 


Terms: 
mydatafClasses Residuals 
Sum Of Squares 5.0000 530.2857 


Deg. of Freedom 2 18 


Residual standard error: 5.427736 

Estimated effects may be unbalanced 

> sunmary(aovimydata$fValeurs-mydata$fClasses)) 
DÉ Sum Sq Mean Sq F value Pri>F) 

mydata$Classes 2 8.0 4.00 0.136 0.874 

on 158 530.3 29.46 

> 
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Nous retrouvons donc bien les résultats de tout ce que nous avons calculé dans le cours 
théorique et Microsoft Excel et Minitab mais avec par contre moins d'informations. 


La commande plot.design() nous permet aussi d'afficher les effets moyens sous une autre 
forme que les box-plot: 


Sen)" 


+ 


R R Console 


> mydata<-read.csv("C:/AaNOViiFacteurDesempile.csv",header=T,sep=";:") 
> plot.designimydatafValeurs-mydatafClasses) 


Equipe 3 


Equipe 1 


mean of mydata$Valeurs 


mydata$Classes 


Factors 


Figure 225 Graph ANOVA diagnostique des effets moyens 


Sinon avec le package ggpubr et sa fonction ggviolin( ) et sa couche stat_compare_means( ) 
on peur arriver à un visuel très sympathique comme l'illustre l'exemple suivant: 
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MR RGui (64-bit) - [R Console] — X 


ŒR File Edit View Misc Packages Windows Help - 8 x 


ÉSOISESIOIE) 


A 


library ("ggpubr") 

my_comparisons<-list(c("Equipe 1","Equipe 2"),c("Equipe 2","Equipe 3"),c("Equipe 1","Equipe 3")) 
ggviolin(mydata,x="Classes",y="Valeurs",fill="Classes",palette=c("#00AFBB","#E7B800","#FC4E07"), 
add="boxplot",add.params=list(fill="white"))+ 

#il y aussi comme method kruskall-wallis! 

stat_compare means (method = "anova", label.y=105)+ 

fajout des p-values des comparaisons deux à deux 

fl'ajustement ne fonctionne pas encore il bug pour l'instant (novembre 2018)! 
stat_compare means (comparisons = my _comparisons, method="t.test",p.adjust.method = "bonferroni"$ 
theme (legend.position="none") 


VH++++++V VV 


Ce qui donne: 


MR Graphics: Device 2 (ACTIVE) 


Anova, p = 0.87 


100 


Valeurs 


80 


70 


Equipe 1 Equipe 2 Equipe 3 
Classes 
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Nous pouvons faire mieux avec le package ggstatsplot que nous recommandons fortement au 
lecteur de parcourir": 


MR Console 


> ggstatsplot::ggbetweenstats ( 

data = mydata, 

x = Classes, 

y = Valeurs, 

pairwise.comparisons = TRUE, #affiche seulement si significatif 
pairwise.annotation = "p.value", 

p.adjust.method = "bonferroni", 

title = "ANOVA a 1 facteur et 3 niveaux", 

messages = FALSE 


+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
e 
> 


À Graphics: Device 2 (ACTIVE) 
ANOVA a 1 facteur et 3 niveaux 
Fyeier(2,12.00) = 0.13, p = 0.880, a = -0.09, Class, [-0.11, 0.00], nous = 21 


Equipe 1 Equipe 2 Equipe 3 
{n=7) (n=7) (n=7) 
Classes 

In favor of null: log, (BF;,,) = 1.66, r25,, = 0.71 


Pairwise comparisons: Games-Howell test: Adjustment (p-value): Bonferroni 


4 https://github.com/IndrajeetPatil/ggstatsplot/blob/master/README.md 
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Exemple 2.: ANOVA à un facteur fixe (ANOVA-1 canonique) 
désempilé 
R 3.1.2 


Pour le cas où les données sont désempilées, considérons l'exemple vu dans le cours théorique 
et que nous retrouverons lors de notre étude de la régression: 


KR Fichier Edition Voir Misc Packages Fenétres Aide 


> mydata<-read.csv("C:/tmp/ANOVA Regression O1l.csv",header=T,sep=";")] 

> mydata 

Janvier Février 
304 250 
254 303 
290 294 
310 270 
320 276 
270 310 
309 290 
293 312 
315 260 
301 325 


L 
2 
3 
4 
5 
6 
7 
8 
= 
1 
> 


Nous devons donc restructurer les données pour R avec la fonction stack( ) : 
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Sciences.ch 


LE RGu (64-bit 


= 
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> mydata<-stack(mydata) 


> mydata 
values 
304 
284 
290 
310 
320 
270 
309 
293 
315 
301 
280 
303 
294 
270 
276 
310 
290 
312 
260 
325 


À 
2 
3 
4 
5 
6 
7 
8 
=, 


H H 
kH © 


bhHHH 
in EE © © 


H 
—] 


Ensuite, nous pouvons faire l'ANOVA à 1 facteur fixe: 


ind 
Janvier 
Janvier 
Janvier 
Janvier 
Janvier 
Janvier 
Janvier 
Janvier 
Janvier 
Janvier 
Février 
Février 
Février 
Février 
Février 
Février 
Février 
Février 
Février 
Février 
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> aov( values - ind, mydata) 
Call: 
aov (formula = values - ind, data = mydata) 


Terrs : 


ind Residuals 
Sum of Squares 288.8 5976.4 
Deg. of Freedom L 15 


Residual standard error: 15.221485 
Estimated effects may be unbalanced 
> summary(aov( values - ind, mydata)) 

D£ Sum Sq Mean 5q F value Pri>F) 
ind 1 289 288.8 0.87 0.363 
sn 18 5976 332.0 
> 


NO 
Le résultat bien que peu explicite est cependantbien conforme aux calculs effectués dans le 
cours théorique. 
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Exemple 3.: ANOVA à deux facteurs fixes (ANOVA:-2 canonique) sans 


répétitions avec ou sans interactions 
R 3.0.2 


Imaginons une entreprise faisant les trois huit. Nous avons trois équipes qui travaillent sur une 
même machine. Nous souhaitons vérifier avec un seuil de confiance de 95% s'il y a une 
différence de productivité moyenne entre les trois équipes sur une semaine de travail 
(hypothèse que les moyennes sont égales). 


Remarque: La variable est donc la Machine et sa modalité a trois niveaux! 


Nous allons donc ici appliquer la théorie vue en cours et vérifier si les résultats sont les 
mêmes que dans Minitab et MS Excel. Nous utiliserons évidemment les mêmes données: 


se RGui (64-bit} - [RÇ 


K Fichier Edition Voir Misc Packages Fenêtres Aide 


mydata<-read.csv("C:/ANOVAZ2FacteurSansRepetitions.csv",header=T,sep=";:") 
mydata 

Machines Equipes Reponses 

Machine Equipe 1 256 

Machine Equipe 242 


Machine 
Machine 
Machine 


Equipe 238 
Equipe 254 
Equipe 246 


L 
1 
Machine 2 Equipe 246 
8 
3 
3 


Nous pouvons d'abord faire une analyse qualitative avec le package ggplot2: 
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> ggplot (mydata,aes (Machines, Reponses,colour=Equipes))+geom point () 
> 


Equipes 
+ Equipe 1 


Reponses 


+ Equipe 2 


+ 


l 1 Il 
Machine 1 Machine 2 Machine 3 
Machines 


Ou encore une fois avec la commande native plot.design( ) : 
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Re Console . ren|rer) Es) | 


LA 


LA 


mydata<-read.csv("C:/2ANOVA2FacteurSansRepetitions.csv",header=T,sep=";") 
plot.design(Reponses-Machines+Equipes,data=mydata) 


VV 


Machine 3 
Machine 1 


Lea) 
D 
on 
[es 
S 
EL 
D 
© 
ne 
e] 
[ns 
G 
D 
E 


242 244 246 248 250 252 


Machines Equipes 


Factors 


Nous avons alors d'abord en utilisant la commande native aov() native à R pour avoir le 
modèle sans interactions: 
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> mydata<-read.csv("C:/ANOVAzFacteurSansRepetitions.csv",header=T,sep=";:")] 
> modele<-aov(Reponses-Machines+Equipes,data=mydata) 
> modele 
Call: 
aov (formula = Reponses - Machines + Equipes, data = mydata) 


Terms: 

Machines Equipes Residuals 
Sum of Squares 76 150 12 
Deg. of Freedom 2 1 2 


Residual standard error: 2.44949 
Estimated effects may be unbalanced 
> summary(modele) NS 

DE Sum Sq Mean Sq F value Pri(i>F) 
Machines 2 76 38 6.333 0.1364 
Equipes L 25.000 0.0377 * 
Residuals 12 


Signif. codes: O0 ‘*##° 0.001 ‘#*° 0.01 ‘*’ 0.05 *. 


o 


À de 
Nous retrouvons donc les mêmes valeurs qu'avec Minitab et MS Excel. 


Pour le modèle avec interactions (évidemment impossible dans le cas présent pour un logiciel 
de communiquer les statistiques puisqu'il n'y a pas de répétitions): 
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> mydata<-read.csv("C:/ANOVAzFacteurSansRepetitions.csv",header=T,sep=";:")] 
> modele<-aov(Reponses-Machines*Equipes,data=mydata) 
> modele 
Call: 
aov (formula = Reponses - Machines * Equipes, data = mydata) 


Terms: 

Machines Equipes Machines:Equipes 
Sum of Squares 76 150 12 
Deg. of Freedom 2 1 PA 


Estimated effects may be unbalanced 
> summary(imodele) 

DÉ Sum Sq Mean 5q 
Machines 76 38 
Equipes L 
“ os PA Le 
> 


S 


—.— : eŸ ; ; 
Avec la commande native interaction.plot() nous pouvons avoir les diagrammes 
d'interactions: 
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À R Console e|lg|x 


> interaction.plot imydata$Machines,mydataf$Equipes,mydata$Reponses) 
> | 


LT 


mydata$Equibes 
---- Equipa 1 


Lea) 
D 
on 
[uns 
© 
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E 


Machine 1 Machine 2 Machine 3 


mydata$Machines 


Figure 226 Graph ANOVA graphique des interactions 


et respectivement: 
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> interaction.plot (mydata$Equipes,mydata$Machines,mydata$Reponses) 
> | 


mydata$Madhines 
—— Machine 3 


on 
D 
on 
Lens 
S 
à 
D 
œ 
a 
pl 
+— 
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D 
> 
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a 
S 
[ons 
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d 
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Equipe 1 Equipe 2 


mydata$Equipes 


On peut faire plus élégant: 
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R R Console 


+ 


> interaction.plot (imydata$Equipes,mydata$Machines,mydataf$Reponses, 

+ type="b", col=ci1:3), leg.bty="o", leg.bg="heige", lwd=2, pch=c(18,24,22), 
+ xlab="Equipes", 

ylab="Moyennes par machineswÿ, 

main="Interaction Plot) 


+ 
+ 
> 


Interaction Plot 


255 


mydata$Madhines! 


—&— Machine 3 
+ Machine 1 
-&- Machine 2 


Moyennes par machines 


Equipe 1 Equipe 2 


Equipes 


ou pour revenir avec aux machines avec un visuel plus proche de celui de Minitab mais aussi 
meilleur que ce dernier: 
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er "| 


R & Console = |S|x 


> library(gplots) 

> plotmeans (Reponses-Machines,data=mydata,xlab="Machines", 
+ ylab="Moyenne globale", ,main="Plot moyenne avec IC 954$") 
> 


R R Graphics: Device 2 (ACTIVE) 


Plot moyenne avec IC 95% 


2 
qui 
Pa! 
= 
[e)) 
œ 
[en 
[es 
g 
> 
(e) 
= 


Machine 1 Machine 2 Machine 3 


Machines 


Figure 227 Graph ANOVA effets moyens avec intervalles de confiance 
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Exemple 4.: ANOVA à deux facteurs fixes (ANOVA:-2 canonique) avec 


répétitions (réplications) avec ou sans interactions 
R 3.0.2 


Imaginons une entreprise faisant les trois huit. Nous avons trois équipes qui travaillent sur une 
même machine. Nous souhaitons vérifier avec un seuil de confiance de 95% s'il y a une 
différence de productivité moyenne entre les trois équipes sur une semaine de travail 
(hypothèse que les moyennes sont égales). 


Remarque: La variable est donc la Machine et sa modalité a trois niveaux! 


Nous allons donc ici appliquer la théorie vue en cours et vérifier si les résultats sont les 
mêmes que dans Minitab et MS Excel. Nous utiliserons évidemment les mêmes données et en 
même temps, utiliser la fonction replications() pour avoir un petit résumé sur la manière 
dont l'expérience a été menée: 


| GR File Edit Vie Misc Packages 
EROISOSIOIE 


|> mydata<-read.csv("C:/tmp/ANOVA2FacteursAvecRepetitions.csv",header=T, sep=";") 
|> mydata 

Equipes Machines Réponses 
|1 Equipe 1 Machine 1 256 
{2 Equipe 1 Machine 1 251 
3 Equipe 1 Machine 2 246 
4 Equipe 1 Machine 2 248 
5 Equipe 1 Machine 3 254 
6 Equipe 1 Machine 3 251 
7 Equipe 2 Machine 1 242 
8 Equipe 2 Machine 1 240 
9 Equipe 2 Machine 2 238 
10 Equipe 2 Machine 2 240 
11 Equipe 2 Machine 3 246 
12 Equipe 2 Machine 3 246 


> replications (Réponses-Machines+Equipes,data=mydata) 
Machines Equipes 


E 6 
> replications (Réponses-Machines*Equipes, data=mydata) 
Machines Equipes Machines:Equipes 
5 6 2 


> | 


Nous pouvons d'abord faire une analyse qualitative avec le package ggplot2: 
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R R Console ES EE 


+ 


> libraryiggplotz2) 
> gaplot (imydata,aes (Machines,Réponses,colour=Equipes)) +geom point) 


R & Graphics: Device 2 (ACTIVE) SRE 


Equipes 


+ Equipe] 


Réponses 
Le] 


+ Equipe 2 


+ 
Il I 
Machine 2 Machine 3 


Machines 


Nous avons alors d'abord en utilisant la commande native aov() native à R pour avoir le 
modèle sans interactions: 
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Sciences.ch 


Gui {64-bit} - [ 
[IR Fichier Edition Voir Misc Packages Fenêtres 


Aide 


> mydata<-read.csv{("C:/ANOVAZFacteurivecRepetitions.csv",header=T,sep=";") 
> modele<-aov(Réponses-Machines+Equipes,data=mydata) 


> modele 
Call: 


aov (formula = Réponses - Machines + Equipes, 


Terms : 


Machines Equipes Residuals 


Sum of Squares 81.5 243.0 
Deg. of Freedom "A L 


Residual standard error: 2.304886 
Estimated effects may be unbalanced 
> summary (modele) 

DÉ£ Sum Sg Mean $q F value 
Machines 2 61.5 40.75 
Equipes 1 243.0 243.00 
Residuals E] 42.5 Es dl 


Signif. codes: 0 ‘#*#7 0.001 ‘**? 


> | 


D 


0.01 


42.5 


8 


Pri>F) 


7.671 0.013600 * 
45.741 0.000143 *#* 


\se 0,05 *. 


data 


Ca 


= mydata) 


0.1 


LA] 


1 


Nous retrouvons donc les mêmes valeurs qu'avec Minitab et MS Excel. 


Pour le modèle avec interactions: 
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Aide 


> mydata<-read.csv("C:/ANOVAZFacteurivecRepetitions.csv",header=T,sep=";") 
> modele<-aov(Réponses-Machines*Equipes,data=mydata) 
> modele 
Call: 
aov (formula = Réponses - Machines * Equipes, data = mydata) 


Terms : 

Machines Equipes Machines:Equipes Residuals 
Sum of Squares 81.5 243.0 19.5 29350 
Deg. of Freedom "A L PA 6 


Residual standard error: 1.95789 
Estimated effects may be unbalanced 
> summary (modele) 

DE Sum Sg Mean $q F value Pri>F) 
Machines 2 81.5 40.75 10.630 0.010662 * 
Equipes 1 243.0 243.00 63.391 0.000209 #*#* 
Machines:Equipes 2 19.5 9.75 2.543 0.158495 
Residuals 6 23.0 3:63 


Signif. codes: O0 ‘#*##’ 0.001 ‘*f’ 0.01 ‘ff’ O.05 ‘D: a 
> | 


Avec la commande native interaction.plot() nous pouvons avoir les diagrammes 
d'interactions: 
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KR & Console s|e|x] 


À 


> interaction.plot (mydata$Machines,mydata$Equipes,mydataf$Réponses) 
» | 


R R Graphics: Device 2 (ACTIVE) Ses) 


on 
D 
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Machine 1 Machine 2 Machine 3 


mydata$Machines 


Nous pouvons également combiner: 


UR RGui (64-bit — (m] 
File Edit View Misc Packages Windows Help 


> mydata<-read.csv("c:/tmp/ANOVA2FacteursAvecRepetitions.csv",header=T, sep=";") 
> modele<-aov(Réponses-Equipes+Machines+Machines*Equipes,data=mydata) 
> summary (modele) 

Df Sum Sq Mean Sq F value Pr(>F) 


Equipes 1 243.0 243.00 63.391 0.000209 
Machines 2 81.5 40.75 10.630 0.010662 
Equipes:Machines 2 19.5 9.75 2.543 0.158495 
Residuals 6 23.0 3.83 


> library("effects") 
> plot (allEffects (modele)) 
> | 


et afficher toutes les interactions de façon moderne avec le package effects: 
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QR R Graphics: Device 2 (ACTIVE) RES 


n 
D 
L'2] 
= 
[e] 
Q 
© 
[1 4 


Equipes*Machines effect plot 


Machine 1 Machine 2 Machine 3 


Machine 1 Machine 2 Machine 3 
Machines 


Figure 228 Graph ANOVA effets MAGIE à lattices avec intervalles 
Ne) 
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Exemple 5.: ANOVA à deux facteurs fixes (ANOVA:-2 canonique) avec 
répétitions (réplications) de type LE, IT et III 
R 3.5.1 


D'abord, vérifions bien que comme indiqué dans le cours théorique, si l'ANOVA est balancée, 
nous retrouvons bien les mêmes valeurs statistiques. Pour cela nous partons de: 


R File Edit View Misc Packages Windows Help x 


> mydata<-read.csv("c:/tmp/ANOVA2FacteursAvecRepetitions.csv",header=T, sep=";") 


> mydata 

Equipes Machines Réponses 
1 Equipe 1 Machine 1 256 
2 Equipe 1 Machine 1 251 
3 Equipe 1 Machine 2 246 
4 Equipe 1 Machine 2 248 
S Equipe 1 Machine 3 254 
6 Equipe 1 Machine 3 251 
7 Equipe 2 Machine 1 242 
8 Equipe 2 Machine 1 240 
9 Equipe 2 Machine 2 238 
10 Equipe 2 Machine 2 240 
11 Equipe 2 Machine 3 246 
12 Equipe 2 Machine 3 246 


et nous utilisons la commande Anova() du package car: 


a : NQ - 
Re RGui (64-bit Console — 


File Edit View Misc Packages Windows Help sx 


> #ANOVA balancée de type I 
> anova(lm(Réponses+ Machines * Equipes, data=-mydata)) 
Analysis of Variance Table 


Response: Réponses 


Df Sum Sq Mean Sq F value Pr(>F) 
Machines 2 81.5 40.750 10.6304 0.0106619 
Equipes 1 243.0 243.000 63.3913 0.0002089 
Machines:Equipes 2 19.5 9.750 2.5435 0.1584954 
Residuals 6 23.0 3.833 


> #ANOVA balancée de type II 
> Anova(lm(Réponses-+ Machines * Equipes, data=mydata),Type=2) 
Anova Table (Type II tests) 


Response: Réponses 


Sum Sq Df F value Pr(>F) 
Machines 81.5 2 10.6304 0.0106619 
Equipes 243.0 1 63.3913 0.0002089 
Machines:Equipes 19.5 2 2.5435 0.1584954 
Residuals 23.0 6 


> #ANOVA balancée de type III 
> Anova(lm(Réponses-+ Machines * Equipes, data=mydata),Type=3) 
Anova Table (Type II tests) 


Response: Réponses 


Sum Sq Df F value Pr(>F) 
Machines 81.5 2 10.6304 0.0106619 
Equipes 243.0 1 63.3913 0.0002089 
Machines:Equipes 19.5 2 2.5435 0.1584954 
Residuals 23.0 6 


>| 


Maintenant, déséquilibrons le plan en supprimant la troisième ligne. Il reste alors: 
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| MR RGui (64-bit) - [R Console] _ (E] 


— 
| ŒR File Edit View Misc Packages Windows Help -_ EF x 


> mydata<-read.csv("c:/tmp/ANOVA2FacteursAvecRepetitionsNonBalancee.csv",header=T,sep=";") 


> mydata 

Equipes Machines Réponses 
4 Equipe 1 Machine 1 256 
12 Equipe 1 Machine 2 246 
3 Equipe 1 Machine 2 248 
4 Equipe 1 Machine 3 254 
S Equipe 1 Machine 3 251 
6 Equipe 2 Machine 1 242 
7 Equipe 2 Machine 1 240 
8 Equipe 2 Machine 2 238 
|9 Equipe 2 Machine 2 240 
10 Equipe 2 Machine 3 246 
11 Equipe 2 Machine 3 246 


>| 


Nous pouvons vérifier le déséquilibre toujours avec la fonction replications( ) : 


R RGui (64-bit) - [R Console] — 


R File Edit View Misc Packages Windows Help Ah I 


> replications (Réponses- Machines * Equipes, data=-mydata) 
$‘Machines‘ 


Machines 
Machine 1 Machine 2 Machine 3 
| 3 E E 
| $SEquipes 
Equipes 
Equipe 1 Equipe 2 

5 6 


| $ ‘Machines :Equipes 


Equipes 
Machines Equipe 1 Equipe 2 
Machine 1 1 2 
Machine 2 2 2 
Machine 3 2 2 


>| 


fs 


Et ensuite allons-y pour les trois ANOVA: 
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R RGuï (54-bit) - [N Conscie] . 


ŒR Füe Edit View Misc Packages Windows Help + : 


BROSSE) | 


> #ANOVA balancée de type LI 
> anova(lm(Réponses- Machines * Equipes, data-mydata)) 
Analysis ©0f Variance Table 


Response: Réponses 
DE Sum Sg Mean Sq F value Pr(>EF) 


Machines 2 78.159 39.080 18.€093 0.0048269 
Equipes 1 225.094 225.094 107.1875 0.0001447 
Machines:Equipes 2 31.156 15.57€ 7.4182 0.0318987 
Rasiduals S 10.500 2.100 


> #ANOVA balancée de type II 
> Anova(lm(Réponses- Machines 4 Equipes, data=mydata),Type=2) 
Anova Tahle (Type II tests) 


Response: Réponses 


Sum Sq Df F values Pr(>F} 
Machines 62.344 2 19.6057 90.0043012 
Equipes 225.094 1 107.1875 0.0001447 
Machines:Equipes 31,156 2 7.841802 0.03199€87 
Residuals 10.500 5 


> #ANOVA balancée de type III 
> Anova(lm(Réponses* Machines * Equipes, data-mydata),Type=3) 
Anova Table (Type II tests) 


Response: Réponses 
Sum Sq Df F value Pr(>F]) 


Machines 82.344 2 19.605857 0.0043012 
Equipes 225.094 1 107.1875 0.0001447 
Machines:Equipes 31.156 2 7.41€2 0.03189€7 
Residuals 10.500 5 


> | 
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Exemple 6.: ANOVA à deux facteurs fixes (ANOVA:-2 canonique) avec 
répétitions (réplications) de type I non-balancée avec moyenne par 


moindres carrées 
R 3.6.0 


D'abord la partie classique préparatoire: 


R: 
R File Edit View Misc Packages Windows Help _ EX 


> mydata<-read.csv("c:/tmp/ANOVA2FacteursAvecRepetitionsNonBalancee.csv",header=T, sep=";") 
> mydata 
Equipes Machines Réponses 


1 Equipe 1 Machine 1 256 
2 Equipe 1 Machine 2 246 
3 Equipe 1 Machine 2 248 
4 Equipe 1 Machine 3 254 
5 Equipe 1 Machine 3 25 
6 Equipe 2 Machine 1 242 
7 Equipe 2 Machine 1 240 
8 Equipe 2 Machine 2 238 
9 Equipe 2 Machine 2 240 
10 Equipe 2 Machine 3 246 
11 Equipe 2 Machine 3 246 


> (model<-1m(Réponses-Machines*Equipes,data=mydata)) 


Call: 
im(formula = Réponses - Machines * Equipes, data = mydata) 


Coefficients: 
(Intercept) MachinesMachine 2 
256.0 -9.0 
MachinesMachine 3 EquipesEquipe 2 
-3.5 -15.0 
MachinesMachine 2:EquipesEquipe 2 MachinesMachine 3:EquipesEquipe 2 
4:0 8.5 
> anova (model) 
Analysis of Variance Table 
Response: Réponses 
Df Sum Sq Mean Sq F value Pr(>F) 
Machines 2 78.159 39.080 18.6093 0.0048269 
Equipes 1 225.094 225.094 107.1875 0.0001447 
Machines:Equipes 2 31.156 15.578 7.4182 0.0318987 
Residuals 5 10.500 2.100 


> | 


Voyons maintenant basiquement ce que permettent de faire la fonction LSmeans( ) du 
package doBy et en comparaison, la fonction Ismeans( ) du package Ismeans: 
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MR RGui (64-bit) - [R Console] — 


ŒR File Edit View Misc Packages Windows Help - x 


> #d'abord avec le package doBy 
> library("doBy") 
> LSmeans (model, effect="Machines") 


Coefficients: 

estimate se df t.stat p.value 
[1,] 248.50000 0.88741 5.00000 280.02778 0 
[2,1] 243.00000 0.72457 5.00000 335.37186 0 
[3,] 249.25000 0.72457 5.00000 343.99768 0 
> 


> ten pour vérification avec le package lsmeans 

> library("lsmeans") 

> (lsmc<-lsmeans (model, -Machines)) 

NOTE: Results may be misleading due to involvement in interactions 


Machines lsmean SE df lower.CL upper.CL 
Machine 1 248 0.887 5 246 251 
Machine 2 243 0-725 5 241 245 
Machine 3 249 0:725 5 247 251 


Results are averaged over the levels of: Equipes 
Confidence level used: 0.95 
> plot (lsmc,comparison=TRUE, alpha=0.05) 


> | 
. . S 
Ce qui donne pour le graphique: eŸ 
QRR Graphics: Device 2 (ACTIVE) ele) 

Machine 3 - EE ——© — 

o 

2 

S Machine 2- SSSR 

œ 

= 
Machine 1 - RE 
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Vérifions que nous retrouvons bien les mêmes LS-Means en faisant les calculs à la mains (des 
valeurs ponctuelles seules!) en utilisant les fonctions expand.grid(}) et predict( ): 


R RGui (64-bit) - [R Console 
ŒR File Edit View Misc Packages Windows Help 


(grid <—- expand.grid(Equipes = c("Equipe 1","Equipe 2"), 
Machines = factor(c("Machine 1","Machine 2","Machine 3")))) 
Equipes Machines 
1 Equipe 1 Machine 
2 Equipe 2 Machine 
3 Equipe 1 Machine 
4 Equipe 2 Machine 
5 Equipe 1 Machine 
6 Equipe 2 Machine 
> (pred<-predict (model, newdata = grid)) 
2 à 2 3 4 5 6 
256.0 241.0 247.0 239.0 252.5 246.0 
> chind(grid, pred=pred) 
Equipes Machines pred 
Equipe 1 Machine 1 256.0 
Equipe 2 Machine 1 241.0 
Equipe 1 Machine 247.0 
Equipe 2 Machine 239.0 
Equipe 1 Machine 252.5 
2 


2 
2 
3 
Equipe Machine 3 246.0 


1 
2 
3 
4 
5 
6 
> 
> 


(pred[1] + pred[2])/2 
1 

248.5 

> 

> (pred[3] + pred{[4])/2 
3 

243 

> 

> (pred[5] + pred[6])/2 
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Exemple 7.: Comparaisons multiples du test de Student avec 


correction de Bonferroni 
R 3.0.2 


Dans le cours théorique nous avons mentionné la possibilité d'utiliser la technique de 
Bonferroni avec le test de Student. Par ailleurs, nous avons même démontré 
mathématiquement l'origine de la correction du niveau de seuil tel que proposé par 
Bonferroni. Nous n'avons pas pu mettre en œuvre cette technique dans Minitab. Voyons 
comment alors gérer cela avec KR. 


Remarque: Nous verrons juste après un test équivalent considéré comme plus robuste qu'est le 
test de (l'étendue) Tukey HSD. 


Nous partons des mêmes données que dans le cours théorique et que l'ANOVA à I facteur 
fixe faite plus haut: 


KR Fichier Edition Voir Misc Packages Fenêtres Aide 


> mydata<-read.csv("C:/ANOVilFacteurDesempile.csv",header=T,sep=";:") 
> mydata 

Classes Valeurs 

Equipe 1 78 

Equipe 1 88 

Equipe 90 

Equipe UT 

Equipe 85 

Equipe 88 

Equipe 79 

Equipe 77 

Equipe 75 

Equipe 50 

Equipe 83 

Equipe 87 

Equipe 90 

Equipe 
Equipe 
Equipe 
Equipe 
Equipe 
Equipe 
Equipe 
Equipe 


L 
2 
3 
4 
5 
6 
7 
8 


Lo to Lo Lo Li L NON ON NON ON N° H HHHH 


et nous utilisons la commande native pairwise.t.test() de R: 
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né, RGui (64-bit) - [R 
R Fichier Edition Voir Misc Packages Fenétres Aide 


> mydata<-read.csv("C:/ANOVilFacteurDesempile.csv",header=T,sep=";:") 
> pairvise.t.test (mydata$Valeurs,mydata$Classes,p.adjust="bonf") 


Pairwise comparisons using t tests with pooled 5D 


data: mydatafValeurs and mydatafClasses 


Equipe 1 Equipe 2 
Equipe 2 1 _ 
Equipe 3 1 1 


P value adjustment method: bonferroni 
> | 


Le résultat peut surprendre dans le cas présent mais c'est simplement que la différence n'est 
jamais significative et donc que les p-value sont in extenso très proches de l'unité. 


Une autre approche consiste à utiliser le package emmeans (expected marginal means) et sa 
© 


fonction du même nom: S 
R 


R Statistical Software 1370/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


R RGui (64-bit) - [R Console] — 


R File Edit View Misc Packages Windows Help x 


SITa) 


> (anova<-aov(mydata$Valeurs-mydata$Classes)) 
Call: 
aov(formula = mydataSValeurs - mydataS$Classes) 


Terms: 

mydata$Classes Residuals 
Sum of Squares 8.0000 530.2857 
Deg. of Freedom 2 18 


Residual standard error: 5.427736 
Estimated effects may be unbalanced 
> library("emmeans") 
> (emm<-emmeans (anova,-Classes)) 
Classes emmean SE df lower.CL upper.CL 


Equipe 1 83.6 2.05 18 79.3 87.9 
Equipe 2 82.4 2.05 18 78.1 86.7 
Equipe 3 83.9 2.05 18 79.5 88.2 


Confidence level used: 0.95 

> pairs (emm) 

contrast estimate SE df t.ratio p.value 
Equipe 1 - Equipe 2 1.143 2.9 18 0.394 0.9184 
Equipe 1 - Equipe 3 -0.286 2.9 18 -0.098 0.9947 
Equipe 2 - Equipe 3 -1.429 2.9 18 -0.492 0.8758 


P value adjustment: tukey method for comparing a family of 3 estimates 
> plot(emm, comparisons = TRUE) 
> | 


et le graphique correspondant: 
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Equipe 3- 


Equipe 2- a —+ 


Equipe 1- 
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Exemple 8.: Test post hoc de Fisher (Least Significant Difference) 
R 3.6.0 


Nous avons vu dans le cours théorique que le test LSD de Fisher est le plus simple des tests 
posthoc qu'on peut imaginer pour l'ANOVA. Voyons donc déjà un premier exemple avec 
notre jeu de données habituel et avec un ANOVA classique (nous verrons des cas 
d'applications plus complexes plus tard!): 


R «rc 4 R Console LE] 
R File Edit View Misc Packages Windows Help - FX 


Bel 


> mydata<-read.csv("C:/tmp/ANOVAlFacteurDesempile.csv",header=T, sep=";") 


> mydata 

Classes Valeurs 
1 Equipe 1 78 
2 Equipe 1 88 
3 Equipe 1 90 
4 Equipe 1 47 
S Equipe 1 85 
6 Equipe 1 88 
7 Equipe 1 79 
8 Equipe 2 77 
9 Equipe 2 75 
10 Equipe 2 80 
11 Equipe 2 83 
12 Equipe 2 87 
13 Equipe 2 90 
14 Equipe 2 85 
15 Equipe 3 88 
16 Equipe 3 86 
17 Equipe 3 79 
18 Equipe 3 93 
19 Equipe 3 79 
20 Equipe 3 83 
21 Equipe 3 79 


> modele<-aov(mydataS$Valeurs-mydata$Classes) 
> modele 
Call: 
aov(formula = mydataS$Valeurs - mydata$Classes) 


Terms: 

mydata$Classes Residuals 
Sum of Squares 8.0000 530.2857 
Deg. of Freedom 2 18 


Residual standard error: 5.427736 
Estimated effects may be unbalanced 
> | 


Ensuite nous faisons un test LSD à l'aide du package agricolae (qui contient un grand 
nombre de différents tests de type LSD!!!) et sa fonction LSD.test( ): 


R Statistical Software 1373/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


R RGuiï (64-bit) - [R Console] O 
File Edit View Misc Packages Windows Help - sx 


> out<-LSD.test (modele, trt="mydata$Classes",p.adj="bonferroni") 
> out 
Sstatistics 

MSerror Df Mean CV t.value MSD 

29.46032 18 83.28571 6.517007 2.639145 7.656811 


Sparameters 
test p.ajusted name.t ntr alpha 
Fisher-LSD bonferroni mydata$Classes 3 0.05 


$means 

mydata$Valeurs std r LCL UCL Min Max O25 O50 075 
Equipe 1 83.57143 5.442338 7 79.26141 87.88145 77 90 78.5 85 88 
Equipe 2 82.42857 5.411628 7 78.11855 86.73859 75 90 78.5 83 86 
Equipe 3 83.85714 5.429198 7 79.54712 88.16717 79 93 79.0 83 87 
$Scomparison | 
NULL 
Sgroups 

mydata$Valeurs groups 
Equipe 3 83.85714 a 
Equipe 1 83.57143 a 
Equipe 2 82.42857 a 


attr{.”"class”) 
[1] "group" 

> plot (out) 

> | 


— —— 
Ne) 
Ÿ 


Il n'y a donc aucune différence significative entre les différentes équipes prises par paires! Et 
pour ceux qui préfèrent les graphiques, voici le plot correspondant: 


Q R Graphics: Device 2 (ACTIVE) = | rx") 
Groups and Range 
= 
o 
o 
a 
a a 
o 
[>] 
o 
Lee] 
oO 
FF 
o 
© [ T 1 
Equipe 3 Equipe 1 Equipe 2 
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Exemple 9.: Test post hoc de (l'étendue) de Tukey HSD 
R 3.0.2 


Ici, nous allons vérifier si les concepts démontrés dans le cours de statistique théorique 
concernant le test de Tukey sont appliqués de façon identique dans R par rapport à Minitab. 


Nous n'avons pas en classe dans le cours théorique simulé les distributions de l'étendue 
studentisée plus par flemme que par manque de temps (les simulations de Monte-Carlo se 
basant toujours sur le même principe...), donc il n'y aura pas de comparaison par rapport avec 
Microsoft Excel. Nous ferons ici juste une vérification des résultats renvoyés par Minitab en 
utilisant les tables des étendues studentisées. 


Nous partons des mêmes données que dans le cours Minitab et que l'ANOVA à 1 facteur fixe 
faite plus haut: 


KR Fichier Edition Voir Misc Packages Fenêtres Aide 


mydata<-read.csv("C:/ANOVilFacteurDesempile.csv",header=T,sep=";:")] 
mydata 
Classes Valeurs 
Equipe 1 78 
Equipe 1 88 
Equipe 90 
Equipe TT 
Equipe 85 
Equipe 88 
Equipe 79 
Equipe 77 
Equipe 75 
Equipe 50 
Equipe 83 
Equipe 87 
Equipe 90 
Equipe 85 
Equipe 58 
Equipe 56 
Equipe 79 
Equipe 93 
Equipe 79 
Equipe 83 
Equipe 79 


VV 


L 
EE 
3 
4 
5 
6 
7 
8 
9 


HhH H 
NN kH © 


HhHHH 
oO nm b © 


H 
-] 
Lo to Lo Lo Li W) L NON ON NN NN HHHHH 


Et ensuite nous utilisons la commande native TukeyHSD() de R: 
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R Fichier Edition Voir Misc Packages Fenêtres Aide 


> mydata<-read.csv{("C:/aNOVilFacteurDesempile.csv",header=T,sep=";") 
> TukeyHSD(aov(mydatafValeurs-mydatafClasses)) 
Tukey multiple comparisons of means 
95% family-wise confidence level 


Fit: aov(formula = mydata$Valeurs - mydatafClasses) 


$ mydata$fClasses” 

ditr lur upr p adj 
Equipe 2-Equipe 1 -1.1428571 -8.547313 6.261598 0.9184053 
Equipe 3-Equipe 1 0.2857143 -7.118741 7.690170 0.9946690 
Equipe 3-Equipe 2 1.4285714 -5.975884 8.833027 0.8758006 


> | 


. À AC . . 
Nous retrouvons bien les mêmes valeurs que dam le cours Minitab avec un visuel plus sobre 
et donc moins confus et donc aussi avec les mêmes conclusions. 


Qu'il n'y a priori pas d'option (contrairement à Minitab) pour faire un test par paire 
individuelles avec le taux d'erreur individuel de Fisher. 
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Exemple 10.: Test post hoc de Dunnett 
R 3.4.3 


Ici, nous allons vérifier si les concepts démontrés dans le cours de statistique théorique 
concernant le test de de Dunnett sont appliqués de façon identique dans R par rapport à 
Minitab. 


Nous partons des mêmes données que dans le cours Minitab et que l'ANOVA à 1 facteur fixe 
faite plus haut: 


8 File Edit View Misc Packages Windows Help D 


EBOECE 


V 


mydata<-read.csv("c:/tmp/ANOVAlFacteurDesempile.csv",header=T, sep=";") 


> mydata 
| Classes Valeurs 
| 1 Equipe 1 78 
2 Equipe 1 88 
| 3 Equipe 1 90 
| 4 Equipe 1 77 
5 Equipe 1 85 
6 Equipe 1 88 
7 Equipe 1 79 
8 Equipe 2 77 
| 9 Equipe 2 75 
10 Equipe 2 80 
11 Equipe 2 83 
12 Equipe 2 87 
13 Equipe 2 90 
14 Equipe 2 85 
15 Equipe 3 88 
16 Equipe 3 86 
[17 Equipe 3 79 
| 18 Equipe 3 93 
19 Equipe 3 79 
20 Equipe 3 83 
21 Equipe 3 79 


Nous créons un modèle ANOVA avec la fonction aov() et ensuite nous le passons à la 
fonction glht() du package multicomp: 
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R RGUi (64-bit) - [R Console] = | | 
| GR File Edit View Misc Packages Windows Help . «| 
> aov : 
Call: 


aov(formula = Valeurs - Classes, data = mydata) 


Terms: 

Classes Residuals | 
Sum of Squares 8.0000 530.2857 
Deg. of Freedom 2 18 


Residual standard error: 5.427736 

Estimated effects may be unbalanced 

> library("multcomp") 

> summary (glht (aov,lincfct=mcp(Group="Dunnett"))) 


Simultaneous Tests for General Linear Hypotheses 
Fit: aov(formula = Valeurs + Classes, data = mydata) 


Linear Hypotheses: 
Estimate Std. Error t value Pr(>lit|l) 


(Intercept) == 0 83.5714 2.0515 40.737 <1e-04 
ClassesEquipe 2 == O0 -1.1429 2.9012 -0.394 0.947 
ClassesEquipe 3 == 0 0.2857 2.9012 0.098 0.999 | 
(Adjusted p values reported -- single-step method) | 
>| | 
| 4 
KE 


Ne) 
CES 2 Ÿ nn . A D 
Nous pouvons déjà constater que les résultats Sont conformes à Minitab même si format de 


sortie est bien moche... (nous remarquons au passage que cette fonction R prend le premier 
groupe comme étant automatiquement le groupe de contrôle!) : 


Tests de simultanéité de Dunnett pour la moyenne du niveau - moyenne du contrôle 


Erreur type 
Différence de la Valeur Valeur de 
Différence des niveaux des moyennes différence IC à 95 % deT pajustée 
Equipe 2 - Equipe 1 -1.14 2.90 (-8.10:5.82)  -0.39 0.894 
Equipe 3 - Equipe 1 0.29 2.90 (-6.67; 7.24) 0.10 0.993 


Niveau de confiance individuel = 97.25 % 


Attention! Le package multicomp utilise les simulations de Monte Carlo pour calculer les p- 
values donc à chaque fois que le texte est exécuté, si un seed n'est pas fixé, les résultats seront 
sensiblement différents à chaque fois. 


Nous pouvons aussi vérifier concernant les intervalles de confiance: 
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| 
MR RGui (64-bit) - [R Console] — O 


’R File Edit View Misc Packages Windows Help LD 
ES 


> confint (glht (aov,lincfct=-mcp(Group="Dunnett"))) 


Simultaneous Confidence Intervals 
|Fit: aov (formula = Valeurs + Classes, data = mydata) 
Quantile = 2.5091 


95% family-wise confidence level 


(Linear Hypotheses: 


Estimate lwr upr 
(Intercept) == 83.5714 78.4240 88.7189 
ClassesEquipe 2 == 0 -1.1429 -8.4224 6.1367 


IClassesEquipe 3 == 0 O0.2857 -6.9939 7.5653 


> plotl(glht (aov, lincfct=mcp (Group="Dunnett"))) 


Nous voyons que les IC diffèrent un peu. 


Et finalement, le graphique de comparaison par rapport au groupe de contrôle: 


Œ R Graphics: Device 2 (ACTIVE) EE | 


95% family-wise confidence level 


0 20 40 60 80 


Linear Function 


Figure 229 Graph de diagnostique du test de Dunett 
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Exemple 11.: Test de Levene et Bartlett d'égalité des variances d'une 


ANOVA canonique 
R 3.0.2 


L'objectif ici va être le cas plus intéressant d'application du test de Levene aux données d'une 
ANOVA empilée et de vérifier encore une fois si les résultats sont conformes aux 
simulations de Monte-Carlo effectuées dans le cours théoriques et à l'application numérique 
effectuée dans Microsoft Excel et Minitab. 


Nous allons donc ici réutiliser le test de Levene testLevene() du package car vu plus haut 
mais donc aussi le test Bartlett qui sera nouveau dans le cas présent. 


Commençons par le cas du test de Levene: 


= 
Ré RGui (64-bit) - [RÇ 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> libraryicar) 

> mydata<-read.csv{("C:/LeveneBartlettTest.csv",header=T,sep=";:") 
> str (mydata) 

‘'data.frame!: 7 obs. of 3 variables: 

$ Equipel: int 78 88 90 77 85 88 79 

$ Equipez: int 77 75 60 83 87 90 85 

$ Equipe3: int 68 86 79 93 79 83 79 

> data<-c(mydataf$Equipel,mydataf$Equipez,mydata$Equipes) 

> data 

[1] 78 88 90 77 85 88 79 77 75 60 83 87 90 85 688 66 79 93 79 83 79 
|> group<-as.factoricirep(i,length(imydata$Equipel)),repi2,lengthimydata$Equipez)), 
+ rep({3,length(imydata$Equipe3)))) 

> group 

Lil LL TL À L'A L 2 2,2 2 2 4 4 93 3:93 93,9 3 3 

Levels: 123 

> leveneTest (data,group) 

Levene's Test for Homogeneity of Variance (center = median) 

D£ F value Pr(>F) 
group 2 0.0231 0.9772 


Nous retrouvons donc les mêmes valeurs qu'avec Minitab (et donc avec les mêmes 
conclusions) ou que dans le cours théorique. 


Même si nous n'avons pas fait la démonstration du test de Bartlett en cours puisque les détails 
de celle-ci est introuvable dans les livres et même dans l'article d'origine de Bartlett lui-même 
(donc si quelqu'un à la démonstration détaillée qu'il n'hésite pas à se manifester!) regardons 
quand même si nous retrouvons la même valeur qu'avec Minitab en utilisant la fonction 
bartlett.test( ) : 
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> str(mydata) 
‘'data.frame!: 7 obs. of 3 variables: 
$ Equipel: int 76 88 90 77 85 88 79 
$ Equipez: int 77 75 60 83 687 90 85 
$ Equipe3: int 68 86 79 93 79 83 79 
> data<-c(mydataf$Equipel,mydataf$Equipez,mydata$Equipe3) 
> data 
[1] 78 88 90 77 85 88 79 77 75 80 83 687 90 85 88 66 79 93 79 83 79 
> group<-as.factor (c(repil,lengthimydata$Equipel)),rep(2,lengthimydataf$Equipez)), 
+ rep(i3,lengthimydataf$Equipe3))j)) 
> group 
Lil LTÉE LLTLTÉS 228 2 2 DE 23 413 
Levels: 123 
> bartlett.test (data,group) 


Bartlett test of homogeneity of variances 


data: data and group 
Bartlett's K-squared = 2e-04, df = p-value = 0.9999 


> | 


« 


Donc bien que ce soit beaucoup plus précis c'est le même résultat que celui donné par 
Minitab. 
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Sciences.ch 


Exemple 12.: ANOVA Imbriquée (emboîtée)/Hiérarchique complète 


R3.1.1 


Non sans mal nous avons démontré dans le cours théorique le concept et les développements 
relatifs à l'ANOVA hiérarchique complète (full hierarchical ANOVA). Nous allons vérifier ici 


que nous obtenons les mêmes résultats que Minitab et surtout du NIST lui-même. 


Donc en partant de l'exemple du lien suivant: 


http://www.itl.nist.gov/div898/handbook/ppc/section2/ppc233.htm 


qui contient cette ANOVA hiérarchisée: 


Machines 


Operator 
Day 


2 3 


4 


0.118 |0.123 


0.126 


0.122 10.125 


0.128 


0.120 |0.125 


0.126 


0.124 0.124 


0.127 


0.119 10.126 


0.129 


Operator 
Night 


0.116 10.122 


0.126 


0.125 ]0.121 


0.129 


0.19 10.124 


0.125 


0.125 |0.126 


0.130 


0.120 |0.125 


0.124 


Donc avec le fichier suivant: 


R Statistical Software 


1382/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Fichier Edition Format Affichage 


Operator Machine; Replicate Measure 
1,1,1:0.125 
1:1:2:0.127 
1:1:3:0.125 
1,1,4,0.126 
1:1,5:0.128 
1:2:1:0.118 
1:2:2:0.122 
1:2:3:0.12 
1,2:4:0.124 
1:2:5:0.119 
1,3:1:0.123 
1:3:2:0.125 
1:3,3:0.125 
1:3,4:0.124 
1:3:5:0.126 
1,4:1:0.126 
1,4,2:0.128 
1,4,3:0.126 
1,4,4,0.127 
1,4,5:0.129 


2,1:4,0.126 


4 


Nous avons alors très subtilement: 


> mydata<-read.csv("C:/tmp/NestedAiNOVAi.csv",header=T,sep=";")] 
> summary (aov(Measure-factor (Machine) + Error{(interaction(factor (Machine) ,factor (Operator))),data=mydata)) 


Error: interaction(factor (Machine), factor (Operator)) 

D£ Sum Sq Mean Sq F value Pri>F) 
factor (Machine) 4 0.0003033 7.583e-05 20.38 0.00269 ** 
Residuals 5 0.0000186 3.720e-06 


Signif. codes: O ‘##*° 0.001 *f*° 0.01 ‘*’ 0.05 *.* 0.1 * ’ 1 


Error: Within 
D£ Sum Sq Mean Sq F value Pri>F) 
Residuals 40 0.000346 8.65e-06 


> | R 


4 | mi | » 


Nous pouvons voir que R ne renvoie pas la ligne des totaux ni le deuxième test de Fisher mais 
sinon le reste de sortie correspond bien à la documentation du NIST: 
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Pour combler cette lacune nous allons alors procéder en deux étapes. La première ci-dessus a 
nous a permis d'obtenir le premier test de Fisher, celle ci-dessous nous permet d'obtenir la 
deuxième: 


> summary {(aov(Measure-factor (Machine) /factor (Operator) ,data=mydata) ) 
D£ Sum 54 Mean 54 F value Pri>F) 


factor (Machine) 4 0.0003033 7.583e-05 8.766 3.52e-05 ### 
factor (Machine) : factor (Operator) S 0.0000186 3.720e-06 0.430 0.825 
Residuals 40 0.0003460 8.650e-06 


Signif. codes: O0 ‘###’ 0.001 ‘#f’ 0.01 ‘ff’ 0.05 *.° 0.1 * *’ 1 


Sinon la conclusion est la même qu'avec Minitab car ce dernier nous affichait les p-value pour 
les deux tests de Fisher: Les Machines sont le setl facteur significatif donc les seules 
améliorations doivent être procédées sur l'outil et non sur l'humain. 
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Exemple 13.: ANOVA Carré Latin 
R 3.1.1 


R ne propose pas explicitement au même titre que Minitab de type d'ANOVA qui dans le 
cadre des plans d'expériences pourrait être utilisé pour chercher la combinaison optimale... 
donc il va être difficile de l'optimiser.. La seule chose que nous pouvons faire a priori c'est 
une analyse de la variance d'où la présence de ce sujet dans le chapitre des ANOVA. 


Nous allons comme à l'habitude reproduire l'exemple du cours théorique et vérifier que nous 
obtenons bien les mêmes résultats que ceux calculés à la main et obtenus avec Minitab. Pour 
cela, nous partons des données suivantes reproduisant le tableau carré latin du cours 
théorique: 


Considérons par exemple le cas d'une analyse de rapidité de 4 véhicules différents {1,2,3,4} 
par 4 pilotes différents {LIL IILIV } sur 4 routes différentes { A, B, D, C} et les valeurs 
mesurées sont les consommations de carburant pour parcourir une distance fixe: 


Véhicules 
11213 |4 
IA BID C 
19 | 24 | 23 | 26 
HI DC|IA |B 
23 | 24 119 | 30 


Pilotes 


H|B|D|C|A 
15 {t4 | 15 | 16 
VC A) BD 
19118|19|16 


Dans R nous importons un fichier CSV structuré comme le montre la capture d'écran ci- 
dessous: 


R Statistical Software 1385/3133 


Vincent ISOZ, Daname KOLANI 


Sciences.ch 


> mydata 


z 
2 
3 
4 
5 
6 
7 
E) 
9 


H H 
kh © 


1 


+ © OÙ) E Co D He 4 Co D He pb Co D 


Om» OOUmE» AU ACTE 


> mydata<-read.csv("C:/tmp/CarreLatin.csv",header=T,sep=";"] 


Pilotes Véhicule Lettres Consommation 


19 
24 
23 
26 
23 
24 
19 
30 
15 
14 
15 
16 
19 
15 
19 
16 


Remarquons que nous pouvons reconstruire le carré latin (bon ic1 il est transposé mais cela ne 


change rien sur le fond): 


> matrix imydatafLettres,4,4) 


C;1] 
EL] tra" 
pal vrp" 
C3:1 trD'"" 
[4,] rc 


C;2] 
"D LL 
Lei LL 
Ly' EU 
La :] LL 


C;3] 
La :] Fr 
"D LL 
Lei Fr 
rar 


[; 4] 
Lei LL 
rar" 
Le :] LL 
"D LL 


Û 


> matrix (mydata$Consommation, 4,4) 


[1] [,2] [,3] [,4] 


[1,1 19 
[2,1] 24 
[3,1 23 
[4,1] 26 
> 


23 
24 
19 
30 


15 
14 
15 
16 


19 
15 
19 
16 
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Nous pouvons faire une analyse qualitative avec les boîtes à moustache: 


> parimfrow=c(2,2)) 
> plot (Consommation-factor (Véhicule) +factor (Pilotes)+Lettres,data=mydata) 


Changement de page : attente de confirmation... 
1> 
> | N 


« 


Nous pouvons déjà constater ci-dessous que les pilotes on une influence certaine alors que 
pour les autres rien n'est moins sûr ce que nous vérifierons avec les tests de Fisher: 


—— 
! 


ER 


Consommation 


Consommation 
15 20 25 30 


15 20 25 30 


TE 


factor(éhicule) factor(Pilotes) 


Consommation 


[=] 
Lie. 
Lo 
C4 
[=] 
ON 
Lo 
—_ 


Figure 230 Graph d'effets moyens Box-plot d'un ANOVA carré latin 
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Maintenant nous faisons l'ANOVA du carré Latin: 


> modele<-lmiConsommation-factor (Pilotes)+factor (Véhicule)+Lettres,data=-mydata) 
> anova(modele) 
Analysis of Variance Table 


Response: Consommation 

DÉ Sum 5q Mean Sq F value Pr(>F) 
factor (Pilotes) 3 216 72.000 13.5 0.004466 ** 
factor (Véhicule) 3 24 8.000 1.5 0.307174 
Lettres 3 40 13.333 2.5 0.156490 
Residuals 6 32 55393 


Signif. codes: O0 ‘##* 0.001 ‘ff’ 0.01 ‘ff’ 0.05 *.’ 0.1 * * 1 
> | 


Nous retrouvons bien les valeurs calculées à la main! Avec les mêmes conclusions: Seuls les 
pilotes influencent significativement le temps écoulé! 
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Exemple 14.: ANOVA Gréco-Latin 
R 3.6.0 


Nous allons considérer l'expérience comprenant: 
e Quatre ouvriers assembleurs 
e Quatre méthodes d'assemblages 
e Quatre ordres d'assemblages 


e Quatre lieux d'assemblages 


Nous considérons donc le carré gréco-latin suivant (temps d'assemblage en heures): 


sue 1 c&=10 | By=10 | D5—12 | Ac=7 
AembRes 2 Ba = 8 Co ts Ay = 7 DB = 14 
3 Age. (|. Date | re ir. | = 13 
< 
4 Dy=11 À A4B=8 Ca = 10 B5=8 
Où: 


e Les méthodes d'assemblages sont indexées par les lettres latines 
e Les lieux d'assemblages par les lettres grecques 
Voyons d'abord comment construire des plans gréco-latins de manière randomisée étant 


donné que ce n'est pas un exercice simple pour l'humain moyen en utilisant le package 
agricolae et sa fonction design.graeco( ): 


R Statistical Software 1389/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


MR RGui (64-bit) - [R Console] — 
QR File Edit View Misc Packages Windows Help EX 


EST 


library("agricolae") 
latines<-c("A","B","c","D") 
grecques<- c(1,2,3,4) 


fpremier tableau gréco-latin 
table<-design.graeco(trtil=latines, trt2=-grecques,seed=1) 
tableS$sketch 
[,1] [,21 [,31 [,4] 
[TL;:1 "A 3" "B 4" Loi | L7 Lt 27 
[2,1] "B 1 “A os La 2 37 "D 4" 
[3,1 so ? el D a. 27 "A 4" "B EL 
[4,] au à 4" aol à 3" "B 2" "A E ( 
> 


VUNVNNN NV 


> fune deuxième tableau gréco-latin du même type 
|> table<- design.graeco(trti-latines,trt2-=grecques,seed=10) 
> tableS$sketch 
[,1] [,21 [,3]1 [,4] 
IL, 1 a 4" 2,2" "D 17 "€ 37 
l'I9,1 "8 1° FA 3° "C a" "ph 2" 
[3:11 “D 3" "C 1" "A 2" °B 4” 
| % 6 gx $= 2" “D 4" "B 3" pr 1 Nas 
æ 


Ne) 
Ÿ 
| : À Si 5 
Mais pour reproduire le tableau donné plus haut, nous écrirons: 


MR RGui (64-bit) - [R Console] _ 
OR File Edit View Misc Packages Windows Help 4x 


EC] 


#Construction du tableau 

Ordre Assemblage<-c(1,2,3,4,1,2,3,4,1,2,3,4,1,2,3,4) 
Operateur<-c(1,1,1,1,2,2,2,2,3,3,3,3,4,4,4,4) 

Methode Assemblage<-c("C","B", "A", "D","B","C", "D", "A", "D", "A", "B","C","A","D","C","B") 
Lieu Travail<-c(2,1,4,3,3,4,1,2,4,3,2,1,1,2,3,4) 

Temps Assemblage<-c(10,8,6,11,10,15,14,8,12,7,11,10,7,14,13,8) 


#Conversions 

Ordre Assemblage<-factor (Ordre Assemblage) 
Operateur<-factor (Operateur) 

Methode Assemblage<-factor (Methode Assemblage) 
Lieu Travail<-factor (Lieu Travail) 


VVNVVNVNNVNVNNVNNVNNNNNV 


Maintenant nous pouvons lancer l'analyse en utilisant simplement les fonctions natives Im( ) 
et ao ): 
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R File Edit View Misc Packages Windows Help ë x 


SI tel) lé] 


> modele<-lm(Temps Assemblage-Ordre Assemblage+Operateur+Methode Assemblage+Lieu Travail) 
> modele 


Call: 
im(formula = Temps Assemblage + Ordre Assemblage + Operateur + 
Methode Assemblage + Lieu Travail) 


Coefficients: 

(Intercept}) Ordre Assemblage2 Ordre Assemblage3 Ordre Assemblage4 
4.50 1:25 1.25 —-0.50 
Operateur2 Operateur3 Operateur4 Methode AssemblageB 
3.00 1:25 1:75 2429 
Methode AssemblageC Methode AssemblageD Lieu Travail2 Lieu Travail3 
5.00 ES 1.00 0.50 

Lieu _ Travail4 

0.50 


|> anova<-aov (modele) 
> summary (anova) 
Df Sum Sq Mean Sq F value Pr(>F) 


| Ordre Assemblage 3 325 3.167 2:114.0:2170 
Operateur 3 18.5 6.167 5.286 0.1024 
|Methode Assemblage 3 83.5 27.833 23.857 0-0135 
|Lieu Travail 3 250 0.667 0.571 0.6714 
Sn 3 3: 1-167 
> 


Nous retrouvons donc bien les valeurs attendues! 


On peut donc voir que seulement la méthode d'assemblage est significative! 

. . S° nn 
Faisons maintenant un test LSD de Fisher à l'aîde de la fonction LSD.test( ) pour identifier 
quels sont les groupes significativement différents: 
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R RGui (64-bit) - [R Console] 
R File Edit View Misc Packages Windows Help 


> out<-LSD.test (y=anova, trt="Methode Assemblage",group=T,console=T) 


Study: anova - "Methode Assemblage" 
LSD t Test for Temps Assemblage 
Mean Square Error: 1.166667 
Methode Assemblage, means and individual ( 95 %) CI 
Temps Assemblage std r LCL UCL Min Max 
7.00 0.8164966 4 5.281283 8.718717 6 8 
9.25 1.5000000 4 7.531283 10.968717 8 11 
4 
4 


12.00 2.4494897 10.281283 13.718717 10 15 
12.75 1.5000000 11.031283 14.468717 11 14 


Taux» 


Alpha: 0.05 ; DF Error: 3 
Critical Value of t: 3.182446 


least Significant Difference: 2.430634 
Treatments with the same letter are not significantly different. 


Temps Assemblage groups 


D 12-75 a 
cC 12.00 a 
B 9.25 b 
A 7.00 b 
> plot (out) 

> | 


Avec le graphique correspondant: 


% 
nl 
() 
F 


Groups and Range 


18 


16 
1 


14 
1 


12 
1 


10 


Donc les méthodes d'assemblage qui nécessitent le moins de temps d'assemblage moyen sont 


A et B. Celles nécessitant le plus grand temps d'assemblage sont D et C. 


R Statistical Software 


1392/3133 


Vincent ISOZ, Daname KOLANI 


Sciences.ch 


Exemple 15.: ANCOVA (Analyse de la Covariance) dixit régression 
hiérarchique modérée 


R3.1.1 


Notre but ici est de vérifier si nous réobtenons bien les résultats des calculs effectués à la 
main dans le cours théorique et ce avec quel niveau de détails. 


D'abord, nous reprenons les données du cours théorique qui sous forme esthétique est donnée 


pour rappel par: 


Moyenne |13.1 29.2 | 


Sujet 


al 
a2 
a3 
ad 
as 
a6 
a7 
a8 
a9 
al0 


Méthode A 

Xa | Ya 

5 | 20 
10 | 23 
12 | 30 

3 | 3 
23 | 34 
21 40 
ki | 27 
18 | 38 

6 | 24 
13 | 31 


Sujets 


bl 
b2 
b3 
b4 
b5 
b6 
b7 
b8 
b9 
b10 


Méthode B 
X5 VE 
7 19 
12 26 
27 33 
24 35 
18 30 
22 31 
26 34 
21 28 
14 23 
9 22 
18.0 128.1 


Donc la Méthode est selon le vocabulaire du domaine de la régression hiérarchique, la 


variable de "modération". 


Ce qui nous donne dans R: 
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R Fichier Edition Voir Misc Packages Fenêtres Aide 


> mydata<-read.csvi"C:/tmp/ANCOVi.csv",header=T,sep=";:") 


> mydata 


Sujet Before After Method 


al 
az 
a3 
a4 
as 
aé 
a? 
as 
ag 


L 
2 
3 
4 
5 
6 
7 
8 
9 


H H 
kH © 


b1 
ba 
b3 
b4 
b5 
b6 
b7? 
b& 
bg 


bHhHHH 
in E © © 


H 
-—] 


20 
23 
30 
25 
34 
40 
27? 
38 
24 
31 
19 
26 
33 
35 
30 
31 
34 
28 
23 
22 


Co Co Cd Ed Ci Où E Où 9 Ci ee ee ee ee ee ee je je Le je 


Ensuite nous utilisons pour simplifier la procédure la commande ancova() du package HH 


pour obtenir: 
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R Fichier Edition Voir Misc Packages Fenêtres 


> library(HH) 
> ancova(ifter - Before + Method, data=mydata) 
Analysis of Variance Table 


Response: ifter 

DE Sum Sq Mean Sq F value Pr(>F) 
Before 1 430.92 430.92 59.890 5.718e-07 *** 
Method 1 115.31 115.31 16.025 0.0009209 ft* 
Residuals 17 122.32 7.20 


Signif.: codes: 0 ‘+++ 0,001 *++7 O,01 **%° 0.05 vf O1 v * L 
| 


C'est un peu basique comme résumé puisqu'il n'y a aucun test post-hoc mais bon sinon nous 
retrouvons bien les résultats calculés dans le cours théorique à main avec la même conclusion! 


Pour avoir la partie de la régression de Minitab nous utilisons (très...) subtilement la 
commande contrasts() conjointement avec aov() et Im( ) : 
Ÿ 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> contrasts (mydata$Method)=contr.polyi(2) 
> modeliOV=aov(ifter-Before+Method, data=mydata) 
> summary (lm(imodelA0v)) 


Call: 
im(formula = modeli0v) 


Residuals: 
Min 10 Median 3Q Max 
-3.6348 -2.5099 -0.2038 1.868871 4.7453 


Coefficients: 

Estimate Std. Error t value Pri>lt|) 
(Intercept) 15.7827 1.6016 9.85N 1.92e-08 
Before 0.868275 0.0955 8.665 1.21e-07 
Method.L -3.6449 0.9105 -4.003 0.000921 


Signif. codes: O0 ‘*#** 0.001 ‘ff° 0.01 ‘$* 0.05 *.* 0.1 * * 1 
Residual standard error: 2.682 on 17 degrees of freedom 


Multiple R-squared: 0.817, idjusted R-squared: 0.7955 
F-statistic: 37.96 on 2 and 17 DF, p-value: 5.372e-07 


> | 


« 
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Rappelons que l'ANCOVA suppose implicitement aucune interaction. Donc voyons comment 
grâce à la syntaxe précédente, nous pouvons inclure une interaction de la variable de 
modération: 


MR RGui (64-bit) - [R Console] = ( 


R File Edit View Misc Packages Windows Help - sx 


BSOISESIOIE | 


> modelAOV<-aov (After-Before+Method+Before“Method, data=mydata) 
> lm(modelAOV) 


Call: 
Im(formula = modelAOV) 


Coefficients: 
(Intercept) Before Method.L Before:Method.L 
15.7657 0.8486 -0.9291 -0.1793 


> modelAOV 
Call: 
aov (formula = After - Before + Method + Before * Method, data = mydata) 


Terms: 

Before Method Before:Method Residuals 
Sum of Squares 430.9238 115.3060 12.3371 109.9831 
Deg. of Freedom 1 + Œ 16 


Residual standard error: 2.621821 
Estimated effects may be unbalanced 
> summary (1m(modelAOV) ) 


Cal1: 
1Im(formula = modelAOV) 


Residuals: 
Min 10 Median 3Q Max 
—4.8562 -1.7500 0.0696 1.8982 4.0207 


Coefficients: 

Estimate Std. Error t value Pr(>it|l) 
(Intercept) 15.76566 1.56549 10.071 2.49%e-08 
Before 0.84856 0.09466 8.964 1.23e-07 
Method.L -0.92909 2.213934 -0.420 0.680 
Before:Method.L -0.17935 0.13387 -1.340 0.199 


Residual standard error: 2.622 on 16 degrees of freedom 
Multiple R-squared: 0.868355, Adjusted R-squared: Û0.8046 
F-statistic: 27.09 on 3 and 16 DF, p-value: 1.655e-06 


>| 
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Exemple 16.: MANOVA 


R 3.1.1 


Nous allons à nouveau contrôler que nous obtenons bien certains éléments calculés à la main 
dans le cours théorique. 


D'abord nous préparons le jeu de données en conséquence: 


> 
+ 
4 
d: 
> 


© © -J ao UE © NH 


manova.data <- data.frame(group = as.factor(repil:3, 


3, S))), vi = ci2, 3, 5, 2, 
10, 9, 7), y2 = ci3, 4, 4, 
7, 8, 5, 6)) 


4, 
S; 


manova.data 
group 


4 
H 
4 
© 


1 


OO -J o On & © On © D 


LH 
Le 
o 1 © -J o -J on OO On & & © 


CL Co © © CL D D D) EE H H 


- 


Ensuite, nous calculons les moyennes de chacun de variables dépendantes pour chacun des 


groupes: 


with(imanova.data, tapplyivil, group, mean)) 
L A 3 
«& 5.0 6.2 
withimanova.data, tapply(yz, group, mean)) 
L 2 3 


.0 7.0 6.4 


Nous obtenons bien les calculs effectués à la main. 
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Ensuite, rien ne nous empêche de faire une analyse graphique visuelle: 


> par(mfrouwu = c{i2, 1)) 

> boxplot {vi - group, manova.data, main = "y1i Boxplot",horizontal = 
> boxplotiyZ - group, manova.data, main = "y2 Boxplot",horizontal = 
> 


om 
2 4 6 8 10 
y2 Boxplot 
oo 


Nous pouvons déjà constater qu'entre les variables dépendantes ET entre les variables 
indépendantes il y dans les deux cas des variations qui semblent être très fortes. 


Pour la suite, nous utilisons la fonction native manova() de R: 
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> mi <- manova(chind(iyi, y2) - group, manova.data) 
> mi 
Call: 

manovalichindiyl, y2) + group, manova.data) 


Termes: 

group Residuals 
resp i 61.866677 14.680000 
resp 2 19.05 9.20 
Deg. of Freedom FA 9 


Residual standard errors: 1.282359 1.01105 


Estimated effects may be unbalanced 
> summaryimi, test = "Wilks'") 

DÉ Wilks approx F num Df den Df Pr(>F) 
group Z 0.089674 9.3575 4 16 0.0004271 **# 
Residuals 9 


Signif. codes: © ‘#*t*:? 0.001 ***® O.01 ?#° 0:05 *:° OQ.1 * * À 
> | 
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Exemple 17.: ANOVA par permutation 
R3.1.1 


Comme nous l'avons mentionné dans le cours théorique, selon différentes recherches, 1l 
semblerait que les ANOVA par permutation soient plus robustes que les ANOVA non- 
paramétriques de Friedman ou de Kruskal-Wallis. Voyons donc comment exécuter un de des 
dernières avec deux packages différentes: le package permuco et le package Imperm! 


Voyons donc permuco et sa fonction aovperm( ) et ImPerm avec sa fonction aovp( ): 


GR File Edit View Misc Packages Windows Help - x 


ÉSCECeCE 


> mydata<-read.csv("c:/tmp/ANOVAlFacteurDesempile.csv",header=T, sep=";") 


> mydata 
Classes Valeurs 
1 Equipe 1 78 
2 Equipe 1 88 
3 Equipe 1 90 
4 Equipe 1 47 
5 Equipe 1 85 
6 Equipe 1 88 
7 Equipe 1 79 
8 Equipe 2 73 
9 Equipe 2 +5 
10 Equipe 2 80 
11 Equipe 2 83 
12 Equipe 2 87 
| 13 Equipe 2 90 
| 14 Equipe 2 85 
15 Equipe 3 88 
16 Equipe 3 86 
17 Equipe 3 79 
18 Equipe 3 93 
19 Equipe 3 79 
20 Equipe 3 83 
21 Equipe 3 73 


> #d'abord la méthode classique 

> summary (aov (mydata$Valeurs-mydata$Classes)) 
Df Sum Sq Mean Sq F value Pr(>F) 

mydata$Classes 2 8.0 4.00 0.136 0.874 

Residuals 18 530.3 29.46 


tenfin la méthode par permutation qui devrai gérer 

fmieux les outliers et d'autres conditions non satisfaites 

révidemment on peut faire des ANOVA plus compliquées! 

library ("permuco") 

numb_permu=5000 

| aovperm(mydata$Valeurs-mydata$Classes,np=numb permu) 

| Anova Table 

| Permutation test using freedman lane to handle nuisance variables and 5000 permutations. 


VUNVNVNNVV 


SS df F parametric P(>F) permutation P(>F) 
mydata$Classes 8.0 2 0.1358 0.8739 0.8764 
| Residuals 530.3 18 


| > 
> library("lmPerm") 
> summary (aovp (mydata$Valeurs-mydata$Classes)) 
[1] "Settings: unique SS " 
Component 1 : 
Df R Sum Sq R Mean Sq Iter Pr(Prob) 
mydata$Classes 2 8.00 4.00 92 0.8478 
Residuals 18 530.29 29.46 


>| 
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Exemple 215.: Test de Hosmer-Lemeshow (HL) 
R 3.4.1 


L'exemple et la vérification qui suivent sont grandement inspirés du très bon article de 
Benjami Smith: 


https://bensstats.wordpress.com/2021/04/21/robservations-9-the-hosmer-lemeshow-test- 
follows-a-chi-square-distribution-water-is-wet/ 


D'abord, comme nous l'avons mentionné dans le cours théorique, il semblerait qu'il n'y ait pas 
de preuve formelle que: 


GHz = ), = 


3=1 
Suit une loi du khi-deux du type: 
Gaz © Xo-2 


D'après la lecture de l'article des auteurs de ce test, il semblerait qu'ils soient arrivés à cette 
conclusions par des simulations numériques. Voyons donc si nous pouvons rejeter cette 
conclusion ou pas? 


D'abord nous faisons des simulations d'une dizaine de milliers de régressions logistiques et 
nous utilisons la fonction hoslem.test( ) du package ResourceSelection pour stocker les 
statistiques avec la valeur empirique recommandée de 10 groupes. 
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Sciences.ch 


ER RGui (64-bit) - [R Console] 
QR File Edit View Misc Packages Windows Help 


HO OO OO EH HV VV VV VV VV OV VV 


LE 


1: 
2: 
3: 
4: 
CE 
6: 
> | 


#pour la reproductibilité 
set.seed(1234) 


#on charge un libraire contentant le test de HL 
library("ResourceSelection") 
#On définit où on stocke les valeurs du test de HL 


hlvals<-c() 


# On lance la simulation 
for (i in 10:1000)1{ 


#Taille de l'échantillon 

n<-i 

#Rendre les données dépendantes les unes des autres 
xl<-rnorm(n) 

x2<-0.5*xl+rnorm(n) 

xb<-x1-x2 


#On crée la fonction de lien logistique 
pr<- exp(xb)/(l+exp(xb)) 


*On crée une variable de réponse au hasard 
y <- l*(runif(n)<pr) 


#On crée un data frame pour le passer à la régression logistique 
dt<- data.frame(y,xl,x2) 


#La régression logistique habituelle 
model<-glm(y-xl+x2, data=dt, family=-binomial(link="logit")) 


#On exécute le test HL 
hl<-ResourceSelection::hoslem.test (model$y,fitted(model),g=10) 


#On sauvegarde le résultat du test de HL avec l'indexation adaptée 
hlvals{i-9]<-hl$statistic 


Warning messages: 


gilm.fit: algorithm did not converge 
glm.fit: fitted probabilities numerically O or 1 occurred 
glm.fit: algorithm did not converge 
glm.fit: fitted probabilities numerically O or 1 occurred 
glm.fit: algorithm did not converge 
glm.fit: fitted probabilities numerically O0 or 1 occurred 


Pour créer un graphique Q-Q pour la distribution du khi-deux, nous utilisons le package 
snpStats?* et sa fonction qq.chisq( ): 


2% Parce que ce package n'est pas disponible dans les versions actuelles de R si nécessaire, nous installons le 
package directement depuis Github avec la commande devtools::install_github("NikNakk/snpStats") 
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E 


Q À Console OI ES 


> library("snpStats") 

> # g= 10 donc les ddl sont de 8 

> qg.chisq(hlvals,df=8,slope.one = TRUE) 
N omitted lambda 

991.000000 0.000000 1.035931 


QQ plot 


25 


20 


15 


Observed 


10 


0 5 10 15 20 25 


Expected 
Expected distribution: chi-squared (8 df) 


Il semblerait donc que nous n'allons pas rejeter l’hypothèse nulle comme quoi: 
Gaz © Xÿ-2 


Le lecteur peut s'amuser avec le cas limite g > (p+1) c'est-à-dire g > 2 puis ensuite en 
adaptant df=1 dans le code précédent pour voir que nous obtenons: 
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Sciences.ch 


10 


Observed 


Expected distribution: chi-squared (1 df) 


QQ plot 
0009 
02° 
4S° 
6 8 
Expected 


sex) 


10 


Ce qui reste pas mauvais. 


La statistique du test HL ne prend pas en compte le surapprentissage et a tendance à avoir une 
faible puissance. Cela est évident si nous regardons le résumé des p-valeurs des statistiques 
HL car la moyenne et la médiane sont très faibles: 
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UR RGui (64-bit) - [R Console] — O 


ŒR File Edit View Misc Packages Windows Help = à X 


> summary(l-pchisq{ihlvals,8)) 

Min. 1st Qu. Median Mean 3rd Qu. Max. 
0.0005921 0.2410906 0.4860173 0.4870918 0.7246510 1.0000000 
> | 


Na 
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Exemple 216.: ACP (Analyses en Composantes Principales) 


paramétrique 
R 3.0.2 


Nous allons ici vérifier que nous retrouvons les résultats de Minitab et obtenus avec Microsoft 
Excel avec les relations obtenues lors des démonstrations mathématiques de la méthode dans 
le cours théorique. Nous reprenons donc les données partielles des Iris de Fisher (histoire de 
faire original...): 


_ | ACP.csv - Bloc-note 


Fichier Edition Format Affichage 2 


Fleur;LongueurSepale;LargeurSepale;LongueurPetale 
155.41 51:44 


* WHNBHHNH 


LT LO B tu Lu M JLO 
LI LO LM ) LU Communes 


2 
3 
4 
5 
6 
r 
5 
9 
1 
1 
1 


NH OQesumsmrmrmnmnsn 
survesese MAMMA LE BE 


un Qi Qi 
“ss. BRSBNJBHHBH 


Remarque: Rappelons que l'ACP est très utilisée aussi en finance! 


Nous avons donc en utilisant la commande prcomp() qui exécute une ACP basée sur la 
décomposition en valeurs singulières SVD (d'après la documentation): 
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R Fichier Edition Voir Misc Packages Fenêtres Aide 


> setwd({"C:/") 

> iris<-read.csv{("iCP.csv",header=T,sep=";:"] 
> fit<-preompiiris[,-1], scale=TRUE) 
> 


summary(fit) 
Importance of components: 
PC1 PC2 PC3 
Standard deviation 1.4248 0.9405 0.29200 
Proportion of Variance 0.6767 0.2949 0.026842 
Proportion 0.6767 0.9716 1.00000 
F2 


Donc à part la première ligne que nous n'avons pas calculée dans le cours théorique (et que 
Minitab ne donne pas), le reste est parfaitement conforme aux calculs faits à la main et dans 
Microsoft Excel ainsi que dans Minitab. 


Nous pouvons obtenir le même résultat avec la fonction princomp( ) qui exécute une ACP 
basée sur le théorème spectral (moins stable numériquement que la SVD): 


HR RGui (64-bit) - [R Console] C | | 


R File Edit View Misc Packages Windows Help __ EX 


EC 


> myCors <- cor(iris{,-1], method="pearson") 
| > myPCA <— princomp(covmat=myCors) 

> summary (myPCA) 

Importance of components: 


Comp.1 Comp.2 Comp .3 

Standard deviation 1.4248449 0.S405078 0.29199653 

Proportion of Variance 0.6767277 0.2948517 0.02842066 

CT Proportion 0.6767277 0.9715793 1.00000000 
| > 


Ensuite, nous pouvons plotter les valeurs propres ("scree plot?f"): 


26 Pour rappel il s'agit d'un "scree plot” (en anglais "scree" se sont les éboulis qui descendent des montagnes). 
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> plot(ifit,type="lines",main="valeur propres") 
> | 


valeur propres 


al 
2 
© 
[= 
Eu 
E 
Lu 
> 


Figure 231 Graph ‘'scree plo& Mes valeurs propres de l'ACP 


ou plus classiquement: 
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> fit<-preompiiris[,-1], scale=TRUE) 
> ploti(fit,main="valeur propres") 
> | 


Variances 


Ce qui est parfaitement conforme à ce que nous avons obtenu dans les autres cours. 


Nous pouvons aussi obtenir la matrice des vecteurs propres (aussi parfaitement conforme): 


RGui (64-bit} - [R 
R Fichier Edition Voir Misc Packages Fenêtres Aide 


Bee] 


> fit[2] 
$rotation 


PC1 PC2 PC3 
LongueurSepale 0.6410021 -0.3503022 -0.6666982 
LargeurSepale -0.3527506 -0.9174154 0.1841632 
LongueurPetale 0.6816768 -0.1171292 0.7222170 


> | 


Nous pouvons également ploter le diagramme de double projection avec la commande 
biplot( ) : 
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’e 


KR & Console sle|x 


> biplotifit) 

> gridi] 

> abline(v=0,lwd=2) 
> abline(h=0, lwd=2) 
> la 


PE2 


4 


LargeurSepale 


Figure 232 Graph bi-plot de l'ACP 


Donc ici, contrairement à Minitab, nous retrouvons les valeurs telles que calculées dans le 
cours théorique à la main pour les points par contre pour les vecteurs propres cela est différent 
de ce que nous avons calculé dans le cours théorique ET différent de ce que Minitab ou 
MATLAB retournent. 


Ou dans un autre style avec la commande ggbiplot() package ggbiplot: 
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> library(gghiplot) 
> ggbiplot(fit,obs.scale=1,var.scale=1,circle=T,varname.sizes=3,varname.adijust=-2) 
> 


1- 
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Œ 
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-1 
PC1 (67,7% explained var.) 


On peut faire beaucoup plus avec la fonction ggbiplot( ) 
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Sciences.ch 


F 


M R Console 


> | 


> iris.type<-c(rep("Sertosa",5),rep("Versicolor",5),rep("Virginica",5)) 
> ggbiplot(fit,obs.scale-l,var.scale-l,ellipse-=T,circle=T,varname.size=3, 
+ varname.adjust=-2,labels=rownames (iris),groups=iris.type) 


Y 


sex) 


E 
QG R Graphics: Device 2 (ACTIVE 


[re] 


PC2 (29.5% explained var.) 


| 


OIES 


groups 
“à Sertosa 


&- Versicolor 


| à Virginica 
ol | 
. = / 
x) Fr 
-2- 
2 4 0 
PC1 (67.7% explained var.) 
Et encore cela n'est qu'un aperçu!!! 
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ACP (Analyses en Composantes Principales) paramétrique vs SVD 
(Décomposition en Valeurs Singulières) 


Nous avons vu dans le cours théorique que l'ACP est intimement liée à la SVD et au théorème 
spectral. Au fait l'ACP étant une SVD sur les données centrées. Voyons cela explicitement 
avec R! 


Donc d'abord revoyons l'ACP identique à celle d'avant à la différence que nous ne centrons 
(center=F) ni réduisons (scale=F) les données: 


E 


R : = | © 2x | 


> iris<-read.csv("c:/tmp/ACP.csv",header=T,sep=";") 
> pca<-prcomp{(iris{,-l],scale=F,center=F) 
> plot(pcaS$x{,1l],pca$x{,2],main="PCA",xlab="pCl",vylab="pC2") 


R SJ |xX 
PCA 
Le 
ot 
— 
re" 
O 
Q 
Le 
o 
= 
Li 


_-9 8 -7 6 


PC1 


Et maintenant effectuons la décomposition en valeurs singulières: 
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> sv<-svd(iris{(,-1]) 
> plot(sv$uf{,1],sv$uf(,2],main="SVD",xlab="Ul",ylab="U2") 
> | 


0.32 030 028 026 -024 022 020 018 


U1 


C.Q.F.D. Nous obtenons bien la même chose! 
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Exemple 217.: Analyse en Composantes Indépendantes (ICA) 


WP 
R 3.4.1 


Donc voici un algorithme dont nous n'avons pas pu voir la démonstration mathématique dans 
le cours théorique et qui permet contrairement à l'ACP qui cherche à maximiser la variance, 
lui cherche à minimiser l'information mutuelle (cf. Théorie de l'information). 


D'abord nous chargeons le package fastICA et créons deux signaux ainsi que la matrice de 
mélange: 


rc CIRE 


> library(fastICA) 

> S <- cbind(sin((1:1000)/20), rep((((1:200)-100)/100), 5)) #deux signaux 
À <- matrix(c(0.291, 0.6557, -0.5439, 0.5572), 2, 2) #matrice de mélange 

> par (mfcol = c(l, 2)) 

> plot(1:1000, Sf[,1], type 
plot(1:1000, S[,2], type 


°1°,xlab = °31°, ylab = *®) 
°1°, xlab = °32°, ylab = *®) 


0 200 400 600 800 O0 200 400 600 800 


S1 S2 


Ensuite nous mixons les deux signaux: 
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MR Console 


> X <- 5 %*% À #mix des deux signaux 

> par (mfcol = c{(l, 2)) 

> plot(1:1000, X[{,1], type = "l",xlab = "XL", ylab = "") 
> triées: X[(,2], type = "1", xlab = "X2", ylab = "") 
> 


mr Graphics: Device 2 (ACTIVE) 

o 

(re) 

Oo 1 
[æ) 

o o 

o o 
l'e) 

o o 
o 

o dr 

0 200 400 600 800 0 200 400 600 800 
X1 X2 


Ensuite on utilise l'ICA pour retrouver au mieux les signaux d'origine avec la fonction 
fastICA( ) : 
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R RGui (64-bit) - [R Console] 
R File Edit View Misc Packages Windows Help - x 


ÉBOISOSIOIE 


> a <- fastICA(X, 2, alg.typ = "parallel", fun = "logcosh'", alpha = 1, 


_ method = "R", row.norm = FALSE, maxit = 200, 
- tol = 0.0001, verbose = TRUE) 

Centering 

Whitening 


Symmetric FastICA using logcosh approx. to neg-entropy function 
Iteration 1 tol = 0.000350081 

Iteration 2 tol = 3.287225e-07 

>| 


et on affiche le résultat: 
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MR Console 


> par (mfcol = c{l, 2)) 

> plot(1:1000, a$S[,1], type = "1", xlab = "S'1", ylab = "") 
> plot(1:1000, a$S{,2], type = "1", xlab = "S'2", ylab = "") 
>| 


UR R Graphics: Device 2 (ACTIVE) 
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Exemple 218.: Analyse factorielle exploratoire (AFE) 
R 3.02 


Le but va être ici de vérifier comme à l'habitude que les résultats calculés à la main (et donc 
les conclusions y relatives) sont conformes aux démonstrations mathématiques faites dans le 
cours théorique avec l'exemple particulier que nous avions choisi ainsi que de vérifier s'ils 
sont conformes à ce que nous avions dans Microsoft Excel et Minitab. 


Nous utiliserons la commande fa() du package psych qui nécessite lui-même le chargement 
du package GPArotation pour contrôler le type de rotation. 


D'abord nous montrons les données que nous utilisons et la matrice de covariance y relative: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


libraryipsych) 
library(GPirotation) 
mydata<-read.csv("C:/AnalyseFactorielle.csv",header=T,sep=";:")] 
mydata 
NiveauFinance NiveauStatistique NiveauNormes 

6 


cor (mydata) 


NiveauFinance NiveauStatistique NiveaulNormes 
NiveauFinance 1.00000000 -0.05111956 0.08044857 
NiveauStatistique -0.05111986 1.00000000 0.98102294 
à Os 0.08044857 0.98102294 1.00000000 
> 
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AFE avec méthode ACP sans rotation! 


Ensuite, nous lançons l'AFE (ou plus simplement dit "l'analyse factorielle") sans rotation 
(rotate="none") avec la méthode factorielle ACP (fm="pa"): 


Re RGui (64-bit) -[RC [ecnia[= Ses) 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> #On désactive la méthode SMC car il y a trop peu de variables à analyser 
> model<-fa(mydata,nfactors=2,SMC=FALSE,rotate="none",fm="pa") 
> print (model,digits=4) 
Factor Analysis using method = pa 
Call: fair = mydata, nfactors = 2, rotate = "none", SMC = FALSE, fm = "pa") 
Standardized loadings (pattern matrix) based upon correlation matrix 
PAi PAZ h2 u2 com 
NiveauFinance 0.0301 0.9995 0.9998 0.0001751 1.002 
NiveauStatistique 0.9917 -0.0810 0.9901 0.0099478 1.013 
NiveauNormes 0.9937 0.0506 0.9900 0.0099873 1.005 


Pal PAZ 
5$ loadings 1.9716 1.0081 
Proportion Var 0.6573 0.3360 
Cumulative Var 0.6573 0.9933 
Proportion Explained 0.6617 0.3383 
Cumulative Proportion 0.6617 1.0000 


Mean item complexity = 1 
Test of the hypothesis that 2 factors are sufficient. 


degrees of freedom for the null model are 3 and the chjective function was 3.6903 with Chi Square of 6.4289 
degrees of freedom for the model are -2 and the chjective function was 6e-04 


root mean square of the residuals (RMSR) is Ze-04 
df corrected root mean square of the residuals is Ni 


harmonic number of observations is 5 with the empirical chi square O with prob < 
total number of observations was S with MLE Chi Square = Se-04 with prob < Ni 


Tucker Lewis Index of factoring reliability = 13.40536 
Fit based upon off diagonal values = 1 
Measures of factor score adequacy 

Pal PA2 
Correlation of scores with factors 0.9976 0.9999 
Multiple R square of scores with factors 0.9951 0.9998 
Mihnirour correlation of possible factor scores 0.9903 0.9996 


Nous retrouvons donc presque les mêmes résultats que dans le cours théorique et 
Minitab/MS Excel. C'est principalement la communalité qui diffère et scores des facteurs à 
quelques pourcents. 


Par contre nous n'avons pas démontré n1 parlé dans le cours théorique de toutes les 
informations données en-dessous des deux tableaux ni de ce paramètre u2 que renvoie R et 
qui semble (mais à vérifier.) être simplement 1-h2. De plus les noms choisis par R pour les 
colonnes ne sont pas des plus subtils. Il en sera de même pour les deux autres méthodes que 
nous allons voir ci-dessous et qui ont toutes deux décortiquées dans le cours théorique. 
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AFE avec méthode ACP et rotation VariMax! 


Maintenant lançons l'AFE (ou plus simplement dit "l'analyse factorielle") avec rotation 
varimax (rotate="varimax") toujours avec la méthode factorielle ACP (fm="pa"): 


> model<-fa(mydata,nfactors=2,SMC=FALSE,rotate="varimax",fm="pa") 

> print (model,digits=4) 

Factor Analysis using method pa 

Call: fair = mydata, nfactors = 2, 

fru = pa") 

Standardized loadings (pattern matrix) based upon correlation matrix 
Pal Pàz h2 u2 com 

NiveauFinance 0.0165 0.9998 0.9998 0.0001751 1.001 

NiveauStatistique 0.9927 -0.0675 0.9901 0.0099478 1.009 

NiveauNormes 0.9929 0.0642 0.9900 0.0099873 1.008 


rotate = "varimax", SMC = FALSE, 


Pal PAz 
55 loadings 1.9717 1.0082 
Proportion Var 0.6572 0.3361 
Cumulative Var 0.6572 .9933 
Proportion Explained 0.6617 0.3383 
Cumulative Proportion 0.6617 1.0000 


Mean item complexity = 1 
Test of the hypothesis that 2 factors are die ce 


The degrees of freedom for the null model are 3 and the chjective function was 3.868903 with Chi Square of 86.4289 
The degrees of freedom for the model are -2 and the objective function was 6e-04 


The root mean square of the residuals (RMSR) is 2e-04 
The df corrected root mean square of the residuals is Ni 


The harmonic number of observations is 5 with the empirical chi square OO with prob < 
The total number of observations was 5 with MLE Chi Square = 5e-04 with prob < Ni 


Tucker Lewis Index of factoring reliability = 13.40536 
Fit based upon off diagonal values = 1 
Measures of factor score adequacy 

Päi Pàz 
Correlation of scores with factors 0.9976 0.9999 
Multiple R square of scores with factors 0.9951 0.9998 
Mia irum correlation of possible factor scores 0.9903 0.9996 


« 


Donc encore une fois à quelques % près non significatif, nous pouvons considérer les résultats 
identiques à ceux de Minitab et Microsoft Excel ainsi qu'à ceux obtenus dans le cours 
théorique. 
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AFC Analyse Factorielle des Correspondances 


Nous allons ici reprendre les valeurs numériques du cours théoriques dont pour rappel la 
démonstration mathématique et l'origine proviennent entièrement de l'ouvrage Analyse de 
données avec R de F. Husson, S. Lê et J. Pagès (ISBN: 978-2-7535-0938-2). 


Nous partons du fichier suivant: 


E | =! ae | + FT AFC,csv - WordPad CI 


CRRNERRE ARE CNET ERREUR NE NN ONE ON ERNEST RE 


srester au fover;trav. à mi-temps;trav. plein temps 
2 con]. tr. également;13;142;106 

trav. mari + absorbant; 30;:408;:117 

seul le mari trav.;:241;:573;94 


100% ©) y ©) 


Nous chargeons les données en tant que table etfôus retrouvons bien la table du cours 
théorique: “ 


R RGui (64-bit) - [R Console] N — [me] X 
R File Edit View Misc Packages Windows Help 


> mydata<-read.table("C:/tmp/AFC.csv",header=T,row.names=1,sep=";:") :mydata 
rester.au.foyer trav..à.mi.temps trav..plein.temps 


2 conj. tr. également 13 142 106 
trav. mari + absorbant 30 408 117 
seul le mari trav. 241 573 94 


> | 


Le test du chi-2 est donné par: 
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R RGui {64-bit) - [R Console] . [ X 
KR File Edit View Misc Packages Windows Help SE: 


BSOISOSINIE 


> res.test.chi2<-chisq.test (mydatal[,1:3]) R 
> res.test.chi2 


Pearson's Chi-squared test 


data: mydatal, 1:3] 
X-squared = 233.43, df = 4, p-value < 2.2e-16 


> roundi(res.test.chi2$expected, 1) 
rester.au.foyer trav..à.mi.temps trav..plein.temps 


2 conj. tr. également 43.0 170.0 48.0 
trav. mari + absorbant 91.4 361.5 102.1 
seul le mari trav. 149.6 591.5 167.0 


> roundi(res.test.chi2$residuals"2,2) 
rester.au.foyer trav..à.mi.temps trav..plein.temps 


2 conj. tr. également 20.93 4,62 70.12 
trav. mari + absorbant 41.27 5.98 2.19 
seul le mari trav. 55.88 0.58 31.88 


> round(100fres.test.chi2$residuals"2/res.test.chi2$stat,2) 
rester.au.foyer trav..à.mi.temps trav..plein.temps 


2 conj. tr. également 8.96 1.98 30.04 
trav. mari + absorbant 17.68 2.56 0.94 
seul le mari trav. 23.94 0.45 13.66 
> | 


Ensuite pour les profils lignes nous avons: 
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R RGui (64-bit) - [R Console] — 0 X 
R File Edit View Misc Packages Windows Help |#|x 


[sl 


> dd<-rbind(mydata,apply(mydatal,1:3],2,sum)) 


> dd 

rester.au.foyer trav..à.mi.temps trav..plein.temps 
2 conj. tr. également 13 142 106 
trav. mari + absorbant 30 408 117 
seul le mari trav. 241 573 94 
4 284 1123 317 
> rownames (dd) [4]<-"Profil moyen" 
> dd 

rester.au.foyer trav..à.mi.temps Ba sisin tops 
2 conj. tr. également 13 142 106 
trav. mari + absorbant 30 408 117 
seul le mari trav. 241 573 94 
Profil moyen 284 1123 917 


> round(prop.table(as.matrix (dd) ,margin=1),3) 
rester.au.foyer trav..à.mi.temps trav..plein.temps 


2 conj. tr. également 0.050 0.544 0.406 
trav. mari + absorbant 0.054 0.735 0.211 
seul le mari trav. 0.265 0.631 0.104 
Profil moyen 0.165 0.651 0.184 
>| 

$" 


et les profils colonnes: 


R RGui (64-bit) - [R Console] = ( X 
R File Edit View Misc Packages Windows Help - 5 x 


ST] Bale] | 


> dd<-chind(mydata,apply(mydatal(,1:3],1,sum)) 


> dd 

rester.au.foyer trav..à.mi.temps trav..plein.temps apply(mydatal, 1:3], 1, sum) 
2 conj. tr. également 13 142 106 261 
trav. mari + absorbant 30 408 L47 555 
seul le mari trav. 241 573 94 908 
> colnames (dd) [4]<-"Profil moyen’ R 
> dd 

rester.au.foyer trav..à.mi.temps trav..plein.temps Profil moyen 
2 conj. tr. également 13 142 106 261 
trav. mari + absorbant 30 406 117 555 
seul le mari trav. 241 573 94 908 


> round(prop.table(as.matrix (dd) ,margin=2),3) 
rester.au.foyer trav..à.mi.temps trav..plein.temps Profil moyen 


2 conj. tr. également 0.046 0.126 0.334 0.151 
trav. mari + absorbant 0.106 0.363 0.369 0.322 
seul le mari trav. 0.649 0.510 0.297 0.527 


> | 
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Nous faisons maintenant le plot de l'AFC avec la fonction ca( ) du package FactoMineR: 
R Console OI ES 


> res.ca<-Ci(mydatal[,1:3]) 
> 


CA factor map 


06 


04 


2 con). tr. également 


#rav. plein temps rester.au foyer, 


02 


seul le mari trav. 


Dim 2 (13.71%) 
0.0 


trav. mari + absorbant” 


-02 


-04 


-06 


-06 -04 -0.2 0.0 02 04 0.6 


Dim 1 (86.29%) 


Figure 233 Graph de carte de l'analyse factorielle des correspondances 


On peut masquer les données de colonnes: 
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Sciences.ch 


> plot(res.ca,invisible="col") 
> 


CA factor map 


2 con). tr. également 


& 
x 
SL 
“1 
= 
Q 


. + 
trav. mari + absorbant 


Dim 1 (86.29%) 


ou masquer les données de lignes: 


seul le mari trav.® 
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> plot(res.ca,invisible="row") 
> | 


CA factor map 


06 


04 


aray..plein temps 


02 


rester au foyer 


1 
' 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
+ 


Dim 2 (13.71%) 
0.0 


-0.2 


-04 


PURES. 


-0.6 -04 -0.2 0.0 0.2 04 0.6 


Dim 1 (86.29%) 


Nous pouvons normaliser les données en s'occupant d'abord de l'analyse éliminant les 
colonnes: 
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> ploti(res.ca,invisible="col") 
coord.col=sweep(res.caf$fcol$coord,2,sqrt(res.ca$eig[,1]),FUN="#") 
points(coord.col,pch=17,col="red") 
text (coord.col,rownames (coord.col) ,col="red") 


R 
CA factor map 


2 con). tr. également 


trav..plem temps serrée fenet 


Dim 2 (13.71%) 


Dim 1 (86.29%) 


Idem pour les lignes: 
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re OC ES 
> ploti(res.ca,invisible="row") j) 
> coord.row=swveep(res.caf$row$coord,2,sqrt(ires.ca$eig(,1]),FUN="#") 
> points(coord.row,pch=20,col="bhlue") 
> text (coord.row,rownames (coord.row) ,col="blue") 


> 
PE 
È CA factor map 
. | 
[en) 
T 
(en) 
Eu = &rav..plein temps 
= ” Lt à rester Au foyer 
mn 
— 2 con. tr. également 
NX © 
= trav. mari asbipanet rev 
O LÉ 
trav..à.mi temps 
foN 
nd 
T 
id 


-06 -0.4 -0.2 0.0 0.2 04 0.6 


Dim 1 (86.29%) 


Le tableur des valeurs propres et le graph correspondant sont donnés par: 
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> res.ca$feig 

eigenvalue percentage of variance cumulative percentage of variance 
dim 1 0.11684002 86.292218 86.292218 
dim 2 0.01856045 13.70782 100.00000 


L> barplot(res.ca$eig[,1],main="Valeurs propres",names.arg=1:nrow(res.ca$eig)) 


Valeurs propres 


Le tableau des contributions et celui des qualités de représentations des lignes et des colonnes 
sont obtenus par: 
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R RGui (64-bit) - [R Console] a [ee 
R File Edit View Misc Packages Windows Help A LE: 


> chind(res.ca$row$coord,res.caf$row$contrib,res.ca$row$cos2) 

Dim 1 Dir 2 Dir 1 Dim 2 Dim 1 Dim 2 
2 conj. tr. également -0.5586051 0.23338696 40.43165 44.429144 0.8513830 0.14861696 
trav. mari + absorbant -0.2437595 -0.17220664 16.37145 51.435978 0.6670724 0.33292758 


seul le mari trav. 0.3095622 0.03817256 43.199691 4.134878 o.Ës50220 0.01497797 
> chindi(ires.caf$col$coord,res.caf$col$contrib,res.ca$col$cos2) 

Dir 1 Dim 2 Dir 1 Dim 2 Dim 1 Dim 2 
rester.au.foyer 0.618376453 0.1826620 53.913227013 29.61346 0.919747391 0.08025261 


trav..à.mi.temps -0.003638471 -0.0996542 0.007380551 34.685341 0.001331276 0.99866872 
trav..plein.temps -0.541113279 0.1893869 46.079392436 35.53314 0.890871382 0.10912862 


> | x 


Les imerties des lignes et des colonnes sont obtenus directement tandis que les distances au 
carré doivent être recalculées en utilisant la marge ligne et la marge colonne: 


R RGui {64-bitj - [R Console] = O X 


R File Edit View Misc Packages Windows Help SALE: 


> res.ca$row$inertia 
[1] 0.05548659 0.02867515 0.05123873 
> res.ca$col$inertia 
[1] 0.068488618 0.006477573 0.060434283 
> res.caf$frow$inertia/res.ca$call$marge.row 
2 conj. tr. également trav. mari + absorbant seul le mari trav. 
0.36650914 0.08907380 0.09728587 
> res.caf$col$inertia/res.ca$call$marge.col 
rester.au.foyer trav..à.mi.temps trav..plein.temps 
| 0.415754850 0.009944199 0.326670991 
> 
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Exemple 219.: Analyse factorielle des correspondances 
R 4.0.1 


Ce qui suit est un copie traduite de l'excellent article disponible ici (de Tim Bock): 


https://www.displayr.com/math-correspondence-analysis/ 


On commence par construire la table avec les fréquences observées: 


UR File Edit View Misc Packages Windows Help 5 x 


> N<-matrix(c(S, 18, 19, 12, 3, 7, 46, 29, 40, 7, 2, 20, 39, 49, 16), 
+ nrow = 5, dimames=list ("Level of education" = c("Some primary", "Primary completed", 
+ "Some secondary", "Secondary completed", "Some tertiary"}), 
+ "Category of readership" = c("Glance", "Fairly thorough", "Very thorough"))) 
> N 
Category of readership 


Level of education Glance Fairly thorough Very thorough 
Some primary 5 à 2 | 
Primary completed 18 46 20 | 
Some secondary 19 29 39 | 
Secondary completed 12 40 49 
Some tertiary 3 7 16 

> 

ui 


La première étape de l'analyse des correspondances consiste à additionner toutes les valeurs 
du tableau. Notons ce total n. 


Ensuite, nous calculons le tableau des proportions, P. Ce qui donnera: 


_ EE a 


M RGui (64-bit) - [R Console] — 0 K | 


R File Edit View Misc Packages Windows Help 0 En 


> (n<-sum(N)) 


[1] 312 
> (P<-N/n) 
Category of readership 
Level of education Glance Fairly thorough Very thorough 
Some primary 0.016025641 0.02243590 0.006410256 
Primary completed 0.057692308 0.14743590 0.064102564 
Some secondary 0.060897436 0.09294872 0.125000000 | 
Secondary completed 0.038461538 0.12820513 0.157051282 
‘ou tertiary 0.009615385 0.02243590 0.051282051 
> 
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Dans le langage de l'analyse des correspondances, les sommes des lignes et des colonnes du 
tableau des proportions sont appelées "masses". Ce sont les entrées de nombreux calculs 
différents. Les masses de colonnes dans cet exemple montrent que Glance, Fairly thorough et 
Very thorough décrivent les habitudes de lecture de 18.3 %, 41.3 % et 40.4 % de l'échantillon 
respectivement. Nous pouvons calculer les masses des colonnes en utilisant le code R 

suivant : 


Re 
R File Edit View Misc Packages Windows Help . EX 


> (column.masses <- colSums(P)) 
Glance Fairly thorough Very thorough 
0.1826923 0.4134615 0.4038462 


et respectivement pour les lignes: 


BR File Edit View Misc Packages Windows Help UE: 


> (row.masses<- rowSums (P)) 


Some primary Primary completed Some secondary 

0.04487179 0.26923077 0.27884615 
Secondary completed Some tertiary 
0.32371795 0.08333333 


>| 


En se référant au tableau des proportions d'origine, 1.6 % des personnes ont jeté un coup 
d'oeil (g/anced) et ont fait des études primaires (some primary). Ce nombre est-il grand ou 
petit ? Nous pouvons calculer la valeur que nous nous attendrions à voir en supposant qu'il n'y 
a pas de relation entre l'éducation (education) et le lectorat (readership). La proportion qui 
glanced à un journal est de 18.2 % et 4.5 % n'ont qu'un peu d'enseignement primaire. Ainsi, 
s'il n'y a pas de relation entre l'éducation et le lectorat, nous nous attendrions à ce que 4.5% 
des 18.2% des personnes (c'est-à-dire 0.008 = 0.8%) aient à la fois jeté un coup d'œil et aient 
fait des études primaires. Nous pouvons calculer les proportions attendues de toutes les 
cellules du tableau de la même manière: 
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R RGui (64-bit) - [R Consol — 


R File Edit View Misc Packages Windows Help UE 


> (E<- row.masses $0%$ column.masses) 
Glance Fairly thorough Very thorough 


Some primary 0.008197732 0.01855276 0.01812130 
Primary completed 0.049186391 0:11131657 0.10872781 
Some secondary 0.050943047 0.11529216 0.11261095 
Secondary completed 0.059140779 0.13384492 0.13073225 
Some tertiary 0.015224359 0.03445513 0.03365385 


> | 


Nous calculons les résidus en soustrayant les proportions attendues des proportions observées. 
Les résidus dans l'analyse des correspondances ont un rôle différent de celui qui est typique 
dans les statistiques. En général, en statistique, les résidus quantifient l'étendue de l'erreur 
dans un modèle. Dans l'analyse des correspondances, en revanche, tout l'accent est mis sur 
l'examen des résidus. 


R RGui (64-bit) - [R Console] C 
& File Edit View Misc Packages Windows Help _ EX 
à | A 3 
> (R<-P-E) 
Category of readership 
Level of education Glance Fairly thorough Very thorough 
Some primary 0.007827909 0.003883136 —-0.01171105 
Primary completed 0.008505917 0.036119329 —-0.04462525 
Some secondary 0.009954389 -0.022343442 0.01238905 
Secondary completed -0.020679241 -0.005639793 0.02631903 
Some tertiary -0.005608974 -0.012019231 0.01762821 
> | 


Le plus grand résidu est de -0.045 pour Primary completed et Very thoroug. C'est-à-dire que 
la proportion observée de personnes qui n'ont terminé que l'école primaire et qui sont ont fait 
un lecture très approfondie est de 6.4 %, ce qui est inférieur de 4.5 % à la proportion attendue 
de 10.9 &, qui est calculée en supposant qu'il n'y a aucune relation entre le lectorat des 
journaux et l'éducation. Ainsi, la conclusion provisoire que nous pouvons en tirer est qu'il 
existe une association négative entre le fait d'avoir terminé l'enseignement primaire et la 
lecture très approfondie. C'est-à-dire que les personnes n'ayant fait qu'une éducation primaire 
sont moins susceptibles de lire très attentivement que la personne moyenne. 


Calculons maintenant l'index: 
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R 

& File Edit View Misc Packages Windows Help 5 
> (I<-R/E) | 

Category of readership | 

Level of education Glance Fairly thorough Very thorough 

Some primary 0.9548872 0.20930233 -0.6462585 

Primary completed 0.1729323 0.32447398 -0.4104308 

Some secondary 0.1954023 -0.19379845 0.1100164 

Secondary completed -0.3496613 -0.04213677 0.2013201 

Some tertiary —-0.3684211 -0.34883721 0.5238095 


> | 
FRS 


Les résidus indexés ont une interprétation simple. Plus la valeur du tableau est éloignée, plus 
la proportion observée est grande par rapport à la proportion attendue. 


Nous pouvons maintenant voir une tendance claire. La plus grande valeur sur la table est le 
0.9548882 pour Some primary et Glance. Cela nous indique que les personnes ayant une 
éducation primaire sont presque deux fois plus susceptibles de jeter un œil à un journal que ce 
à quoi nous nous attendrions s'il n'y avait pas de relation entre l'éducation et la lecture. En 
d'autres termes, la valeur observée est supérieure de 95 % à la valeur attendue. 


En lisant cette première ligne, nous voyons qu'il ya un résidu indexé plus faible, mais positif, 
de 0.21 pour Fairly thorough et Some primary? Cela nous indique que les personnes ayant fait 
des études primaires étaient 21% plus susceptibles d'être des lecteurs assez approfondis que 
nous attendrions. Et, un score de -0.65 pour Veru thorough, nous indique que les personnes 
ayant un niveau d'instruction élémentaire étaient 65% moins susceptibles d'être des lecteurs 
très approfondis que prévu. En lisant tous les chiffres sur la table, la tendance générale est que 
des niveaux d'éducation plus élevés équivalent à un lectorat plus approfondi. 


Comme nous le verrons plus loin, l'analyse des correspondances est une technique conçue 
pour visualiser ces valeurs indexées. 


Pour faire un graphique de ce tableau des Index, nous faisons une décomposition en valeur 
singulières (SVD) 
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Exemple 220.: Copulas Gaussiens et Student bivariés 
R 3.1.1 


Nous avons étudié dans le cours théorique les distributions bivariées de la loi Normale et 
mentionné les différentes variantes des distributions de Student. 


Le but ici va être de générer des variables aléatoires Normales bivariées dans un premier 
temps et de calculer ensuite le meilleur ajustement. 


Dans un premier temps nous faisons comme dans le cours théorique en simulant les 
réalisations 10'000 variables aléatoires uniformes qui sont donc l'inverse d'une distribution 
Normale centrée réduite bivariée dont le coefficient de corrélation est -0.5 avec la fonction 
normalCopula() du package copula. 


Voici une première représentation pas forcément très utile (opinion très personnelle): 


R R Graphics: Device 2 (ACTIVE) ba-)|-0.)(55} 


F 


R R Console 


> library(copula) 
> library(scatterplot3d) 
> R<-matrix(ci1,-0.5,-0.5,1) ,nrow=2):R 
[:1] [,2] 
EL;1 4:0 =-0:5 
[2,1] -0.5 1.0 
> normalCopulai-0.5)j 
Normal copula family 
Dimension: 2 NS 
Parameters: 
rho.1 = -0.5 
> RE NE 
> 


Oo + + + + 0.0 
O 2000 4000 6000 6000 10000 


Index 


Et à la page suivante une représentation beaucoup plus intéressante et remarquez que nous 
retrouvons ce que nous avons construit à la main dans le cours théorique avec le tableur 
Microsoft Excel: 
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FR Console N NRC] X | 
> plot (rCopulai(10000,normalCopula(-0.5))j) 
> | 


N 
Q] 
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EL] 
= 
à 
(e] 
© 
pu 
= 
— 
© 
[es 
_ 
© 
(en) 
S 
<S— 
Lu 
= 
à 
(e] 
© 
— 


0.8 


rCopula(10000, normalCopula(-0.5)1[,1] 


Nous pouvons afficher les courbes d'iso-densité: 
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> contour inormalCopula(-0.5),dCopula,delta=0.05) 
> | 


2 
ES 


 — 


Lu ui 


12 : 
7e 


02 04 06 08 


Ensuite, "amusons-nous" à faire de l'ingénierie ifVerse où depuis les points simulés et en 
imposant que nous avons connaissance que c'est un copula Normal centré réduit de dimension 
2 (bivarié) quel est la valeur du coefficient du corrélation estimé à l'aide de la fonction 
fitCopula( ) : 


rGauC<-rCopula(10000,normalCopula(-0.5)) 
norm.cop<-normalCopula(dim=2,dispstr="un") 
norm.fit<-fitCopula(rGauC,copula=norm.cop}) 
norrm.fit 
fitCopulai) estimation based on ‘maximum pseudo-likelihood' 
and a sample of size 10000. 
Estimate Std. Error z value Pri>|zl) 
rho.i -0.495579 0.007593 -65.27 <2e-16 ### 
Signif. codes: O ‘###° 0.001 ‘#*° 0.01 ‘*t° 0.05 *.’ 0.1 * * 1 
The maximized loglikelihood is 1399 
Optimization converged 
Number of loglikelihood evaluations: 
function gradient 
15 3 


> | 
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> contour inormalCopula(-0.5),dadCopula,delta=0.05) 
> | 
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Ou la densité sous forme de perspective 3D: 
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forme de perspective 3D: 


Ou la probabilité cumulée sous 
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Exemple 221.: Reporter les conclusions et analyses 


automatiquement 
R 3.1.1 


Comme nous l'avons mentionné au début de ce chapitre, 1l existe donc un package R qui 
génère automatiquement en anglais le phrases de conclucions et d'analyses des tests 
statistiques et jeux de données. Voyons donc quelques exemples tirés directement de sa 
vignette disponible ici: 


https://easystats.github.io/report/ 


D'abord on l'installe de manière un peu particulière car au jour où nous écrivons ces lignes 1l 
n'est pas disponible sur le serveur CRAN: 


Œ RGui (64-bit) - [R Console] 


R File Edit View Misc Packages Windows Help |5|x 


> install.packages ("remotes") 

Installing package into ‘C:/Users/Vincent Isoz/Documents/R/win-library/4.1” 
(as ‘lib’ is unspecified) 

—-- Please select a CRAN mirror for use in this session --- 


trying URL 'https://cloud.r-project.org/bin/windows/contrib/4.1/remotes 2.4.2.zip' 
Content type 'application/zip' length 399640 bytes (390 KB) 
downloaded 390 KB 


package ‘remotes’ successfully unpacked and MDS sums checked 


The downloaded binary packages are in 
C:\Users\Vincent Isoz\AppData\Local\Temp\RtmpmgFhém\downloaded packages 
> remotes::install github("easystats/report") 
Downloading GitHub repo easystats/report@HEAD 
These packages have more recent versions available. 
It is recommended to update all of them. 
Which would you like to update? 


LS AEE 

2: CRAN packages only 

3: None 

4: insight (0.16.0 -> c6b27f68c...) [GitHub] 
5: parameters (0.16.0 -> 6ae4db050...) [GitHub] 
6: datawizard (0.2.3 -> 0.3.0 ) [CRAN] 


Enter one or more numbers, or an empty line to skip updates: 1 


insight (9.16.0 -> c6b27f68c...) [GitHub] 
parameters (0.16.0 -> 6ae4db050...) [GitHub] 
datawizard (0.2.3 -> 0.3.0 ) [CRAN] 


Installing 1 packages: datawizard 

Installing package into ‘C:/Users/Vincent Isoz/Documents/R/win-library/4.1° 

(as ‘lib’ is unspecified) 

trying URL 'https://cloud.r-project.org/bin/windows/contrib/4.1/datawizard 0.3.0.zip" 
Content type 'application/zip' length 1482257 bytes (1.4 MB) 

downloaded 1.4 MB 


package ‘datawizard’ successfully unpacked and MDS sums checked 


The downloaded binary packages are in 
C:\Users\Vincent Isoz\AppData\Local\Temp\RtmpmgFh6m\downloaded packages 
Downloading GitHub repo easystats/insight@HEAD 
Ÿ checking for file "C:\Users\Vincent Isoz\AppData\Local\Temp\RtmpmgFhém\remotes7ca45a364269\easys$ 
— preparing ‘'insight': (357ms) 
V checking DESCRIPTION meta-information ... 


< > 


Une fois ceci fait, voyons déjà comment il analyse un bête jeu de données: 
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Sciences.ch 


Œ RGui (64-bit) - 


File Edit View Misc Packages Windows Help _|F1x 
> library("report") 
> report(iris) 
The data contains 150 observations of the following 5 variables: 
- Sepal.Length: n = 150, Mean = 5.84, SD = 0.83, Median = 5.80, MAD = 1.04, range: [4.30, 7.90], Ske$ 
- Sepal.Width: n = 150, Mean = 3.06, SD = 0.44, Median = 3.00, MAD = 0.44, range: [2, 4.40], Skewnes$ 
- Petal.Length: n = 150, Mean = 3.76, SD = 1.77, Median = 4.35, MAD = 1.85, range: [1, 6.90], SkewneS 
- Petal.Width: n = 150, Mean = 1.20, SD = 0.76, Median = 1.30, MAD = 1.04, range: [0.10, 2.50], Skew$ 
- Species: 3 levels, namely setosa (n = 50, 33.33%), versicolor (n = 50, 33.33%) and virginica (n = $ 
< > 
Ensuite nous pouvons avoir avec quelques exemples de tests: 
NO 
Ÿ 
N 
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File Edit Code View Plets Sessior Bule Deoug Profile Tcols Halp 
So -%\- (ei # Go to file/functor * Addns 
Console Terminal Jobs Ë 


MR R411 : C/imp/ 
> library("report") 
- report(cor.test(iris$5epal.Length, iris£Sepal.Width) ) 


The Pearsurns proûuc--munent currelal jun between iris $Sepal.Lerglh ant iris$sepal.widuh |s reyal ve, SsLalisLically ut s 
ignificant, and small (r = -0.12, 95% CI [-0.27, C.04], t(148) = -1.44, p = 0.152) 
- report(t.test(mtcars$mpg — mtcars$am)) 


The Wwelchi Twu Sample t-Lest cesling Lhe difference ul mLcars$npy by nicars$an (near in ygruuy O0 = 17,15, mean in group 1 
= 74.239) suggesrs that che effect is negsrive, srarisrically sigrif-cant, and large (difference = -7.24, 95% CT [-11.2 
8, -3.21], t(18.33) - -3,77, p — 0.001; Cohen's d — -1.41, 95% CI [-2.26, -0.53]) 

> report(aov!Sepal.Length — Species, cata = iris) 

For one-way between subjects designs, partial eta squared is equivalent to eta squared. 

Relurniry eL4 syuér el, 

The aNOVA (formilz: Sepal.lengrh - Species) siggesrs that: 


- The main effect of Species is statistically significart and large (F(2, 14/) = 119.726, D < .UUL; Eta2 = U.62, 95% CI 
[0. 54, 1.001) 


> reparr(gimévs = mpg * drar, dat: = mrcars, fam'ly = "hiromial")} 

we fitted a logistic model (estimated using ML) to predict vs with mpc and drat (formula: vs - mpg * drat). The model's 
explanatory power is substantial (Tjur's R2 = 0.51). The model's intercept, corresoonding to mog = 0 and drat = O, is a 

t -33.43 (95% CI [-77.90, 3.25], p — C.083). Within this model: 


- The affect of mpg is srarisrically non-significant and positive (kera = 1.79, 95% CT [-9.10, 4.05], p = 0.066; srd. 
beta — 3.63, 95% CI [1.36, 7.50]) 

- The ettect of drat is statistically non-significant ard positive (beta = 5.96, 95% CI 1-3.75, 15.261. p = 0.205: St 
d. bata - -0.36, 95% CI [-1.96, 0.98]) 

- ihe interaction effect of drat on mpg 15 statiscically nor-sionificant and negative (beta = -0.33, 95% L1 [-0.83, O. 
15], n= 0.141: Std. hera = -1.07, 95% CT [-?.66, 0.48]) 


Standardized parameters were obtaïined by titzing the model on a standard:zed version cf the dataset. 95% Contidence Inte 
rvals (CIS) and p values werc computec using 

> report(1mes : :1mer(sepal.Length - Petal.Length + (1 | species), cata = “r15)) 

we fitted a linear mixed model (estimated using REML and rloptwrap optim'zer) to predict seoal.Length with Petal.Length 
(Fornula: Sepal.Length - Peral.Length}). The model included Species as randon effect (formula: -1 | Spec'es). The mode 
l's total explanatory power is substantial (cond‘tional R2 = C.97) anc the part related to the F'xed effects alone (marg 
inal Rr2) is of 0.66. The model's intercept, corresponding to Prctal.Length = 0, is at 2.50 (25% CI [1.19, 3.82], t(146) - 
3.75, p < .001). wichin this model: 


- The effect of Pezal Lengzh is statistically significant and positive (beta = 0.89, 25% CI [D.76, 1.01], t(146) = 13. 
93, p < .001: Std. beta = 1.89, 95% CI L1.63, 2.161) 


standardized parameters were obtained by ficring the model on a standard'zed version cf the dataset, 95% confidence ince 
rvals (CIs) and p-values were computec using 

> report(1m(sepal.Length — Species, data = iris)) 

we fitted a linear model (eszimated using OLS) to predict Sepal.Length w°th Spec'es (formula: Sepal,Length - Sspacies). T 
he model explains a statistically significant and substantial proportion of variance (R2 = 0.62, r(2, 147) = 119.26, p «< 
.UUL, adj. Ré = U.b1). The model's intercept, corresponding to Spec'es = setosa, i3 at 5.UL (95% CI [4.86, 5.15], t(14 
7) = 68.76, p < 001). Within this mocel: 


- The 2ffect of Species [versicolor] is statistically significart and positive (beta = 0.93, 95% CI [0.73, 1.13], t(14 
7) = 9.03, p < .001; std, bera = 1.12, 95% CI [0.88, 1.371) 

- The effect of Species [virginica] is statrist'cally significant anc posit ve (beta = 1.58, 95% CI [1.38, 1./93], t(14 
7) = 15.37, p < _CO1: std. beta = 1.91, 95% CI [1.66. 2.16]) 


standardized parameters were obtained by ficring the model on a standard-zed version of the dataset, 95% Confidence 1inte 


rvals (CIs) and p-values were computec using the wald approximation. 
1 
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14. Statistiques robustes et non paramétriques 


Nous allons donc voir dans ce chapitre si nous retrouvons les résultats calculés à la main dans 
le cours théorique pour voir si les résultats correspondent aux démonstrations mathématiques 
détaillées et aussi vérifier s'il y a correspondance avec Minitab, SPSS et MS Excel. 


Pour que les choses soient claires, nous ne reviendrons pas dans ce chapitre ni dans celui des 
Statistiques non paramétriques sur le problème de la p-value et de ses utilisations fallacieuses 
que nous avons longuement développement lors des séances théoriques. 


Ce chapitre contient actuellement seulement: 

21 tests non-paramétriques sur un peu plus de 409 connus 
Comme nous le savons sur un total de plus de 800 tests paramétriques et non-paramétriques!!! 
Soit un total à ce jour d'environ 55 tests paramétriques et non paramétriques présentés 


dans ce livre (sans compter les tests relatifs aux méthodes de régressions!) sur un total de 510 
tests paramétriques et non-paramétriques (voir la liste dans le cours théorique). 
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Exemple 222.: M-estimateurs et pseudomédiane (estimateur 


de Hodges-Lehmann) 
R 3.02 


Comme c'est élémentaire et empirique, nous avons déjà traité certains estimateurs robustes et 
M-estimateur à la page 224 


Concernant la pseudomédiane qui est plus robuste que la médiane pour certaines fonctions 
asymétriques, nous avons la fonction HodgesLehmann( ) dans le package DescTools: 


#R l 
Æ File Edit View NN 


library ("DescTools") 
x<-rt(100,df=3) #distribution de student 


Packages Windows Help ._Æ % 


fon fait le calcul 
HodgesLehmann (x) 
1] 0.07261034 


fon le fait "à la main" 

all pairs <- rbind(t(combn(x, 2)),cbind(x,x)) 

all pair means <- (all pairs{,1] + all pairs(,2]) / 2 
median(all pair means) 

1] 0.07262703 


VVmNNNVNYV=mN NN NY NV 


fon compare à la médiane classique 
> median(x) 

[1] 0.05871263 

> | 
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Exemple 223.: Test de Yuen-Welch test 
R 3.6.3 


Nous avons présenté ce test, aussi appelé "test-T de Student des moyennes élaguées à deux 
échantillons avec variances winzorisées", dans le cours théorique, et comme nous l'avons vu 
d'après la lecture de l'article original, il est complétement empirique et construit sur la base de 
simulation de Monte-Carlo. 


Voyons comment l'utiliser en reprenant les donnés du test de Welch qui nous avait donné 
pour rappel: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


Bale] 


> setwd{i"C:/"] 
> mydata<-read.csv{i"Pipelines.csv",header=T,sep=";:") 
> t.test (mydata$fPipelinel,mydata$Pipeline2,var.equal=F) 


Welch Two Sample t-test 


data: mydat M Pipelinel and mydataf$Pipelinez 


1.2398, df = 34.797, p-value = 0.2233 
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval: 
—-3.423986 14.160828 
sample estimates: 
mean Of x mean Of y 
160.3684 155.0000 


> | 


Comparons avec le test de Yuen-Welch: 
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R RGui (64-bit) - [R Console — O < | 
| 


4 File Edit View Misc Packages Windows Help EN -JN 


> library("PairedData") 
> mydata<-read.csv("c:/tmp/Pipelines.csv",header=T,sep=";") 
> yuen.t.test (mydata$Pipelinel,mydata$Pipeline2,paired=FALSE, trim=0.2) 


Two-sample Yuen test, trim=0.2 


data: x and y 
t = 0.69638, df = 23.652, p-value = 0.493 
alternative hypothesis: true difference in trimmed means is not equal to 0 | 
95 percent confidence interval: 
—5.898164 11.898164 
sample estimates: 
trimmed mean of x trimmed mean of y 
159 156 


> | 


Donc cela ne change pas la conclusion. 


On peut aussi faire un test à un seul échantillon. Rappelons le test-T de Student à 1 
échantillons que nous avions fait: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> Mesures<-ci(i15.0809,15.0873,14.9679,15.0423,15.1029, 

+ 14.9903,15.1299;:15.0414,15.0551,15.0559,15.0793,15.0753,15.0483, 
+ 15.0515,15.0962,15.0654,14.9759,15.0507) 

> t.test (Mesures,mu=15,conf.level=0.95,alternative="tuwuo.sided") 


One Sample t-test D 


data: Mesures 
5.1991, df = 17, p-value = 7.24e-05 

alternative hypothesis: true mean is not equal to 15 
95 percent confidence interval: 

15.031911 15.075485 
sample estimates: 
mean Of x 

15.005369 


> | 


Et comparaison avec la version de Yuen-Welch: 
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GR RGui (64-bit) - [R Cr ] 
ŒR File Edit View Misc Packages Windows Help - sx 


| > library("PairedData") 

> Mesures<-c(15.0809,15.0873,14.9679,15.0423,15.1029, 

+ 14.9803,15.1299,15.0414,15.0351,15.0559,15.0793,15.0753,15.0483, 

+ 15.0515,15.0962,15.0654,14.9759,15.0507) 

> yuen.t.test (Mesures,mu=15,tr=0.2,alternative-"two.sided",conf.level=0.95) 
One sample Yuen test, trim=0.2 

data: x 


t = 7.2024, df = 11, p-value = 1.747e-05 
alternative hypothesis: true trimmed means is not equal to 15 | 
95 percent confidence interval: 
15.04128 15.07762 
sample estimates: 
trimmed mean of x 
15.05945 


> | 


| 


Encore une fois nous voyons que cela ne change pas la conclusion. 
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Exemple 224.: Test d'ajustement de Kolmogorov-Smirnov 
R 3.02 


Cas à 1 échantillon 


Nous souhaitons ici simplement vérifier que nous obtenons les mêmes résultats que ceux 
obtenus dans Microsoft Excel avec la méthode Monte Carlo (et in extenso vérifier les résultats 
obtenus lors de l'étude théorique du test de Kolmogorov-Smirnov) et Minitab. 


En utilisant la commande Kks.test(}) et avec les mêmes données brutes que dans le cours 
théorique, nous avons pour le test de Kolmogorov-Smirnov dans le cas particulier d'un test de 
Normalité: 


R Fichier Edition Voir Misc Packages Fenétres Aide 


> Mesures<-c(-1.2,0.2,-0.6,0.8,-1) 
> Kks.test (Mesures, "pnorm') 


One-sample Kolmogorov-Smirnov test 
data: Mesures 


D = 0.3257, p-value = 0.5624 
alternative hypothesis: twuo-sided 


> | 


Donc ici nous voyons un énorme avantage par rapport à Minitab déjà: nous pouvons choisir la 
distribution selon nos désirs!! 


Nous n'avons pas la même valeur de D que Minitab (qui était 0.212) par contre elle 
correspond à celle calculée dans le cours théorique à la main (idem pour la p-value). En réalité 
avec R il y a un petit piège pour retomber sur ce que fait Minitab, il faut écrire (dès lors cela 
équivaut à la variante dite pour rappel de "test d'ajustement de Lilliefor"): 
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R Fichier Edition Voir Misc Packages Fenêtres Aide 


> Mesures<-ci-1,2,0.2,-0.6,0.8,-1) 
> ks.test (Mesures, "pnorm'",mean (Mesures) ,sd(Mesures)) 


One-sample Kolmogorov-Smirnovy test 


data: Mesures 
0.213232, p-value = 0.947868 
alternative hypothesis: two-sided 


Message d'avis : 
In ks.test (Mesures, "“pnorm'", mean(Mesures), sd(Mesures)) : 

aucun ex-aequo ne devrait étre présent pouls le test de Kolmogorov-Smirnov 
> | 


et là tout est bon! 


Nous pouvons faire une double vérification en utilisant le test de Lilliefor explicitement via le 
package nortest et la commande lillie.test( ) : 


I RGu Gr bE 


KR Fichier Edition Voir Misc Packages Fenêtres Aide 


> library(nortest) 
> Mesures<-ci-1.2,0.2,-0.6,0.8,-1) 
> lillie.test (Mesures) 


Lilliefors (Kolmogorov-Smirnov) normality test 


data: Mesures 
= 0.2123, p-value = 0.6471 


Bien que la valeur D soit la même, la p-value est très différente! Il faudrait investiguer pour 
savoir d'où vient cette différence. Peut-être dans la manière de calculer l'écart-type??? A 
suivre... 


Pour ceux qui veulent jouer dynamiquement avec des ajustements basés sur des multiples 
distributions (parfois utile lors de réunions clients), il existe le package fitur et sa fonction 
fit_dist_addin(): 
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R File Edit View Misc Packages Windows Help (EUX 


E 


> library("fitur") 

> mydata<-read.csv("c:/tmp/VentesClean.csv",header=T,sep=",") 
> x<-as.double (mydata$Quantite) 

> fit dist_ addin() 


Listening on http://127.0.0.1:5234 
$start.arg 

$Sstart.arg$mean 

[1] 8.110092 


$start.arg$sd 
[1] 6.285763 
$fix.arg 


NULL 


Warning in ks.test(x, distfun{[2]], ...) : 
ties should not be present for the Kolmogorov-Smirnov test 


Ce qui donnera: 


(e O B: Üü & Ÿ In © ® % 
OC Sciences.ch [] Scientific-Evolution.co. B} Google Traduction Azure Log-In (@]) Instagram Qlock C++ Tutorial jQuery Tutorial » other 
Cancel Fit Distributions 
Distributions Data No. of Bins 
Normal Cauchy Weiïbull Uniform x v 30 
Density Plot 
distribution : = sad | … adp Le cvp 0.20 
statistic value statistic value statistic value 
1 norm 019 0.00 5.30 0.00 0.88 0.00 
2  cauchy 018 0.00 479 0.00 0.70 001 distribution 
E, 
3 weibull 0.11 0.17 1.42 0.20 021 0.25 5 
$ 
4 unif 0.50 0.00 0.00 10.84 000 
Showing 1 to 4 of 4 entries 
01 
0 : à 
PP-Plot QQ-Plot 
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distribution distribution 
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Éo e prom À e _qrom 
3 © punif 5 © qunif 
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. 
. . 
theoretical | _ _ theoretical 
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Cas à 2 échantillons 


Nous avons mentionné dans le cours théorique l'extension triviale de pouvoir généraliser le 
test de Kolmogorov-Smirnov à deux échantillons empiriques. Voyons si R propose cela (nous 
n'avais pas fait de calcul à la main). Considérons le jeu de données suivant: 


Fichier Edition Format 
Affichage  ? 
Pipelinel ;Pipeline2 
163,167 
150:157 
171,149 
155,145 
136,135 
145,157 
154,135 
173,167 
152,154 
150;165 
143:170 
138:165 
166,154 
193;176 
158:155 
175,157 
167,134 
150;,156 
158,147 


Nous souhaitons savoir si leur distribution sont significativement différentes: 
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Gui (64- Dit) - [ 
Edition Voir Misc Packages Fenêtres Aide 


> mydata<-read.csv{("C:/tmp/Pipelines.csv",header=T,sep=";") 
> ks.test (mydataf$Pipelinel,mydata$Pipelinez) 


Two-sample Kolmogorov-Smirnoy test 


data: mydata$Pipelinel and mydata$Pipelinez 


0.2105, p-value = 0.7937 
alternative hypothesis: twuo-sided 


Message d'avis : 
In ks.test (mydata$Pipelinel, mydataf$Pipelinez) : 

impossible de calculer la p-value exacte avec ex-aequos 
> | 


Il semblerait donc que non! 
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Exemple 225.: Meilleur ajustement au sens de la maximisation 


de la log-vraisemblance 
R 3.02 


Cela n'a rien à voir avec du non-paramétrique mais 1l nous semble que c'est le bon moment 
pour donner l'information. 


Dans le package MASS il y a une commande fitdistr() et qui va chercher avec les 
techniques classiques d'optimisation non linéaire à maximiser la log-vraisemblance. Voyons 
cela avec les quantités de notre fichier des ventes d'articles en utilisant un script qui exécutera 
les optimisations de plusieurs distributions d'un seul coup: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 
ROIS SIOIE 


library(MA55) 

mydata<-read.csv("C:/VentesClean.csv",header=T,sep=";"] 

x<-mydatafQuantite 

distributions=c{("normal",'"exponential","negative binomial”,'"gamma","exponential") 
for (dist in distributions){ 

print pastel"fitting parameters for ",dist)j) R 
params=fitdistr(x,dist) 


print (params) 
print (params$loglik) 


ER A ON NN 


"£itting parameters for normal" 
mean sd 

«1100917 6.2857629 

-6020669) (0.4257256) 

-355.0376 

"fitting parameters for exponential" 
rate 

-1233032 

-0118103) 

-337.1489 

"fitting parameters for negative binomial" 
sise ruu 

. 6509137 8.1100903 

-4612122) (0.5495764) 

—-327.83688 

"fitting parameters for 
shape rate 

-01390399 0.24831066 

.25344963) (0.03545991) 

-324.2914 

"fitting parameters for exponential" 
rate 

.-1233032 

-0115103) 

-337.1489 


Ou quand on doit manipuler des fonctions moins évidentes, 1l faudra spécifier certaines de 
leurs paramètres: 
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GR RGui (64-bit) - [R Console] — 


R File Edit View Misc Packages Windows Help FX 


> fitdistr(mydata$Asymétrie, dchisq, list(df = l1),lower=0.001) 
df 
5.3777595 
(0.2668406) 
> | 


Sinon, il y a aussi la fonction fitdist() du package fitdistrplus qui permet d'avoir rapidement 
un visuel sur l'ajustement: 


MR RGui (64-bit) - [R Console] — 
OR File Edit View Misc Packages Windows Help -_ x 


EC] 


library("fitdistrplus") 

fw <- fitdist (mydata$Quantité, "weibull") 

fg <- fitdist (mydata$Quantité, "gamma") 

fin <- fitdist (mydata$Quantité, "lnorm") 

par (mfrow = c(2, 2)) 

plot.legend <- c("Weibull", "lognormal", "gamma") 
denscomp(list(£fw, fln, fg), legendtext = plot.legend) 
qgcomp(list(fw, fln, fg), legendtext = plot.legend) 
cdfcomp{(list(fw, fln, fg), legendtext = plot.legend) 
ppcomp(list(fw, fln, fg), legendtext = plot.legend) 


VVNNVNNVNVNNVNNNNNV OV 


Ce qui donne: 
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Sciences.ch 


CE 64-bit) - [R Graphics: Device 2 (ACTIVE)] 
GR File History Resize Windows 


SET 


Histogram and theoretical densities 
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Figure 234 Graph de diagnostique d'ajustements multiples de fonctions de distributions 
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Exemple 226.: Test d'ajustement (indépendance) du khi-2 
R 3.0.2 


Là encore nous allons vérifier la conformité des résultats avec toujours les mêmes logiciels et 
les calculs effectués à la main suite à la démonstration mathématique faite dans le cours 
théorique. 


Nous utilisons donc la commande chisq.test( ) : 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> M <= c(120,130,125, 120,600, 70,751 
> chisq.test (M) 


Chi-squared test for given probabilities 


data: M 
X-squared = 43.486808, df = 6, p-value = 9.369e-08 


> as.table(chisq.test (M) $expected) 
À E È D E F G 

104 104 104 104 104 104 104 
> chisq.test (M) $statistic 
X-squared 

43.468077 
> chisq.test (M) $method 

[1] "Chi-squared test for given probabilities" 
> 


4 


Nous obtenons donc la même chose que les calculs effectués avec Minitab, Microsoft Excel et 
à la main. 


De même si nous spécifions le vecteur des attendus (c'est pas intuitif dans R le fait qu'il faille 
écrire ainsi dans ce cas particulier): 
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HR RGui (64-bit) - [R Console] — L 


R File Edit View Misc Packages Windows Help ex 


> O<-c(120,130,125,128,80,70,75) 
> E<-c(104,104,104,104,104,104,104) 
> chisq.test (0,p=E/sum(E)) 


Chi-squared test for given probabilities 


data: O 
[l 
East = 43.48076923077, df = 6, p-value = 9.3686185524l1e-08 


| | 
> 

| > #on retrouve bien la p-valeur à la main 

| > 1-pchisq(sum((O-E)"2/E),6) 
9.36861854761162e-08 
> | 


Notons que si nous faisons le calcul ainsi: 


C RGui (64-bit) - [R Console] 


AR File Edit View Misc Packages Windows Help - 5x 


> M <- as.table(rbind(c(120,130,125,128,80,70,75), c(104,104,104,104,104,104,104))) 
> dimnames(M) <- list(type = c("Observé", "Attendu"), 
+ jour = c("Lundi","Mardi",'"Mercredi","Jeudi","Vendredi","Samedi","Dimanche")) 
> M 
jour 

type Lundi Mardi Mercredi Jeudi Vendredi Samedi Dimanche 

Observé 120 130 125 128 80 70 75 

Attendu 104 104 104 104 104 104 104 
> Xsq <- chisq.test (M) 
> Xsq 


Pearson's Chi-squared test 


data: M 
X-squared = 22.91270581045, df = 6, p-value = 0.000826249061073 


>| 


Même si la conclusion reste la même dans ce cas particulier le résultat diffère 
significativement. La raison est que ce ne sont pas les mêmes tests qui sont effectués! 


Le premier effectue un test du ch1-2 à un facteur, l'autre effectue un test du chi-deux des 
correspondances de facteurs (C2CFA) comme nous allons le voir de suite au prochain 
exemple! 
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Exemple 227.: Test d'indépendance du Khi-deux d'une table 


de contingence (C2CFA) 
R 3.0.2 


Là encore nous allons vérifier la conformité des résultats avec toujours les mêmes logiciels et 
les calculs effectués à la main suite à la démonstration mathématique faite dans le cours 
théorique. 


Nous utilisons donc toujours la commande chisq.test( ) : 


l& 


R Fichier | Edition | Voir Misc Packages Fenêtres Aide 
FEES E 


> M<-as.table(rbindic(106500,3380,1470), c(101700,10000,0) ,c(45200,4350, 50) )) 
> dimnames (M)<-list (forét=ci"a","O","S") ,arbres=c{"Feuillus","Résineux","Mixtes")) 
> (Xsq <- chisq.test(M)) 


Pearson's Chi-squared test 


data: M 
X-squared = 5599.822, df = 4, p-value < 2.2e-16 


> Xsq$observed 
arbres 
forêt Feuillus Résineux Mixtes 
À 106500 33680 1470 
[e) 101700 10000 [a] 
5 45200 4350 50 
> Xsq$expected 
arbres 
forêt Feuillus Résineux Mixtes 
1 103488.32 7240.915 620.7666 
© 103813.61 7263.675 622.7178 
S 46098.07 3225.410 276.5157 


> | 


Les résultats sont donc conformes à la différence que la p-value est extrêmement précise dans 
R... 


S1 nous faisons de même avec les valeurs attendues du précédent exemple, tout s'explique 
pour le coup: 
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RGui (64-bit} - [R 


R File Edit View Misc 


> M 
type 


Packages 


ÉROISEOSIEIE 


jour Observé Attendu 


Lundi 104 
Mardi 104 
Mercredi 104 
Jeudi 104 
Vendredi 104 
Samedi 104 
Dimanche 104 


120 
130 
125 
128 
80 
70 
75 


(Xsqg<-chisq.test (M)) 


Pearson's Chi-squared test 


data: M 


X-squared = 22.91270581045, 


> Xsqg$expected 
type 


jour Observé Attendu 


Lundi 112.0 
Mardi 127:0 
Mercredi 114.5 
Jeudi 116.0 
Vendredi 92.0 
Samedi 87.0 
Dimanche 89.5 


R Statistical Software 


112.0 
117.0 
114.5 
116.0 
92.0 
87.0 
89.5 


df = 6, p-value 0.000826249061073 


Sciences.ch 


1461/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Exemple 228.: Test exact de Fisher 
R 3.0.2 


Même si nous l'avons vu précédemment, nous allons toutefois refaire l'exemple vu dans le 
cours théorique et que nous avions contrôlé à la main avec Microsoft Excel et Minitab. 


Nous prenons les données suivantes (les mêmes que dans le cours théorique) avec la 
commande fisher.test( ) : 


D TMesuresDAssoc! 


Fichier Edition Format Affichage 2 


Délais;Statut;Projets 

Délais respectés;CP certifié:8 

Délais respectés;CP non certifié; 
Délais non respectés;CP certifié;4 
Délais non respectés;CP non certifié;s 


QC 
Nous avons alors: D 


R Fichier Edition Vüir Misc Packages Fenêtres Aide 


setwd({"C:/") 
mydata<-read.csv("MesuresDissociation.csv",header=T,sep=";") 
libraryived) #pour restructurer les données 
mydata<-as.matrix(xtabs(Projets-Délais+Statut,mydata)) 
fisher.test (mydata) 


Fisher's Exact Test for Count Data 


data: mydata 
p-value = 0.1312 
alternative hypothesis: true odds ratio is not equal to 1 
95 percent confidence interval: 
0.001892491 1.526724791 
sample estimates: 
odds ratio 
0.115058 


> | 


Nous nous retrouvons avec la même p-value que dans Minitab et Microsoft Excel à la 
différence que les autres informations n'étaient pas données par Minitab. 
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Le test exact de Fisher peut bien évidemment être utilisé en machine learning pour mesurer la 
performance de classification binaire! 


Sinon avec le package gmodels et la fonction CrossTable( ), nous avons avec le jeu de 
données suivant: 


R RGui (64-bit) - [R Console [=] 


R File Edit View Misc Packages Windows Help | aix 


> mydata<-read.csv("c:/tmp/Khi2 Fisher McNemar.csv",header=T, sep=",",encoding="UTF-8") 
| > mydata 


| Délais Status 
| Délais respectés CP certifié | 
2 Délais respectés CP certifié 
| 3 Délais respectés CP certifié 
4 Délais respectés CP certifié 
5 Délais respectés CP certifié 
6 Délais respectés CP certifié 
Fi Délais respectés CP certifié 
8 Délais respectés CP certifié 
9 Délais respectés CP non certifié 
| 10 Délais non respectés CP certifié 
11 Délais non respectés CP certifié 
| 12 Délais non respectés CP certifié 
| 13 Délais non respectés CP certifié 


14 Délais non respectés CP non certifié 
15 Délais non respectés CP non certifié 
16 Délais non respectés CP non certifié 
17 Délais non respectés CP non certifié 
18 Délais non respectés CP non certifié 


Le résultat statistique suivant: 
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R RGui (64-bit) - [R Console] EL 


ŒR File Edit View Misc Packages Windows Help pe: 


SIA 


> CrossTable (mydataS$Délais,mydataS$Status, fisher=TRUE) 


Cell Contents 
I I 
| Chi-square contribution | 
| N / Row Total | 
I N / Col Total | 
| N / Table Total | 


Total Observations in Table: 18 


| mydata$Status 

mydataS$Délais | CP certifié | CP non certifié | Row Total | 
SPSPSERSSASRRRSSNERTSS Jensen he] 
Délais non respectés | 4 | 5 | 9 | 
I 0.667 | 1:333 | | 
I 0.444 ! 0.556 I 0.500 | 
Ï 0.333 | 0.833 | | 
(| 0.222 | 0.278 | | 
= —— IEEE le | 
Délais respectés | 8 | 1 | 9 | 
| 0.667 | 15335. | | 
| 0.889 ] 0.111 | 0.500 | 
(| 0.667 | 0.167 | | 
| 0.444 | 0.056 | I 
SR ee ee nn | 
Column Total | 12 | 6 | 18 | 
| 0.667 | 0.333 | | 

I | 


Sample estimate odds ratio: 0.115058 


Alternative hypothesis: true odds ratio is not equal to 1 
p = 0.1312217 
95% confidence interval: 0.001892491 1.526725 


Alternative hypothesis: true odds ratio is less than 1 
p = 0.06561086 
95% confidence interval: 0 1.1359 


Alternative hypothesis: true odds ratio is greater than 1 
p = 0.9954751 
95 confidence interval: 0.003839206 Inf 


On peut avoir un format SPSS aussi. : 
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R RGui (64-bit) - [R Console] . { 


| R File Edit View Misc Packages Windows Help si IE 
E 


> CrossTable (mydataS$Délais,mydataS$Status, fisher=TRUE, format="SPpss") 


Cell Contents 


| Count 
| Chi-square contribution 
| Row Percent 
l Column Percent 
| Total Percent 


Total Observations in Table: 18 
| | mydata$Status 
mydataS$Délais | CP certifié | CP non certifié || Row Total | 
SSSR SSSSSeeee ES Se 
| Délais non respectés | 4 | 5 | CS | 
I 0.667 | 1:333. | | 
I 44.444% | 55.556% | 50.000$ | 
(| 33.:333$ | 83.333% | I 
(| 22.222% | 27.-718% | I 
SR a ne Sn 
Délais respectés | 8 | 2 | 9 
| 0.667 l 1.333 | | 
| 88.889$ | 11-1115 | 50.000% | 
Ï 66.667% | 16.667% | ( 
I 44.444% | 5.556% | | 
RS RAS RE À ns 
Column Total | 12 | 6 | 18 | 
I 66.667% | 33.333% | I 
I Ï 


Fisher's Exact Test for Count Data 


Sample estimate odds ratio: 0.115058 


Alternative hypothesis: true odds ratio is not equal to 1 
p = 0.1312217 
95% confidence interval: 0.001892491 1.526725 


Alternative hypothesis: true odds ratio is less than 1 
p = 0.06561086 
95% confidence interval: 0 1.1359 


| Alternative hypothesis: true odds ratio is greater than 1 
p = 0.9954751 
95$ confidence interval: 0.003839206 Inf 


On peut aussi exécuter trois tests en même temps, ce qui donne d'abord la première partie 
classique: 
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R RGui (64-bit) - [R Console] _— {æ 
GR File Edit View Misc Packages Windows Help mx 


SI 


> CrossTable (mydataSDélais,mydata$Status, fisher=TRUE,mcnemar=TRUE, chisq=TRUE) 
Cell Contents 

Ï | 

| Chi-square contribution | 

I N / Row Total | 

| N / Col Total | 

| N / Table Total | 


Total Observations in Table: 18 


| mydataS$Status 

mydata$Délais | CP certifié | CP non certifié | Row Total | 
RSR SSSR SSSR SES Ses TS | 
Délais non respectés | 4 | 0 | CS 
| 0.667 | 159939 | I 
| 0.444 ! 0:556 |! 0.500 | 
| G:333: | 0.833 | I 
| 0.222 | 0:276 | | 
SSSR === | 
Délais respectés | 8 | L CE 

| 0.667 | 1.333 | 
| 0.889 | O=11ZL, | 0.500 | 
| 0.667 | 0.167 | | 

| 0.444 | 0.056 | 
SSSR SSSS ESS = | 
Column Total | 42 | 6 | 18 | 

| 0.667 | 0.333 | 

| I | 


Et enfin la partie spécifique d'intérêt! 
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UR FGui (64-bit) - [R Co 
OR File Edit View Misc Packages Windows Help hf : 


ÉROBE|OIE) 


Statistics for All Table Factors 


Pearson's Chi-squared test 
Chi”2 = 4 dE. = p = 0.04550026 


pearson's Chi-squared test with Yates' continuity correction 


Chi*2 = 0.6923077 def = À p = 0.405380€ 


Chi*2 = 0.3076923 AE, = TZ pH — 4.95799997 


Fisher's Exact Test for Count Data 
Sample estimate odds ratio: 0.115058 


Alternative hypothesis: true odds ratio is not equal to 1 
p = 0-1312217 
95% confidence interval: 0.001892461 1.526725 


Alternative hypothesis: true odds ratio is less =han 1 
p = 0.06561086 
95% confidence interval: 0 1.1359 


Alternative hypothesis: true odds ratio is greater than 1 
p = 0.9954751 
95% confidence interval: 0.003839206 Inf 


Warning messages: 

1: In chisq.-test(t, correct = TRUE, ...) : 
Chi-squared approximation may be incorrecz 

2: In chisq.test(t, correct = FALSE, ...) : 
Pr approximation may be incorrecz 

> 
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Exemple 229.: Test de McNemar 
R 3.02 


Nous allons ici encore une fois recalculer l'exemple vu dans le cours théorique et que nous 
avions contrôlé à la main avec Microsoft Excel et Minitab. 


Nous utilisons alors la commande native mcnemar.test() de R: 


R Fichier Edition Voir Misc Packages Fenétres Aide 


> Performance<-matrix(c(S5, 25, 38, 82) ,nrow = 2, 
+ dimnames = list("ist Survey" = c(i"Approve", "Disapprove"), 
+ "2nd Survey" = c("ipprove", "Disapprove"))) 
> Performance 
2nd Survey 

ist Survey ipprove Disapprove 

ipprove 55 38 

Disapprove 25 82 
> moenemar.test (Performance) 


McNemar's Chi-squared test with continuity correction 


data: Performance 
McNemar's chi-squared = 2.2857, df = 1, p-value = 0.1306 


> | 


Nous pouvons faire quelques graphes dont je ne suis vraiment, mais alors vraiment pas un 
fan! 


Comme le four fold avec la fonction fourfoldplot( ) qui est assez curieusement dans le 
package de base graphics de R: 
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MR Console 


> fourfoldplot (Performance) 
> 


MR Graphics: Device 2 (ACTIVE) 


1st Survey: Approve 
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2nd Survey: Disapprove 


1st Survey: Disapprove 


Figure 235 Graph four-fold 


ou le plot d'agrément avec la fonction agreementplot() du package vd: 
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> library(vcd) 
> agreementplot (Performance) 


Disa 


>» 
(ob) 
as 
| 
(ep) 
+— 
n 
— 


rove 


Approve Disapprove 


2nd Survey 


Figure 236 Graph d'agrément 


On peut utiliser ces deux graphiques dans le cadre des matrices de confusion en Machine 
Learning bien évidemment! 
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Exemple 230.: Test d'ajustement du khi-deux avec correction 


de Yates 
R 3.0.2 


Bon nous n'allons nous pas nous étendre sur cette technique empirique qui est sujet à débat et 
que de plus nous n'avons pas validé avec les techniques de Monte-Carlo dans le cours 
théorique et qui n'est pas disponible dans Minitab. 


Rappelons que cette technique ne serait approximativement valable que pour des tableaux de 
contingences 2x2 dont certaines observations sont inférieures aux 5 unités et l'ensemble des 
observations inférieures à 20 unités (d'après les tests qui auraient été faits par plusieurs 
personnes de la communauté des praticiens de la statistique). 


Pour cet exemple nous allons reprendre la petite table utilisée pour le test de Fisher. 
Évidemment c'est erroné de la faire puisque les différentes cases de ce tableau de contingence 
sont dépendantes entre elles. Mais bon... c'est juste pour montrer que R va voir qu'il y aun 
faible nombre d'observations et va donc in extenso appliquer la correction de Yates. 


Nous utilisons donc à nouveau la commande chisq.test( ) : 


7: RGui (64-bit) - [R Ce 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


mydata<-read.csv("MesuresDassociation.csv",header=T,sep=";") 
libraryivcd) 

mydata<-as.matrix (xtabs(Projets-Statut+Délais,mydata)) 
mydata 


”- 


Délais 
Statut Délais non respectés Délais respectés 


CP certifié 4 8 
CP non D 5 1 


> chisq.test (mydata) 
Pearson's Chi-squared test with Yates' continuity correction 


data: mydata 
X-squared = 2.25, df = 1, p-value = 0.1336 


Message d'avis : 
In chisq.test (mydata) : l'approximation du Chi-2 est peut-être incorrecte 
Ls | 


« 


Nous pouvons forcer l'interdiction d'utiliser la correction de Yates: 
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PE AN 
: IX 5 


[R Fichier Edition Voir [Misc Packages Fenêtres 


> chisq.test (mydata,correct="F) 


Pearson's Chi-squared test 


data: mydata 
X-squared = 4, df = 1, p-value = 0.0455 


Message d'avis 
In chisq.test (mydata, correct = F) 

l'approximation du Chi-2 est peut-être incorrecte 
> | 
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Exemple 231.: G-Test d'ajustement sans correction de Yates 
R 3.43 


Le but ici est de vérifier que le test dont nous avons démontré l'origine mathématique dans le 
cours théorique existe dans R. 


Pour exécuter ce test nous allons utiliser la fonction GTest() du package DescTools: 


R RGui (64- 
8 File Edit View Mis SG Windows Help = E X 


|> observed = c(70, 79, 3, 4) 

> expected = c(0.54, 0.40, 0.05, 0.01) 

> sum(expected) 

[1] 1 

|> library (DescTools) 

[> GTest (x=observed,p=expected, correct="none") 


| Log likelihood ratio (G-test) goodness of fit test 


data: observed 


G = 13.145, X-squared df = 3, p-value = 0.004334 
| 


|> 
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Exemple 232.: Coefficient de corrélation de Spearmann 
R 3.2.1 


Le lecteur pourra se référer pour ce dernier à la page 1576. 
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Exemple 233.: Mesures d'associations 


Coefficient de corrélation de concordances des rangs de Kendall-tau 
R 3.0.2 


Nous avons donc deux experts qui ont notés des vins. Les notes sont rangées dans l'ordre 
croissant des notes et selon le numéro d'étiquette d'identifiant du vin (bref le même exemple 
que nous avons utilisé après avoir fait les démonstrations mathématiques de cet indicateur 
dans le cours théorique). 


Nous avons alors en utilisant la commande cor() avec le paramètre kendall: 


KR Fichier Edition Voir Misc Packages Fenêtres Aide 


> Experti<-c(1,2,3,4,5,6,7,8,9,10,11) 
> Expert2<-c(1,3,4,5,7,8,2,9,10,6,11) 


> cor (Experti,Expert2,method="kendall") 
[1] 0.6727273 
> 


Le résultat est juste mais c'est dommage qu'il n'y ait pas d'intervalle de confiance ni de p- 
value. Pour cela nous utilisons la fonction native: 


R Statistical Software 1475/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


R RGuï (64-bit) - [R Console] — O X 
KR File Edit View Misc Packages Windows Help _ FX 


> Expertil<-c{1,2,3,4,5,6,7,8,9,10,11) 
> Expert2<-c{1,3,4,5,7,8,2,9,10,6,11) 
> cor.test (Expertl,Expert2,method="kendall") 


Kendall's rank correlation tau 


data: Expertil and Expert2 
T = 46, p-value = 0.003106 
alternative hypothesis: true tau is not equal to 0 
sample estimates: 
tau 
0.6727273 R 


> | 


ou avec la commande Kendall() du package Kçñdall: 
N] 


FR Fichier Edition Voir Misc Packages Fenêtres Aide 


library(Kendall) 
Experti<-ci1,2,3,4,5,6,7,8,9,10,11) 


Expert2<-0i1,3,4,5,7,6,2,9,10,6,11) 
summary (Kendall(iExperti,Expertz)j) 
Score = 37 , Var(Score) = 165 
denominator = 55 

tau = 0.673, 2-sided pvalue =0.0050693 


> 
> 
> 
> 


> | 


È 


Par contre pour la p-value nous sommes loin du compte (même si la conclusion reste la 
même...). 


Vérifions avec un autre exemple: 
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R RGui (64-bit) - [R Console] _ O 
GR File Edit View Misc Packages Windows Help ex 


EE 


> taux de lipide<-c(13,14,15,16,17,18,19,20,21,22) 
> preference gouteurs<-c(10,7,9,8,5,6,4,3,1,2) 
> cor.test (taux de lipide,preference,method="kendall") 


Kendall's rank correlation tau 


data: taux de lipide and preference 
| T = 4, p-value = 0.0003577 
alternative hypothesis: true tau is not equal to 0 
sample estimates: 
tau 
—0.8222222 


| > 

> #nous pouvons être certains que plus le taux de lipides du produit est élevé, 

> #du moins dans la fourchette testée par les goûteurs, plus ce produit est apprécié. 
IS 


Nous obtenons donc bien le même résultat qu'avec le logiciel XLStat. 


Sinon pour refaire l'exemple que nous avons fait à la main dans le cours théorique: 


R RGui (64-bit) - [R Console] = (m! 
| R File Edit View Misc Packages Windows Help = mix 


OISGESIOE 


{> Rangsi<-c(1,3,2,4) 
> Rangs2<-c(1,4,2,3) 
> cor.test (Rangsi,Rangs2,method="kendall") 


Kendall's rank correlation tau 


data: Rangsi and Rangs2 

T = 5, p-value = 0.3333 

alternative hypothesis: true tau is not equal to 0 
sample estimates: 

| tau 

10.6666667 


> | 
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Kappa de Cohen 
R 3.0.2 


Encore une fois, le but est d'appliquer les calculs et démonstrations faits à la main pendant le 
cours théorique de méthodes numériques et de vérifier que nous retrouvons les mêmes valeurs 
avec R (et comparer par la même occasion avec Minitab). 


Nous utilisons les mêmes données que dans le cours théorique: 


Fichier Edition Format Affichage 


Alice;Bob 
0;,0 


hHOOHhHhOhOCGH 
ESS OPFOCGORHE 


museum us 


Et nous utilisons la commande kappa2() du package irr: 


R Fichier Edition Voir Misc Packages Fenétres Aide 


> libraryiirr) 

> mydata<-read.csv("C:/KappaCohen.csv",header=T,sep=";")] 
> kappaz (mydata) 

Cohen's Kappa for 2 Raters (Weights: unweighted) 


Subjects = 11 
Raters 
Kappa 
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Nous retrouvons donc la même valeur de Kappa et de Z que ce que nous avons calculé à la 
main et obtenu avec Minitab. Par contre la p-value est doublée dans R par rapport à celle de 
Minitab. Cela signifie simplement que Minitab fait le test en bilatéral alors que R le fait en 
unilatéral (ce dernier choix me semble personnellement plus pertinent). 


Le Kappa de Cohen peut bien évidemment être utilisé en machine learning pour mesurer la 
performance de classification binaire! 
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V de Cramér (mesure d'association) et coefficient de corrélation phi de 


Pearson 
R 3.0.2 


Nous partons des mêmes données que dans le cours théorique: 


Fichier Edition Format Affichage 


Délais;Statut;Projets 

Délais respectés;CP certifié;8 

Délais respectés;CP non certifié;1 
|Délais non respectés;CP certifié:;4 
Délais non respectés;CP non certifié;5 


et nous utilisons la commande assoctats() du package vcd: 


Re RGui (64-bit) - [ 
R Fichier Edition Voir Misc Packages Fenêtres Aide 


library(ivcd) 
mydata<-read.csv("MesuresDissociation.csv",header=T,sep=";:") 
mytable<-xtabs (Projets-Délais+Statut,mydata) 

mytable 


Statut 
Délais CP certifié CP non certifié 
Délais non respectés 4 5 


Délais respectés 8 1 
> assocstats(mytable) 
X*2 df P(> X*2) 
Likelihood Ratio 4.2702 1 0.038786 
Pearson 4.0000 1 0.045500 


Phi-Coefficient DL E SE: 2e EE 
Contingency Coeff.: 0.426 
Cramer's YV : 0.471 
> | 
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Et nous n'obtenons pas du tout le même résultat que dans le cours théorique! Mais la même 
chose qu'avec Minitab mais c'est normal. Effectivement pour réobtenir la même chose que 
Minitab, il nous faudra écrire: 


A Fichier Edition Voir Misc Packages Fenêtres Aide 


setwdi"C:/") 
libraryi(ivcd) 
mydata<-read.csv("MesuresDissociation.csv",header=T,sep=";:") 
mytable<-xtabs (Projets-Délais+Statut,mydata) 

> assocstats (mytable) [5] 

$cramer 

[1] 0.4714045 


> (as.numeric (assocstats (mytable) [5]))°2 
El] D,ésa28es 
> | 


et voilà! Idem pour le phi de Pearson. | 
S 
nr. . S , : : 
Le V de Cramér peut bien évidemment être utilisé en machine learning pour mesurer la 
performance de classification binaire! 
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Étude de la cohérence avec l'alpha de Cronbach 
R 3.0.2 


Comme à l'habitude, le but va être de vérifier ici que nous retombons sur les calculs faits à la 
main dans le cours théorique suite à la démonstration mathématique de l'origine de l'alpha de 
Cronbach. 


Nous allons pour cela utiliser la commande cronbach.alpha() du package Itm: 


R Fichier Edition Voir Misc Packages Fenétres Aide 


libraryiltmi) 
qi<-ci1,2,4,6) 
q2<-c(2,3,4,5) 
g3<-c(5,4,3,2) 
qi<-c(2,1,4,7) 
mydata<-chind(iqgi,aqz,qs,a4) 
cronbach.alphaimydata) 


Cronbach's alpha for the 'mydata' data-set 
Items: 4 


Sample units: 4 
alpha: 0.446 


> | 


Donc nous retrouvons bien les mêmes résultats que ceux calculés à la main et que Minitab. 
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Étude de la cohérence avec le coefficient de Goodman-Kruskal tau 
R3.4.1 


Le but ici va être de vérifier que nous retombons bien sur les calculs faits à la mains (surtout 
pour le coefficient en ligne). Nous partons donc du même jeu de données que dans le cours 
théorique et nous obtenons à l'aide de la fonction GoodmanKruskalTau( ) du package 
DescTools: 


R File Edit View Misc Packages Windows Help _ 5 x 


Lu 
S] 


library("DescTools") | 


> 
> options (scipen=8) 
> table <- as.table(matrix(c(85, 2, 8, 1, 63, 83, 12, 6, 28, 7, 56, 3, 12 , 1, 7, 141), 
+ nrow=4, byrow=TRUE, 
+ dimnames=list (FV=c("Liberal","NDP","Conservative","None"), 
+ PV=c{("Liberal","NDP","Conservative","None")) )) 
> table | 
EV 
FV Liberal NDP Conservative None | 
Liberal 85 2 8 1 
NDP 63 83 12 6 
Conservative 28 7 56 3 
None 12 1 7 141 
> GoodmanKruskalTau(table, direction="row", conf.level=0.95) 
tauA lwr.ci upr.ci 


0.4620451 0.4070072 0.5170830 

> GoodmanKruskalTau(table, direction="column", conf.level=0.95s) 
tauzA lwr.ci upr.ci 

0.4496022 0.3938795 0.5053249 


Nous retombons bien sur la même valeur de 0.462 que dans le cours théorique! 
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Étude de la cohérence avec le coefficient Lambda 
R3.4.1 


Le but ici va être de vérifier que nous retombons bien sur les calculs faits à la mains (surtout 

pour le coefficient en ligne). Nous partons donc du même jeu de données que dans le cours 

théorique: 
R RGuï (64-bit 
R File Edit View Misc Packages Windows Help 5 x 


> library("DescTools") 


/ 


> options {(scipen=8) 
> table <- as.table{(matrix(c(85, 2, 8, 1, 63, 83, 12, 6, 28, 7, 56, 3, 12 , 1, 7, 141), 
+ nrow=4, byrow=TRUE, 
+ dimnames=list (FV=c{("Liberal","NDP","Conservative","None"), 
+ PV=c{("Liberal","NDP","Conservative","None")) )) 
> table 
PV 
FEV Liberal NDP Conservative None 
Liberal 85 2 8 L 
NDP 63 83 12 6 | 
Conservative 28 7 56 3 
None 12 1 7 141 


Faisons un petit résumé statistique et graphique avec la fonction Desc ): 
& 
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MR RGui (64-bit) - [R Console] — 
ŒR File Edit View Misc Packages Windows Help | # x 
> Desc(table) 
D a 1 2 0 oo $ 
table (table) 
Summary: 
n: 515, rows: 4, columns: 4 
Pearson's Chi-squared test: 
X-squared = 659.27, df = 9, p-value < 2.2e-16 
Log likelihood ratio (G-test) test of independence: 
G = 613.02, X-squared df = 9, p-value < 2.2e-16 
Mantel-Haenszel Chi-squared: 
X-squared = 295.75, df = 1, p-value < 2.2e-16 
Phi-Coefficient 1:131 
Contingency Coeff. 0.749 
Cramer's V 0.653 
PV Liberal NDP Conservative None Sum 
EFV 
Liberal freq 85 F 8 x 96 
perc 16.5% 0.4% 1.6% 0.2% 18.6% 
p.row 88.5% 2.1% 8.3% 1.0% * 
p.col 45.2% 2.2% 9.6% 0.7% . 
NDE freq 63 83 12 6 164 
perc 12.2% 16.13% 2.3% 1.2% 31.8% 
p.row 38.4% 50.6% 7.3% 3.7% . 
p.col 33.5$% 89.25% 14.55% 4.0% : 
Conservative freq 28 + 56 3 94 
perc 5.4% 1.4% 10.9#% 0.6% 18.3% 
P.row 29.98% 7.45 59.6% 3.25 » 
p.col 14.9% 7.56 67.5% 2.0% . 
None freq 12 L 7 141 161 
perc 2.3% 0.25% 1.4% 27.4% 31.33% 
P.row 7:55 0.6% 4.3% 87.6% . 
p.col 6.45% 1.1% 8.4% 93.4% . 
Sum freq 188 93 83 151 515 
perc 36.5% 18.1% 16.1% 29.3% 100.0% 
p.row . . - . . 
p.col . . . . . 
>| 
< > 


Avec le graphique correspondant: 
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Sciences.ch 
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et nous obtenons à l'aide de la fonction Assocs( ) du package DescTools: 


R RGui (64-bit) - [R Console] 
ŒR File Edit View Misc Packages 


SSIIE) 


> Assocs (table) 


estimate 
Phi Coeff. 1.1314 
Contingency Coeff. 0.7493 
Cramer V 0.6532 
Goodman Kruskal Gamma 0.8170 
Kendall Tau-b 0.6904 
Stuart Tau-c 0.6697 
Somers D CIR 0.6854 
Somers D RI|C 0.6955 
Pearson Correlation 0.7585 
Spearman Correlation 0.7484 
Lambda C|R 0.5413 
Lambda R|C 0.5726 
Lambda sym 0.5575 
Uncertainty Coeff. CIR 0.4472 
Uncertainty Coeff. RIC 0.4404 
Uncertainty Coeff. sym 0.4438 
Mutual Information 0.8586 


> | 


Windows 


Help 


0.5992 
0.7658 
0.6361 
0.6165 
0.6303 
0.6358 
0.7193 
0.7078 
0.4618 
0.5031 
0.4858 
0.3928 
0.3859 
0.3897 


0.6993 
0.8682 
0.7448 
0.7229 
0.7405 
0.7552 
0.7930 
0.7841 
0.6207 
0.6422 
0.6293 
0.5016 
0.4948 
0.4979 
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Nous retombons bien sur la même valeur de 0.5726 et 0.5413 que dans le cours théorique! 


Ne 
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Étude de la cohérence avec le coefficient de Goodman-Kruskal gamma 
(et autres) 


R3.4.1 


Le but ici va être de vérifier que nous retombons bien sur les calculs faits à la mains (surtout 
pour le coefficient en ligne). Nous partons donc du même jeu de données que dans le cours 


théorique: 


R 
R File Edit View Misc Packages Windows Help Ai 


VH+++V VU 


w 


> 


library("DescTools") 


options (scipen=8) 
table <- as.table(matrix(c(34, 24, 15, 42, 74, 67, 28, 111, 292), 
nrow=3, byrow=TRUE, 
dimnames=list (B=c("Disagree","Neutral",'"Agree"}), 
A=c("Disagree","Neutral",'"Agree")) )) 
table | 
A 
Disagree Neutral Agree 
Disagree 34 24 15 
Neutral 42 74 67 
Agree 28 LIT 292 


Q- 


Et faisons un petit résumé descriptif avec la fonction Desc( ): 
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R RGui (64-bit) - [R Console] 


GR File Edit View Misc Packages Windows Help 


EE 


> Desc(table) 


table (table) 


Summary: 
n: 687, rows: 3, columns: 3 


Pearson's Chi-squared test: 

X-squared = 125.67, df = 4, p-value < 2.2e-16 
Log likelihood ratio (G-test) test of independence: 
G = 118.21, X-squared df = 4, p-value < 2.2e-16 

| Mantel-Haenszel Chi-squared: 
X-squared = 117.67, df = 1, p-value < 2.2e-16 


Phi-Coefficient 0.428 

Contingency Coeff. 0.393 

Cramer's V 0.302 
Z Disagree Neutral Agree Sum 

B 

Disagree freq 34 24 15 73 
perc 4.9% 3.5% 4:28  LO0COE 
p.row 46.6% 32.9% 20.5% . 
p.col 32.17% 11-56 4.0% : 

Neutral freq 42 74 67 183 
perc 6.1% 10.8% 9.8% 26.6% 
p.row 23.0% 40.4% 36.6% Fs 
p.col 40.4% 35.4% 17.9% . 

Agree freq 28 111 292 431 
perc 4.15% 16.2% 42.5% 62.7% 
p.row 6.5% 25.8% 67.7% L 
p.col 26.9% 53.1% 78.1% à 

Sum freq 104 209 374 687 
perc 15.13 30.4% 54.4% 100.0% 
P.row : . - : 
p.col È 

> | 

< 


Avec le graphique correspondant: 
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et nous obtenons encore une fois à l'aide de la foñétion Assocs( ) du package DescTools: 


Phi Coeff. 


Cramer V 


Lambda CIR 
Lambda RIC 
Lambda sym 


MR RGui (64-bit) - [ 
ŒR File Edit View Misc 


SPA] 


> Assocs(table) 


Contingency Coeff. 


R Console] 


Goodman Kruskal Gamma 
Kendall Tau-b 

Stuart Tau-c 

Somers D CIR 

Somers D RIC 

Pearson Correlation 
Spearman Correlation 


Packages Windows Help 


estimate 
0.4277 
0.3932 
0.3024 
0.5907 
0.3721 
0.3099 
0.3942 
0.3513 
0.4142 
0.3997 
0.0831 
0.0547 
0.0703 


Uncertainty Coeff. CIR 0.0879 
Uncertainty Coeff. RIC 0.0974 
Uncertainty Coeff. sym 0.0924 
Mutual Information 


0.1241 


0.2456 
0.5070 
0.3071 
0.2530 
0.3254 
0.2897 
0.3502 
0.3349 
0.0004 
0.0000 
0.0172 
0.0573 
0.0636 
0.0603 


0.3520 
0.6744 
0.4371 
0.3668 
0.4629 
0.4129 
0.4743 
0.4607 
0.1657 
0.1170 
0.1234 
0.1185 
0.1312 
0.1245 


Û 


X 


Nous retombons bien sur toutes les mêmes valeurs que dans le cours théorique! 
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Exemple 234.: Test de la somme des rangs signés de Wilcoxon 


pour 2 échantillons appariés 
R 3.0.2 


Nous voulons appliquer le test des rangs signés de Wilcoxon pour 2 échantillons appariés 
comme démontré dans le cours de statistique théorique bien que celui-ci ne soit pas disponible 
explicitement dans Minitab et ce afin de comparer au résultat calculé avec Microsoft Excel 
dans le cadre de l'approximation par une loi Normale. 


Nous utiliserons pour cela les mêmes données brutes que dans le cours théorique avec la 
commande wilcox.test(}) et d'abord sans approximation: 


= RGui (64-bit) - [RÇ 


R Fichier Edition Voir Misc Packages Fenêtres | Aide 


> Likeei24, 16: 7:21:0/24:7,97:5,31:4, 149,47: 179, 15:5,:29,;:19:91 
> Lx=0i293.1.20.:8, 17. 7-60 #r82:1,00:1,21.6,40:0,260,15:5,95.4,25,:5#) 
> wilcox.test{(Li,L2,paired=T,exact=T) 


Le 


Wilcoxon signed rank test with continuity correction 


data: Li and L2 
= 8.5, p-value = 0.032977 
alternative hypothesis: true location shift is not equal to 0 


Messages d'avis 
1: In wilcox.test.default iLi, L2, paired = T, exact = T) 
impossible de calculer la p-value exacte avec des ex-aequos 
In wilcox.test.default (Li, L2, paired = T, exact = T) 
os de calculer une p-value exacte avec des zéros 
> 


È 


Nous retrouvons donc exactement les mêmes valeurs que dans Minitab (messages 
d'avertissements exceptés) mais qui comme nous le savons ne correspondant pas à ce que 
nous avons calculé à la main. Donc faisons avec l'approximation Normale: 
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R Fichier Edition Voir Misc Packages Fenétres Aide 
[> wilcox.test(Li,L2,paired=T,exact=F) 
Wilcoxon signed rank test with continuity correction 
data: Li and L£ 


= 8.5, p-value = 0.032777 
alternative hypothesis: true location shift is not equal to 0 


> | 


Nous voyons que cela ne change rien. Certes la valeur V est la même que dans le cours 
théorique mais toujours pas la p-value. 


Certes la conclusion est toutefois la même que dans le cours théorique. 
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Exemple 235.: Intervalle de confiance de la médiane (via test 


du signe à 1 échantillon) 
R 3.0.2 


Nous avons effectué une série de mesures de valeurs continues. 


Nous souhaiterions simplement connaître l'intervalle de confiance de la médiane, le but étant 
aussi de contrôler que R utilise bien la méthode que nous avions mentionnée dans le cours de 
statistique théorique et que nous avions mis en pratique à la main, dans Microsoft Excel et 
dans Minitab. 


Nous utilisons la commande SIGN.test() du package BSDA où la valeur test par défaut du 
paramètre md est nul si pas spécifié mais la seule chose qui nous intéresse ici est l'intervalle!: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> library(B5Di) 
> mesures<-c(23.4,24.4,24.6,24.9,25,25.1,26.2,26.3,26.8,26.8,26.9,27,27.6,27.7) 
> SIGN.test (mesures,alternative="tuwo.sided",conf.level = 0.95) 


One-sample Sign-Test 


data: mesures 
14, p-value = 0.0001221 
alternative hypothesis: true median is not equal to 0 
95 percent confidence interval: 
24.850222 26.91659 

sample estimates: 
median Of x 

26.25 


Conf.Level L.E.pt U.E.pt 
Lower ichieved CI 0.9426 24.9000 26.9000 
Interpolated CI 0.9500 24.8502 26.9166 
Upper ichieved CI 0.9871 24.6000 27.0000 


> | 
R 


Nous retrouvons donc exactement la même sortie que Minitab. 
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Exemple 236.: Test du signe binomial (dixit: test de la 


médiane pour 2 échantillons appariés) 
R 3.0.2 


Nous avons effectué deux séries de mesures avec deux méthodes différentes. 


Nous souhaiterions savoir la différence sont significatives ou pas. Le but étant aussi de 
contrôler si nous avons un résultat différent de celui calculé à la main en cours et dans 
MS Excel. 


Nous utilisons la commande SIGN.test() du package BSDA où la valeur test par défaut du 
paramètre md est nul si pas spécifié: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


EBROISEOES 


> library(BSDà) 

> Mesutesl<-c(20.4,25.4,25.6,25.6,26.6,29.6,20.7;:29,29.0,30.5,90.9,31.1] 

> Mesures2<-ci20.7,26.3,26.8,28.1,26.2,27.9,29.5,92,30.9,32.9,92.3;,31.7) 

> SIGN.test (x=Mesuresi,vy=Mesures2 ,alternative="tuwuo.sided" ,conf.level=0.95) 


Dependent-samples Sign-Test 


data: Mesuresi and Mesures2 
S = 2, p-value = 0.03857 
alternative hypothesis: true median difference is not equal to 0 


95 percent confidence interval: 
-1.7574545 -0.3319091 
sample estimates: 
median Of x-y 
1 


Conf.Level L.E.pt 
Lower ächieved CI 0.868540 -1.4000 
Interpolated CI 0.9500 -1.7575 
ss ichieved CI 0.9614 -1.8000 
» 


Nous retrouvons toutes les valeurs vues dans le cours de statistique théorique et que dans le 
cours Minitab. Nous rejetons donc au vu de la p-value (inférieure à 5%) que la différence n'est 
pas significative. 


Nous pouvons aussi construire l'équivalent à partir du test binomial exact mais en focalisant 
uniquement sur la p-value du résultat renvoyé: 
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RGui (64-bit) = 


| R Fichier Edition Voir Misc Packages Fenétres Aide 


sign.test<-function(x,y) 

{ 

if(length(x) '=length(y)) 

stop("The two variables must be the same length”) 

d<- x-y 

binowm.test (sum(d>0),lengthidi)) 

} 
Mesures1i<-c(20.4,25.4,25.6,25.6,26.6,28.6,28.7,29,29.8,30.5,30.9,31.1) 
NHesures2<-c(20.7,26.3,26.8,268.1,26.2,27.3,29.5,32,30.9,32.3,32.3,31.7) 


> 
& 
+ 
+ 
+ 
+ 
+ 
> 
> 
> 
> 


sign.test (Mesures1i,Mesures2) 
Exact hinomial test 


data: sum(d > 0j and lengthi(d) 

number of successes = 2, number of trials = 12, p-value = 0.038657 
alternative hypothesis: true probability of success is not equal to 0.5 
95 percent confidence interval: 

0.02086253 0.48413775 
sample estimates: 

probability of success 

0.1666667 


> | 
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Exemple 237.: Test de Mood (test des médianes) 
R 3.0.2 


Le but du test de Mood n'est pas de contrôler si des données appariées peuvent être 
considérées comme égales ou non en se basant sur leur médiane (test des signes), mais 
simplement de vérifier sur la base d'un tableau de contingence du Khi-deux, si le nombre de 
valeurs au-dessus ou en-dessous de la médiane de deux échantillons est significativement 
différente et proviennent donc de deux populations différentes. 


Voyons comment exécuter le test de Mood avec respectivement le même résultat que dans le 
cours théorique et Minitab avec le package RVAideMemoire et sa fonction median_test( ) 
dans un premier temps, et ensuite de façon similaire à SPSS avec le package coin et sa 
fonction mood.medtest( ): 


R 
R File Edit View Misc Packages Windows Help 


Mesures2<-c(22.5,22.9,23.7,24,24.4,24.5,25.3,26,26.2,26.4,26-7,26.9,27.4) 
ToutesMesures<-c(Mesuresi,Mesures2) 
Categories<-g1l(2,13,labels-LETTERS{1:2]) 

Categories 

[11AAAAARAAAAAAAABBBBBBBBERBEERBERE 

Levels: A B 

à 


VVNVV 


#fpour réobtenir le résultat de Minitab et calculé à la main dans le cours théorique 
library("RVAideMemoire") 
median test (ToutesMesures-Categories,conf.int=TRUE, conf.level=0.95) 


VVV 


Asymptotic Two-Sample Brown-Mood Median Test 


data: ToutesMesures by Categories (A, B) 
Z = 1.1538, p-value = 0.2486 
alternative hypothesis: true mu is not equal to 0 
95 percent confidence interval: 
1:55 259 
sample estimates: 
difference in location 
L 


#pour réobtenir le résultat de SPSS 
library("coin") 
mood.medtest (ToutesMesures-Categories) 


VMVVV 


Mood's median test 


data: ToutesMesures by Categories 
p-value = 0.4338 


> | 


Nous voyons que bien que la conclusion soit la même, le test fait une approximation par la loi 
Normale. 


Il y a cependant un petit avantage, nous avons automatiquement un intervalle de confiance et 
nous constatons que ce dernier n'est pas très éloigné de celui renvoyé par Minitab. 
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Exemple 238.: Test de la somme des rangs signés de Wilcoxon 


pour 1 échantillon 
R 3.0.2 


Encore une fois, nous souhaitons comparer les démonstrations faites dans le cours de 
statistiques théorique avec l'application numérique approximée dans Microsoft Excel et exact 
avec Minitab pour comparer avec le résultat obtenu avec R. 


Nous allons utiliser la commande native wilcox.test(}) de R: 


a 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> Mesures<-c(39,20.2,40,32.2,30.5,26.5,42.1,45.6,42.1,45.6,42.1,29.9,40.9) 
> wilcox.test (x=Mesures ,exact=FALSE,alternative="two.sided" ,mu=40, 
+ conf.level=0.95,conf.int=TRUE) 


Wilcoxon signed rank test with continuity correction 


data: Mesures 
= 26, p-value = 0.3259 


alternative hypothesis: true location is not equal to 40 
95 percent confidence interval: 
30.55001 42.10005 
sample estimates: 
{(pseudo)median 
36.300085 


Nous retrouvons bien la valeur V égale à 26 que Minitab ne nous donnait pas directement. La 
p-Value est sensiblement différente de celle de Minitab et de celle calculée dans le cours 
théorique (et rappelons que celle calculée à la main dans cours théorique était aussi 
sensiblement différente que celle donnée par Minitab). Contrairement à Minitab, nous avons 
cependant un intervalle de confiance ce qui est bien pratique. Concernant l'estimation 
ponctuelle de la médiane, nous retrouvons bien la même valeur. 
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Exemple 239.: Test de la somme des rangs de 
(Wilcoxon)Mann-Withney pour deux échantillons 


indépendants 
R 3.02 


Comme d'haaaabitudeeee (en chantant...) le but est de voir si nous retrouvons les résultats 
numériques calculés avec Microsoft Excel en utilisant les relations démontrées dans le cours 
de statistique théorique. 


Par contre nous n'allons par reprendre les mêmes valeurs qu'en dans le cours théorique car 
l'exemple y était trop petit (pour des raisons pédagogiques). Nous allons encore une fois 
utiliser la commande native wilcox.test( ) de R: 


y 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


sel] 


Mesuresi<-c(197,162,57,108,53.5,55,77,39,66,48,121,79,309) 
Mesures2<-c(50.5,50,557,42,23,26,45,96,113,30,33,45) 

wilcox.test (x=Mesuresi,y-=-Mesures2,exact=FALSE,alternative="tuo.sided", 
conf.level=0.95,conf.int=TRUE) 


Wilcoxon rank sum test with continuity correction 


data: Mesuresi and Mesures2 

= 119, p-value = 0.02757 
alternative hypothesis: true location shift is not equal to O0 
95 percent confidence interval: 

4.499998 75.000025 
sample estimates: 
difference in location 

27.00007 


A 


Nous retrouvons la même p-value, le même intervalle de confiance et la même différence 
ponctuelle que dans le cours théorique et Minitab. Par contre, nous remarquons que 
contrairement au cours théorique et à Minitab la somme W n'est pas la même. Ceci n'est pas 
grave car nous avons vu dans le cours théorique que nous pouvions prendre la variable que 
nous voulions comme base de calcul. Cependant dans le cours théorique, nous avions calculé 
respectivement W comme valant 210 pour Y et 114 pour X alors que R donne 119. Cela est 
tout à fait normal puisque dans le cours théorique nous avions décidé de ne pas faire de 
correction empirique concernant les valeurs doubles (oui... il y a deux fois la valeur 45 dans 
les mesures 2). 


Sinon sans la correction de continuité cela donne (même résultat qu'avec Oracle 1 1g comme 
vu dans le cours SQL pour Data Scientists): 
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QR File Eds View Mix Package: Wind Heo a x 
EE 255 @E | 


> wilcox.tostix-Hosurssi,y Mosurcsi,2xact FALSZ,corroct FALSE, altornativs-"two.sijod",conf.lovoel-0.95,cori.int-IaUE) 


filcoxen rank sum test 


fata: Mescresi And Mesures? 
W — 119, p-valus — 0.02571 
allscna-ive uypv-hssis: Lius localicn shiLl is nul squal Lo 0 
3L percent con=idences interval: 
4.502003 74.299906 
sample estirares: 
diferonce in locaticn 
27.00007 


\W 
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Exemple 240.: Test de la somme des rangs signés de Wilcoxon 


pour 2 échantillons appariés 
R 3.0.2 


Nous voulons appliquer le test des rangs signés de Wilcoxon pour 2 échantillons appariés 
comme démontré dans le cours de statistique théorique. Rappelons que celui-ci ne n'était pas 
disponible explicitement dans Minitab mais que faisant plusieurs manipulations nous avons 
tout de même pu l'obtenir et le comparer au résultat calculé avec Microsoft Excel dans le 
cadre de l'approximation par une loi Normale. Nous allons 1c1 vérifier la correspondance avec 
R. 


Pour cela, nous allons encore une fois utiliser la commande native wilcox.test(}) de R: 


R Fichier Edition Voir MISÈ Packages Fenêtres Aide 


ÉROISOSINIE 


> Mesuresi<-c(24,16.7,21.6,23.7,37.5,31.4,14.9,37.3,17.9,15.5,29,19.9) 

> Mesures2<-c(23.1,20.4,17.7,20.7,42.1,36.1,21.8,40.3,26,15.5,35.4,25.5) 
> wilcox.test (x=Mesuresi,vy=Mesures2,exact=FALSE,alternative="twuo.sided", 
+ conf.level=0.95,conf.int=TRUE, paired=TRUE) 


Wilcoxon signed rank test with continuity correction 


data: Mesuresi and Mesures2 
= 8.5, p-value = 0.03277 
alternative hypothesis: true location shift is not equal to 0 
95 percent confidence interval: 
-6.0000375 -0.3500702 
sample estimates: 
{pseudo)median 
-3.75366 


> | 


Donc à part l'intervalle de confiance que Minitab ne donnait pas, nous retrouvons les mêmes 
valeurs que dans ce dernier. La seule différence réside toujours dans la p-value qui est 
significativement différente que celle obtenue à la main dans le cours théorique. 
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Exemple 241.: Test de Mantel-Haenszel-Cochran 
R 3.0.2 


Encore une fois nous allons vérifier que nous retrouvons bien le même résultat que ce que 
nous avons obtenu dans le cours théorique lors des calculs à la main ou dans Minitab. 


Nous partons des données suivantes: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


setwd{("C:/") 
mydata<-read.csv("MantelHeansel.csv",header=T,sep=";") 

mytable <- 

array(c(128,238,302,230,284,320,320,403), 

dim=c(2, 2, 2),dimnames = list 

Delay = ci"Décédé", "Survivant"}),Response = ci"Contrôle", "Test"), 
Hopital.Level = c(i"a", "B"))j) 

mytable 

; Hopital.Level = 2 


AE EE otde  08 NE D d 


“ 


Response 
Delay Contrôle Test 
Décédé 128 302 
survivant 238 230 


+: + Hopital.Level = BE 


Response 
Delay Contrôle Test 
Décédé 284 320 
Survivant 320 403 


> | 


Ensuite, nous utilisons la commande mantelhaen.test( ) : 
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FETE 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> mantelhaen.test (mytable,alternative="tuo.sided",conf.level=0.95,correct=TRUE) 


Mantel-Haenszel chi-squared test with continuity correction 


data: mytable 
Mantel-Haenszel X-squared = 10.448685, df = 1, p-value = 0.001228 
alternative hypothesis: true common odds ratio is not equal to 1 
95 percent confidence interval: 
0.6402645 0.8954287 
sample estimates: 
common odds ratio 
Osr97r1792 


> | 


Nous retrouvons donc les mêmes valeurs que celles calculés dans le cours théorique ainsi que 
dans Minitab et donc avec les mêmes conclusions! 


Au niveau de la conclusion, la p-value étant beaucoup plus petite que les valeurs 
traditionnelles critiques (10%, 5%, 1%) nous meffons donc en évidence le fait qu'il y a une 
différence significative entre le groupe de contrôle et de test à travers les différentes strates. 
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Exemple 242.: Test de Friedman (ANOVA canonique non 


paramétrique par les rangs) 
R 3.0.2 


Nous allons nous baser sur l'exemple pratique fait aussi en cours pour appliquer la pseudo- 
démonstration (guère convaincante) que nous avons étudiée concernant ce test. Nous allons 
comparer le résultat obtenu aussi par rapport à Minitab. 


Nous utilisons pour cela la commande friedman.test() native à R: 


KR Fichier Edition Voir Misc Packages Fenêtres Aide 


> mydata<-read.csv("C:/TestFriedman.csv",header=T,sep=";:") 
> mydata<-as.matrix (mydata) 
> mydata 

Peur Joie Tristesse Calme 
[ll 82.1 22. 22. 22. 
La,) 5736 53 Eds 50e 
[3,1] 10. 9. 10. 8. 
[4,1] 23.6 19. 2: als 
Col. 11.9 134 19 Le 
[6,1] 54.6 47. 39. d'és 
l':l 21.0 13, Las 14. 
[6;1.-80:3 293,6 16: 14. 
> friecman.test (mydata) 


OS JDN JE © -J in 
DOO0OUaouErk on 


Friedman rank sum test 


data: mydata 
Friedman chi-squared = 6.45, df = 3, p-value = 0.09166 


> | 


Nous retrouvons donc exactement les mêmes résultats avec les mêmes conclusions que dans 
le cours théorique. 
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Exemple 243.: Test de Kruskal-Wallis (ANOVA canonique à 1 
facteur non paramétrique) 


R 3.0.2 


Au même titre que dans le cours théorique et Minitab nous allons prendre par hommage 
l'excellent exemple original de l'article de Kruskal-Wallis: 


Standard Modification 1 Modification 2 
Output Rank Output Rank Output Rank 

340 5 _ 339 4 347 10 

345 9 ‘5 888 2 343 7 

330 1j. | 344 8 349 11 

342 6 355 12 

338 8 

Sum 

n 5 3 4 12 
R 24 14 40 78 

R'/n 115.2 65.333 400. 580.533 


Checks :>}n=N =12 ZR=AN(N +1) =78 
_12X 580.533 
12X13 
Pr{x?(2) 25.656] =0.059 
Pr{A(5, 4, 3) 25.656] =0.049 


—3X13 =65.656x2(2) from (1.2) 


from [9] or [18] 
from T'able 6.1 


Nous utilisons alors la commande kruskal.test() native de R: 
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KR Fichier Edition Voir Misc Packages Fenêtres Aide 


> mydata<-read.csv("C:/KruskalWallis.csv",header=T,sep=":") 
> mydata 
Machine Production 
Standard 340 
Standard 345 
Standard 330 
Standard 342 
Standard 338 
Hodifiée 339 
Hodifiée 333 
Hodifiée 344 
Hodifiée 347 
10 Modifiée 343 
11 Modifiée 349 
12 Modifiée 2 395 
> kruskal.test (mydata$Production,mydata$Machine) 


1 
2 
3 
L : 
5 
6 
L: 
8 
9 


Kruskal-Wallis rank sum test 


data: mydataf$Production and mydataf$Machine 
Kruskal-Wallis chi-squared = 5.6564, df = 2, p-value = 0.05912 


> | 


Donc à part le faire que nous avons moins d'informations que dans le cours théorique et 
qu'avec Minitab, les résultats donnés sont en parfait adéquation. 
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Exemple 244.: Test de Cochran-Armitage (test du chi-2 pour 


tendances dans les proportions) 
R 3.2.1 


Nous partons de la même table (en dimensions et en contenu!) que celle utilisée pour la 
démonstration dans le cours théorique (exemple reprise de Wikipédia): 


Genotype aa | Genotype Aa | Genotype AA | Somme 


Contrôles 20 20 20 60 
Cas 10 20 30 60 
Somme 30 40 50 120 


L'utilisation de la fonction native prop.trend.test() donne: 


R RGui (64-bit) - [R Console] — O X 
KR File Edit View Misc Packages Windows Help 


> Controls<-c(20,20,20) 
> Total<-c(30,40,50) 
> prop.trend.test (Controls,Total) 


Chi-squared Test for Trend in Proportions 
data: Controls out of Total, 
using scores: 1 2 3 


X-squared < 5.2174, df = 1, p-value = 0.02236 


> | 


Nous voyons que les poids par défaut sont discutables..…. Dans le cas ci-dessus nous rejetons 

l'hypothèse nulle comme quoi toutes les entrées de la table son proportionnelles en faveur de 
l'hypothèse alternative comme quoi il y a une influence de tendance entre les deux variables 

catégorielles. 


Dans le cadre de la génétique, les poids sont sélectionnés en conformité avec le mode 
d'héritage. Par exemple, pour tester si l'allèle a est dominante sur l'allèle À, nous choisirons 
alors les poids tels que: 
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R RGuï (64-bit) - [R Console] — O X 


KR File Edit View Misc Packages Windows Help _|#1x 


> Controls<-c(20,20,20) 

> Total<-c(30,40,50) 

> w<-c(1,1,0) 

> prop.trend.test (Controls,Total,w) 


Chi-squared Test for Trend in Proportions 
data: Controls out of Total, 
using scores: 1 1 0 


X-squared = 3.4286, df = 1, p-value = 0.06408 


> | 


Là il n'y a donc pas d'association significative entre le nombre de cas et le type d'allèle sous 
l'hypothèse que l'allèle a est prédominante. 


S1 l'allèle a est récessive, nous choisissons alors les poids tels que: 
CO 
S 


R RGuï (64-bit) - [R Console] = (a) X 
KR File Edit View Misc Packages Windows Help || X 


> Controls<-c(20,20,20) 

> Total<-c(30,40,50) 

> w<-c(0,1,1) 

> prop.trend.test (Controls,Total,w) 


Chi-squared Test for Trend in Proportions 
data: Controls out of Total, 
using scores: 0 1 1 


X-squared = 4.4444, df = 1, p-value = 0.03501 


> | 


Là il y a donc une association significative entre le nombre de cas et le type d'allèle sous 
l'hypothèse que l'allèle a est effectivement récessive. 
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S1 les allèles a et À sont codominants alors ce sont les poids défaut de la fonction R qui 
s'appliquent et qui comme nous l'avons vu sont donc: 


R RGuï (64-bit) - [R Console] 
R File Edit View Misc Packages Windows Help 


ÉBROSOSINIE 


> Controls<-c(20,20,20) 
> Total<-c(30,40,50) 
> prop.trend.test (Controls,Total) 


Chi-squared Test for Trend in Proportions 


data: Controls out of Total, 
using scores: 1 2 3 
X-squared “ 5.2174, df = 1, p-value = 0.02236 


> | 
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Exemple 245.: Test G? 
R 3.2.2 


Nous avons vu dans le cours théorique que le test G? est un petit bijou du mélange entre la 
théorie de l'information, les développements limités et les statistiques! Il s'agissait d'une 
première excursion sur le fait que la théorie de l'information (entropie) peut engendrer à elle 
seule une grande partie de nos connaissances statistiques. 


Pour vérifier si nous obtenons les mêmes calculs que ceux effectués à la main nous utilisons 
le même jeu que pour le test d'ajustement du khi-2. Pour cela, nous utilisons la fonction 
G.test() du package RVAideMemoire: 


R RGui (64-bit) - [R Console] — O X 


R File Edit View Misc Packages Windows Help 5 x 


Sea] 


> library (RVAideMemoire) 
> M<-c(120,130,125,128,80,70,75) 
> G.test (M) 


G-test for given probabilities 


data: M 
G = 45.059, df = 6, p-value = 4.556e-08 


>| 
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Exemple 246.: ACP (Analyses en Composantes Principales) 


non-paramétrique 
R 3.6.0 


Nous avons mentionné dans le cours théorique qu'il était tout à fait possible de faire une ACP 
par les rangs. Voyons si nous pouvons faire cela avec R. 


Rappelons d'abord que pour la version paramétrique, avec le jeu de données suivant: 


R File Edit View Misc Packages Windows Help NE: 


> iris<-read.csv("c:/tmp/ACP.csv",header=T, sep=";") 
» iris 
Fleur LongueurSepale LargeurSepale LongueurPetale 


1 L Je L EP 1.4 
2 z 4.9 3.0 1.4 
3 5 4.7 EP L-2 
4 2 4.6 Eu à 1:59 
5 . 520 3.6 1.4 
6 6 1-0  - 4.7 
f: g 6.4 3.2 4.5 
8 8 6.9 Se a 4.9 
9 9 5-5 PAPE 4.0 
10 10 6.5 2,58 4.6 
11 11 6.3 SP | 6.0 
12 12 5-8 A À PS à 
13 12 Val 3:0 559 
14 14 6-3 259 5.6 
15 15 6.5 3-0 ER: 


nous avions obtenu: 
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R RGui (64-bit) - [R Console] . O 


ŒR File Edit View Misc Packages Windows Help SAT -UE 


ET) 


> myCors <- cor(iris{,-1], method="pearson") 
> myPCA <-— princomp(covmat=myCors) 
> summary (myPCA) 
Importance of components: 

Comp.1 Comp.2 Comp.3 
Standard deviation 1.4248449 0.9405078 0.29199653 
Proportion of Variance 0.6767277 0.2948517 0.02842066 
dus Proportion 0.6767277 0.9715793 1.00000000 
> 


Voyons avec la corrélation de Spearman: 


R RGui (64-bit) - [R Console] — O 


ŒR File Edit View Misc Packages Windows Help 


BEC) 


> myCors <- cor(iris{,-1], method="spearman") 
> myPCA <-— princomp(covmat=myCors) 
> summary (myPCA) 
Importance of components: 

Comp.1 Comp.2 Comp.3 
Standard deviation 1.3646946 0.9371756 0.50922556 
Proportion of Variance 0.6207971 0.2927660 0.08643689 
7 sas Proportion 0.6207971 0.9135631 1.00000000 
à 


PP RE 


Et avec la corrélation de Kendall: 
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GR RGui (64-bit) - [R Console] — 


GR File Edit View Misc Packages Windows Help 1e }2 


> myCors <- cor(iris{,-1], method="kendall") 
> myPCA <- princomp(covmat=myCors) 
> summary (myPECA) 
Importance of components: 

Comp.1 Comp.2 Comp .3 
Standard deviation 1.2776955 0.9700442 0.6530762 
Proportion of Variance 0.5441686 0.3136619 0.1421695 
Hs Proportion 0.5441686 0.8578305 1.0000000 
> 


EEE 


Donc nous voyons que tous les modèles amènent dans ce cas particulier, à la même 
conclusion! 


R Statistical Software 1512/3133 


Vincent ISOZ, Daname KOLANI 


Sciences.ch 


15. Régressions (paramétriques et non paramétriques) 


Ce chapitre est dédié aux différentes techniques de régressions. Rappelons que nous avons vu 
dans le cours théorique qu'il y en un relativement grand nombre. Nous allons passer ici en 
revue que celle dont nous avons étudiés et démontrés les développements mathématiques 


pendant le cours théorique. 


Avant de commencer juste en petit rappel sur la notation dans R des modèles de régression 
s'avère après expérience indispensable: 


Syntaxe Lecture 


Y-A 


Y = B, + BA 


Droite avec constante. 
Une écriture équivalente 
est: Ÿ -1+A 


Y --1+A 


Y = BA 


Droite affine. Une écriture 
équivalente est: Y - 0 + A 


Y-AHI(AN) 


Y = f,+ A+ B,4 


Régression quadratique 
(ou autre en changeant 
l'exposant) 


Y-A+B 


Y = f, + BA+ B,B 


Modèle multilinéaire sans 
interactions. Une écriture 
équivalente est: Y -. 


Y = B, + B,AB 


Modèle unique avec 
interaction 


Y - A*B 


Y = pp, + BASE + B,AB 


Modèle non quadratique 
avec interactions 


Y-A]|B 


Une saloperie à écrire avec 
Microsoft Word... 


Modèle linéaire mixte de 
A avec tous les B 
possibles. 


Tableau 3 Syntaxe des différentes régressions 
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Exemple 247.: Régression linéaire univariée par moindres 


carrés ordinaires (modèle Gaussien) 
R 3.0.2 


Pour ce nous allons d'abord utiliser les mêmes données’? que dans le cours Microsoft Excel et 
Minitab (nous allons aussi passer sous silence la problématique des valeurs manquantes): 


Fichier Edition Format Affichage 


C 
Sans package dans un premier temps, nous avons en utilisant la fonction Im( ) : 


R à Console SRE: 


> mydata<-read.csv{("C:/RegressionLineaireUnivariee.csv",header=T,sep=";:") 
> y<-lm(Ventes-Mois,data=mydata) 

> plot (mydatafMois,mydata$Ventes) 

> æbline(y) 

s 


Le] 
— 
De << 
2 — 
[es 
D 
> 
& 
S © 
HO — 
D 
E © 
[le] 
T 


4 6 8 10 12 14 


mydata$Mois 


27 Rappel!!! Normalement pour pouvoir appliquer le modèle Gaussien de régression linéaire il faut pour chaque 
point d'abscisse plusieurs mesures en ordonnées (au moins 10). 
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À noter que nous aurions aussi pu écrire: 


e y<-Im(Ventes - ., data=mydata) où le point permet d'indiquer que nous prenons 
toutes les autres variables restantes. 


e ouencore y<-Im(Ventes - 0+Mois, data=mydata) pour forcer l'ordonnée à l'origine 


Avec un grand classique en plus au niveau de la représentation visuelle: 


r 


R R& Console se|x) 
> mydata<-read.csv("C:/RegressionLineaireUnivariee.csv",header=T,sep=";:") 

> r<-lm(Ventes-Mois,data=mydata) 

> plot (mydata$Mois,mydata$Ventes,vylim=c(0,22)) 

> æabline(r,lwd=3) 

> segments (mydata$Mois,mydata$Ventes,mydata$Mois,r$fitted.values,col="red") 

» 

« 


[=] 
Le! 
8 © 
[= 
D 
Z 
re 
ll [æ 
© — 
Le 
= 
E 
[re] 
[en] 
4 6 8 10 12 14 
mydata$Mois 


Figure 237 Graph régression avec erreurs verticales 


Au niveau des statistiques de la régression nous avons simplement: 
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Re, RGui (64-bit) - [RC 
R Fichier Edition Voir Misc Packages Fenêtres Aide 


ESIEIE 


> mydata<-read.csv{("C:/tmp/RegressionLineaireUnivariee.csv",header=T,sep=";:"] 
> y<-lm(Ventes-Mois,data=mydata) 
> summary(y) 


Call: 
imiformula = Ventes - Mois, data = mydata) 


Residuals: 
Min 10 Median 3Q Max 
-3.32 -1.34 0.44 0.78 3.00 


Coefficients: 

Estimate Std. Error t value Pri(i>lt|) NS 
({Intercept}) 3.0200 2.1510 1.404 0.203089 
Mois 1.2200 0.2241 5.444 0.000963 **t* 


Signif. codes: O0 ‘#*sf 0.001 ‘#*#° 0.01 **° 0.05 *‘,* 0.1 * * 1 


Residual standard error: 2.241 on 7 degrees of freedom 
Multiple R-squared: 0.68089, idjusted R-squared: 0.7816 
F-statistic: 29.63 on 1 and 7 DF, p-value: 0.0009626 


> | 


« 


Pour extraire le coefficient de corrélation seul il suffit d'écrire (nous verrons un peu plus loin 
comment extraire d'autres informations): 


R Fichier Edition Voir Misc Packages Fenêtres 


> summary(y}) [[5]] 


[1] 0.608913 
> | 


Pour obtenir la somme des carrés des erreurs il suffit d'utiliser la fonction deviance( ) : 
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I RGu 67-b | 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> devianceiy) 
[1] 35.16 
> | 


Nous pouvons également directement échantillonner les données d'origines pour faire une 
régression sur un sous-ensemble: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> mydata<-read.csv("C:/tmp/RegressionLineaireUnivariee.csv",header=T,sep=";")] 
> dimimydata) [1] 

[1] 9 

> sampling<-sample (dimimydata) [1] ,6) 

> sampling 

[11596413 

> r<-lm(Ventes-Mois,data=mydata,subset=sampling) 

> summary(r) 


Call: 
imiformula = Ventes - Mois, data = mydata, subset = sampling) 


Residuals: 
5 9 6 4 L 
2.9526 -2.9009 0.8103 2.0948 -3.1940 


Coefficients: 

Estimate Std. Error t value Pr(>|tl|) 
{Intercept) 3.7672 3.0376 1.240 0.2827 
Mois 1.1422 0.3238 3.527 0.0243 


Signif. codes: © ‘*+%" 0.001 ‘*$° O.D1 *$° 0.05 *.° O.1 * ? 1 


Residual standard error: 2.848 on 4 degrees of freedom 
Multiple R-squared: 0.7567, idjusted R-squared: 0.695659 


« 


Et avec la package ggplot2 nous traçons d'abord la meilleure droite de régression selon la 
méthode des moindres carrés avec l'intervalle de confiance à 95% en utilisant la commande 
stat_smooth() du package ggplot2: 
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library("ggplot2") 

x<-mydata$Mois 

y<-mydata$Ventes 

m<-lm(y - x) 

yhat<-m$fitted.values 

qplot(x=x, y=y)+geom line (y=yhat) + 

stat _smooth (method=1lm, level=0.95)+ 

geom segment (aes(x=x, xend=x, y=y, yend=yhat, color="error"))+ 
labs(title="regression errors", color="series") 


VV VVYV VV 


regression errors 


25- 


Figure 238 Graph de régression avec intervalle de confiance (ggplot) 
Nous retrouvons bien la même chose que dans le cours Microsoft Excel et Minitab. 


Nous pouvons aussi ploter les résidus en utilisant l'attribut res: 
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r 


R R Console EE 


> boxplot(r$res,horizontal=T) 
> windows) 

> hist(r$res) 

> 


R R Graphics: Device 3 (inactive) [s|e] ba | 


Histogram of r$res 


= 
e 
[= 
D 
= 
[ex 
D 
— 
LL 


Ce qui est intéressant aussi et très important c'est de vérifier l'homoscédasticité des résidus. 
Nous pouvons faire cela visuellement avec la commande suivante: 
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e 


R R Console ES ES 


> plotir$fresiduals-r$fitted.values) 
> | 


Lu 
qu) 
= 
= 
[eg] 
D 
— 
ee 
— 


15 


rffitted values 


Bon évidemment... dans le cas présent comme nous n'avons qu'une seule mesure par point 
d'abscisse il est presque impossible de dire quoi que ce soit de qualitativement sérieux! 

Ÿ 
Avec la fonction outlierTest() du package car nous pouvons identifier les valeurs 
aberrantes" et au besoin les éliminer. Redonnons d'abord le modèle avec tous les points: 
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R RGuiï (64-bit) - [R Console] — 


R File Edit View Misc Packages Windows Help 


> summary(y) 


Call: 
1im(formula = Ventes - Mois, data = mydata) 


Residuals: 
Min 10 Median 3Q Max 
-3.32 -1.34 0.44 0.78 3.00 


Coefficients: 

Estimate Std. Error t value Pr(>lt|) 
(Intercept) 3.0200 2.1510 1.404 0.203089 
Mois 1.2200 0.2241 5.444 0.000963 *** 


Signif. codes: O ‘###“#7 O.001 ‘**#" O.01 ‘*’ 0.05 *‘.’ O.1 *‘ ” 1 
Residual standard error: 2.241 on 7 degrees of freedom 


Multiple R-squared: 0.8089, Adjusted R-squared: 0.7816 
F-statistic: 29.63 on 1 and 7 DF, p-value: 0.0009626 


> | 


7 


Ÿ 
| PTT NI : L : 
Maintenant allons-y pour l'élimination des valeurs aberrantes et refaire la régression: 
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UR RGui (64-bit) - [R Console] _ [] 


GR File Edit View Misc Packages Windows Help SE: 


> library(car) 
> outlierTest (y) 


No Studentized residuals with Bonferonni p < 0.05 
Largest |rstudent |: 
rstudent unadjusted p-value Bonferonni p 
9 -2.955086 0.025445 0.229 
> y<-lm(Ventes-Mois,data=mydata[-9,]) 
> summary(y) 


Call: 
1m(formula = Ventes - Mois, data = mydata{[-9, ]) 


Residuals: 
Min 1Q Median 3Q Max 
-1.4874 -0.9601 -0.5924 0.8466 2.3025 


Coefficients: 

Estimate Std. Error t value Pr(>ltl|) 
(Intercept) 0.3277 1.7402 0.188 0.856827 
Mois 1.5966 0.2003 7.972 0.000207 *** 


Signif. codes: (O0 ‘#*##%" 0.001 ‘*%#’ 0.01 ‘*’ 0.05 *.’ O.1 * ” 1 


Residual standard error: 1.545 on 6 degrees of freedom 
Multiple R-squared: (0.9137, Adjusted R-squared: (0.8994 
F-statistic: 63.56 on 1 and 6 DF, p-value: 0.0002074 


> | 


Le lecteur peut réitérer la procédure avec le même jeu de données et verra alors qu'éliminer 
les valeurs aberrantes.. est scientifiquement... parfois aberrant! 


Avec la commande predict() , nous pouvons nous faire des projections avec intervalle de 
confiance pour une ou plusieurs valeurs: 
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mydata<-read.csv("C:/RegressionLineaireUnivariee.csv",header=T,sep=";") 
lm fit<-lm(iVentes-Mois,data=mydata) 
prevision<-17 


predict(lm fit,data.frame(Mois=prevision) ,interval="prediction") 
£iT lur upE 
23.76 16.74715 30.777285 


Nous pouvons faire mieux en associant intervalle de confiance et de prédiction comme nous 
l'avions fait dans le cours Microsoft Excel et Minitab: 


À R Conso (5 
library(ggplotz2) a 
setwd{("C:/") 


mydata<-read.csv("RegressionLineaireUnivariee.csv",header=T,sep=":") 


lm fit=lm(Ventes-Mois,data=mydata) 
mypredictions=data.frame (mydata,predict (lm fit,interval="prediction")) 
Message d'avis 

In predict.lmilm fit, interval = "“prediction") 

predictions on current data refer to future responses 


VMNNNNV 


> mypredictions 
Mois Ventes Éit lur upE 


L 3 4 6.68 0.2522306 13.107777 

2 6 9 10.34 4.5319661 16.148503 

3 7 12 11.56 5.8741398 17.24586 

4 8 15 12.78 7.1687208 18.391268 

5 9 17 14.00 68.4138023 19.568620 

6 10 16 15.22 9.6087208 20.831268 

7 11 17 16.44 10.7541398 22.122586 

8 12 18 17.66 11.8519661 23.466803 

9 15 18 21.32 14.8922306 27.747777 

> 

> ggplot imypredictions,aes(x=Mois,y=Ventes))+geom point {)+ 

+ geom smoothimethod="lm",aes(fill="confidence") ,alpha=0.5,level=0.95) + 
+ geom ribhon(aes(y=fit,ymin=lur,ymax=upr,fill="prediction"), 

+ alpha = 0.2)+ scale fill manual ("Interval",values=c "green", "blue") )+ 
+ OT 

> 


Ce qui donne: 
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Interval 


confidence 
prediction 


Figure 239 Graph régression avec intervalle de confiance et de prédiction (ggplot) 
Et donc nous retrouvons bien la même chose que dans les cours Microsoft Excel et Minitab. 


Ou différemment: 
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le x 


MR Console see) 


> library("ggplot2") 

> 1m fit<-lm(Ventes-Mois,data=dataset) 

> pred.int <- predict(lm fit, interval = "prediction") 

Warning message: 

In predict.lm(lm fit, interval = "prediction") 
predictions on current data refer to future responses 


> (mydata <- chbind(dataset, pred.int)) 
Mois Ventes £LE lux upr 
3 4 6.68 0.2522306 13.10777 
6 9 10.34 4.5319661 16.14803 
7 12 11.56 5.8741398 17.24586 
8 15 12.78 7.1687208 18.39128 
9 17 14.00 8.4138023 19.58620 
10 16 15.22 9.6087208 20.83128 
16.44 10.7541398 22.12586 
12 18 17.66 11.8519661 23.46803 
15 18 21.32 14.8922306 27.74777 
p <- ggplot (mydata, aes(Mois, Ventes)) + 
geom point() + 
stat_smooth(method = 1m) 
# Add prediction intervals 
p + geom line(aes(y = lwr), color = "red", linetype = "dashed")+ 
geom_line(aes(y = upr), color = "red", linetype "dashed") 
‘geom_smooth()' using formula = 'y - x' 


>| 
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Nous pouvons cependant faire mieux et en conformité avec la tradition scientifique (on 
change de jeu de données pour cet exemple! !!): 
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Sciences.ch 


R RGui (64-bit) - [R Console] 


R File Edit View Misc Packages Windows Help 


SIA 


library("tidyverse") 
library ("ggplot2") 
library ("ggpubr") 
library("cowplot") 


mydata <- data _frame( 
Year = c(20001, 20011, 20021, 20031, 20041, 20051, 20061, 20071, 
20091, 20111, 20121, 20131, 20141), 


23.3, 28.83333333, 34.01666667), 


2.383624691, 2.750959429, 5.340999698) 
) 


model <-— 1lm(Mean - Year, data = mydata ) 

pred.int <- predict (model, interval = "prediction") 
Warning message: 

In predict.lm(model, interval = "prediction"}) : 
predictions on current data refer to future responses 


VERRE NNVNNNVNYV 


mydata <- chind(mydata , pred.int) 


ggplot (mydata, aes(Year, Mean)) + 
geom_ errorbar(aes(ymin = Mean - SE, ymax = Mean + SE)) + 


> 
+ 
>” 
+ 
+ 
+ geom_ point (shape=18, color="blue",aes(size = Mean) )+ 

+ geom_line (color="gray")+ 

+ geom_ribbon(aes (ymin=lwr, ymax=upr, fill="prediction"),alpha=0.2)+ 
+ scale fill manual ("Interval",values=c{("green", "blue"))+ 

+ labs (title="Régression type")+ 

+ stat_cor (method = "pearson")+ 

sd theme half open() + 

+ background grid() 

> 


20081, 


Mean = c(30.62089116, 54.99066324, 30.48859003, 45.70410611, 33.68256601, 
53.43496462, 23.08799875, 23.79166667, 23.75925926, 29.05555556, 28.13333333, 


SE = c(3.672624771, 2.822405771, 3.748388489, 4.284244405, 4.030964172, 
4.687042033, 5.17753488, 2.837795432, 3.688185081, 4.08597798, 7.877429079, 


geom smooth(data = mydata,method = "gam", aes(fill="confidence"),alpha=0.5,level=0.9) + 


Ce qui donne: 
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Maintenant passons à l'aspect un peu plus technique en utilisant la commande Im( ) : 


> setwd("C:/") 
> mydata<-read.csv("RegressionLineaireUnivariee.csv",header=T,sep=";") 
> summary(ols<-lmiformula=Ventes-Mois,data=mydata) ) 


Call: 
imiformula = Ventes - Mois, data = mydata) 


Residuals: 
Min 10 Median 30 Max 
3.32 —-1.34 0.44 0.78 3.00 


Coefficients: 

Estimate Std. Error t value Pr(i>|t|) 
{Intercept) 3.0200 2.1510 1.404 0.203089 
Mois 1.2200 0.2241 5.444 0.000963 *#* 


Signif. codes: O0 ‘“*## 0.001 ‘#*#* 0.01 ‘** 0.05 *.° 0.1 * * 1 


Residual standard error: 2.241 on 7 degrees of freedom 
Multiple R-squared: 0.868089, idjusted R-squared: 0.7816 
F-statistic: 29.63 on 1 and 7 DF, p-value: 0.0009626 


Nous retrouvons la même chose que dans Microsoft Excel et Minitab à la différence qu'il y a 
des informations manquantes avec R qui sont intéressantes dans la pratique et que la mise en 
page n'est pas des meilleures... 
NO 
; : . QŸ 2 
Nous pouvons cependant faire mieux pour récüpérer les valeurs manquantes: 
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setwud{i"C:/"] 
mydata<-read.csv("RegressionLineaireUnivariee.csv",header=T,sep=":") 
ols<-lm(formula=Ventes-Mois,data=mydata) 
attributes(ols) #liste des paramètres qu'on peut récuperer 
$names 
[1] "coefficients" ‘"residuals'" reffects" "rank" 
[5] "fitted.values" "assign" Le 1 "df.residual" 
[9] "xlevels'” "call" "terms" "model" 


$class 
[ 1] LL lra 


> ols$fcoefficients #récuper la liste des coefficients seuls 
{Intercept}) Mois 
3.02 Tee 


> confint {(ols) #intervalle de confiance des coefficients 
2.5 $ 97.5 * 

{Intercept]) -2.0662015 8.106202 

Mois 0.6900468 1.749953 

> anova(ols) 

Analysis of Variance Table 


Response: Ventes 
DE Sum Sq Mean Sq F value Pr(>F) 
Mois 1 145.84 145.840 29.633 0.0009626 *#*# 
Residuals 7 35.16 5.023 
Signif. codes: O0 ‘***° 0.001 ‘*** 0.01 ‘$° 0.05 *‘.’ 0.1 * “ 1 
> | 


Nous pouvons aussi afficher un graphique un peu similaire à celui de Minitab mais plus 
technique incluant le leverage (niveau de levier) et la distance de Cook: 
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Le 


à 


Le 


@R KR Console o | © | & 
> mydata<-read.csv("c:/tmp/RegressionLineaireUnivariee.csv",header=T,sep=";") 
> ols<-Im(Ventes-Mois,data=-mydata) 
> par(mfrow=c(2,3)) 
> plot(ols,1) 
> plot (ols,2) 
> plot (ols,3) 
> plot(ols,4) 
> plot(ols,s5) 
> plot (ols,6) 
2 
n| 
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Figure 240 Graph de diagnostique de la régression 


Sinon de manière plus courte et plus élégante avec le package performance et sa fonction 
check_model( ): 
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R R Console sex) 


> library("performance") 
> check model (ols) 


R R Gra 2? (ACTIVE) uenn)/|nteie (mes 

Linearity Homogeneity of Variance 
Reference line should be flat and horizontal Reference line should be flat and horizontal 
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où on dépasse largement la qualité et la pertinence de sortie de JMP ou Minitab! 


Nous pouvons faire un test de l'homoscédasticité sur la régression des résidus puisque si ces 
derniers satisfont les hypothèses, la droite passant par les résidus devrait avoir une pente nulle 
(ou non significative) ainsi qu'une ordonnée à l'origine nulle. Or, dans le cas présent: 
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Re RGui (64-bit -[ 
R Fichier Edition Voir Misc Packages Fenêtres Aide 


res _homo<-lm(Ventes-y$res,data=mydata) 
plot (mydata$fMois,y$res) 

abline(res homo) 

summary(res homo) 


Call: 
lmiformula = Ventes - y$res, data = mydata) 


Residuals: 
Min 10 Median 30 Max 
-7.32 -2.44 0.00 2.44 7.32 


Coefficients: 

Estimate Std. Error t value Pri>lt|) 
{Intercept) 14.0000 Lez 9.108 3.95e-05 t** 
y$res 1.0000 [u Per de à à 1.286 0.239 


Signif. codes: O ‘#*##’ 0.001 ‘#*’ 0.01 ‘f° 0.05 ‘.*’ 0.1 * * 1 
Resiqdual standard error: 4.611 on 7 degrees of freedom 


Multiple R-squared: 0.1911, idjusted R-squared: 0.07553 
F-statistic: 1.654 on 1 and 7 DF, p-value: 0.2394 N 


> | 


Revenons maintenant à du ludique. Si nous avons un jeu de données du type suivant où 
certaines valeurs d'abscisse se répètent: 
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[ ne, mes en 
R R Console || rx | 
> mydata<-read.csv("c:/tmp/RegressionLineaireRepetition.csv",header=T,sep=";:") 
> mydata 

Mois Couts 
1 1 44439 
2 2 43936 
3 3 44464 
4 4 41533 
5 5 46343 
6 6 44922 
7 7 43203 
8 8 43000 
9 9 40967 
10 10 48582 
5 M 1 11 45003 
12 12 44303 
13 1 42070 
14 2 44353 
15 3 45968 
16 4 477681 
17 5 43202 
18 6 44074 
19 7 44610 


Nous pouvons alors de façon élégante représenter l'amplitude de variation de chaque point 
dans le cadre d'une régression loess+linéaire avecd'ellipse de confiance avec le script suivant 
où nous avons mis en rouge les paramètres avé® lesquels on joue normalement en fonction du 
jeu de données: 


do.it <- function(df, type="confidence", ...) !{ 
require (ellipse) 
ImO0O <- Im(y - x, data=df) 
xc <- with(df, xyTable(x, y,digit-1)) 
df.new <- data.frame(x=seq(min(df$x), max(df$x), 1l)) 
pred.ulb <- predict(lm0O, df.new, interval=type) 
pred.lo <- predict(loess(y - x, data=df), df.new) 
plot(df$x, df$y, cex=xc$number*2, xlab="x", ylab="y", ...) 
abline(ilm0O, col="red") 
lines(df.new$x, pred.lo, col="green", lwd=1.5) 
lines(df.new$x, pred.ulb[,"lwr"], lty=2, col="red") 
lines(df.new$x, pred.ulb[,"upr"], lty=2, col="red") 
lines(ellipse(cor(df$x, df$y), scale=c(sd(df$x),sd(df$y)), 

centre=c{(mean(df$x),mean(df$y))), lwd=1.5, col="green") 

invisible(lmO) 


} 


mydata<- 
read.csv("c:/tmp/RegressionLineaireRepetition.csv",header=T,sep=";") 
df<-data.frame(x=mydata$Mois,y=mydata$Couts) 

do.it(df, pch=19, col=rgb(0,0,.7,.5)) 


Ce qui donne: 
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R R Graphics: Device 2 (ACTIVE) ER EZ 
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Figure 241 Graph de régression avec intervalle de confiance et prédiction et poids des points 


Et en prenant la moyenne des points (attention!!! Il n'est pas possible d'avoir le vrai rayon des 
cercles pour l'écart-type dès le moment où les deux axes n'ont pas les mêmes échelles): 


mydata<- 
read.csv("C:/tmp/RegressionLineaireRepetition.csv",header=T,sep=";") 
mydata.mean<-aggregate (mydata[2],by=1list (mydata$Mois),FUN=mean) 
mydata.sd<-aggregate (mydata[2],by=1list (mydata$Mois),FUN=sd) 
mydata<-merge (mydata.mean,mydata.sd,by="Group.1") 


colnames (mydata)<-c("Mois",'"Moyenne","StDev") 
mydatalis.na(mydata)]<-1 
mydata 
do.it <- function(df, type="confidence", ...) { 
require (ellipse) 
I1m0O <- Im(y - x, data=df) 
df.new <- data.frame(x=seq(min(df$x), max(df$x), 1)) 


pred.ulb <- predict(lm0, df.new, interval=type) 
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} 


pred.lo <- predict(loess(y - x, data=df), df.new) 

#Attention essayer de faire des disques de vrais rayons n'a pas de sens 
#dès le moment que l'axe X et Y n'ont pas la même échelle!!! 

plot(df$x, df$y, cex=df$stdev/500, xlab="x", ylab="y", ...) 

abline(lm0, col="red") 

lines(df.new$x, pred.lo, col="green", lwd=1.5) 

lines(df.new$x, pred.ulb[,"lwr"], lty=2, col="red") 

lines(df.new$x, pred.ulb[,"upr"], lty=2, col="red") 
lines(ellipse(cor(df$x, df$y), scale=c(sd(af$x),sd(dfSy)), 


centre=c{(mean(df$x),mean(df$y))), lwd=1.5, col="green") 
invisible (lmO) 
grid() 


df<-data.frame(x=mydata$Mois,y=mydata$Moyenne, stdev=mydata$StDev) 
do.it(df, pch=19, col=rgb(0,0,.7,.5)) 


Ce qui donne: 
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Effet de levier (leverage) et distance de Cook 


Dans le cours théorique nous avons mentionné qu'il existait de nombreuses techniques 
empiriques pour mesurer l'influence d'un point. R propose quelques classiques à ce propos et 
dans le cadre de ce présent support de cours nous allons nous concentrer sur le seul dont nous 
avons démontré l'origine mathématique détaillée dans le cours théorique et dont de toute 
façon la Distance de Cook et le DFITS découlent: l'effet de levier H. 


D'abord voyons comment afficher le graph de l'effet de levier seul: 


€ 


R & Console (Ss|allrsx| 


> y<-lm{iVentes-Mois,data=mydata) 
> plot(y,s) 
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Figure 242 Graph de diagnostique de effets de levier des résidus 


Nous pouvons obtenir une version complémentaire de ce dernier graph avec la fonction du 
influencePlot( ) package car: 
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F D! 


GR R Console se Es) 


> y<-lm(Ventes-Mois,data=-mydata) 
> library("car") 
> influencePlot (model) 

StudRes Hat CookD 
1 -1.943140 0.4711111 1.204157 
9 -2.955086 0.4711111 1.847948 
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Nous pouvons aussi obtenir directement l'effet de levier avec la commande hatvalues( ) : 


R Fichier Edition Voir Misc Packages Fenétres Aide 


y<-lm(Ventes-Mois,data=mydata) 
lev<-hatvalues (y) 


2 3 E 5 6 
«4711111 0.2011111 0.1511111 0.1211111 0.1111111 0.1211111 
7 8 9 
«1511111 0.2011111 0.4711111 
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On peut constater que la somme des effets de levier vaut bien: 
p + 1=2 
où p est pour rappel le nombre de variables explicatives du modèle. 


On peut aussi afficher les effets de levier de manière visuelle pour chacun des points: 


@R Conso sex) 


H<-hatvalues (1m(Ventes-Mois,data=-mydata)) 

plot (mydata$Mois,H,ylim=c(0,max(H))) 

#fla ligne suivante affiche l'effet de levier moyen 
abline (h=2/length(mydata$Ventes),col="grey") 

rug (mydata$Mois,side=1) 
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Résidus, résidus standardisés et résidus studentisés 


Les résidus sont obtenus simplement avec la fonction residuals( ) : 


& RGui (64-bit) - [R Console] L] 
GR File Edit View Misc Packages Windows Help (2 


> residuals(y) 
1 2 3 E — 6 7 8 9 


—2.68 -1.34 0.44 2.22 3.00 0.78 0.56 0.34 -3.32 
> | 
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Les résidus standardisés (normalisés) peuvent être obtenus avec la fonction rstandard ) : 


R RGui (64-bit) - [R Console] = Q 


GR File Edit View Misc Packages Windows Help A -DRe 11 


> rstandard(y) 


L 2 3 4 5 | 
—1.6442852 -0.6689385 0.2130845 1.0565999 1.4197834 | 
6 7 8 9 


0.3712378 0.2711984 0.1697307 -2.0369504 
> #ou respectivement 
|> residuals(y)/(summary(y)S$sigma*sqgrt(i-hatvalues(y))) 


| 1 2 3 4 5 
—1.6442852 -0.6689385 0.2130845 1.0565999 1.4197834 
| 6 7 8 9 

0.3712378 0.2711984 0.1697307 -2.0369504 


> | 


Donc pour l'instant tout est conforme à ce que nous avons vu dans le cours théorique! 


Maintenant voyons comment obtenir les résidussSludentisés: 


R RGui (64-bit) - [R Console] — O 


R File Edit View Misc Packages Windows Help IN 


> rstudent (y) 


d 2 3 1 — 
—1.9431403 -0.6401144 0.1979208 1.0670008 1.5577557 
6 7 8 9 
0.3471336 0.2524105 0.1574644 -2.9550863 


> | 


Ces derniers étant pénibles à obtenir "à la main” on s'abstiendra de montrer une approche 
alternative! 


On peut résumer un peu tout cela sous forme visuelle: 
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A Console Se 
> par(mfrow=c(2,2)) 
> y<-lm(Ventes-Mois,data=-mydata) 
> plot (hatvalues(y),ylab="leverage") 
> abline (h=2/length(mydataS$Ventes),col="grey") 
> plot (rstandard(y),ylab="Standardized residuals") 
> plot (rstudent (y) ,ylab="Cross-validated studentized residuals") 
> abline (h=qt (0.025, df-length(mydataS$Ventes)-2),col="red") 
> abline(h=qt(1-0.025,df=-length(mydata$Ventes)-2),col="red") 
> plot(cooks.distance(y),ylab="Cook's statistics") 
> abline(h=qchisq(0.1,2)/2,col="grey") 
> | 
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Analyse des influenceurs 


Il existe un formidable package qui reprend les éléments vus précédemment et qui en 
améliorent grandement l'aspect visuel. Il s'agit du package OLSRR. 


Voyons de quels visuels il s'agit en chargeant d'aborde la package avec notre modèle habituel: 


MR RGui (64-bit) - [R Console] — 


GR File Edit View Misc Packages Windows Help |, ix 


|> mydata<-read.csv("c:/tmp/RegressionLineaireUnivariee.csv",header=T, sep=";") 
|> model<-lm(Ventes-Mois,data-mydata) 

> library("olsrr") 

> | 
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Maintenant voyons les différents graphiques proposés par ce package (il est inutile de les 
commenter car le titre du graphique suffit à lui seul pour ceux qui ont suivi le cours 


théorique): 

R ÆTelx 
> ols plot_ cooksd bar (model) 

> | 

R 3 Device 2 (ACTIVE L=: le | & | 

Cook's D Bar Plot 
Threshoid: 0.444 
15 

CR Observation 

uw 10- 
Æ el normal 
Ô Æ outlier 

0.5 

0.0 

25 50 7.5 
Observation 
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Libres 


| > ols plot cooksd chart (model) 


Threshoid: 0.449 


| > ols plot dftetas(rodel) 


1 


page 1 of 1 
Influence Diagnostics for (Intercept) 


Threshold: 0.607 


R Statistical Software 1541/3133 


Vincent ISOZ, Daname KOLANI 


> ols plot_ resid stud(mcodel) 
, 7 


LE 


raph 


Studentized Residuais Plot 


Tireshcla: abs(3) 


LE] 


Stendardize1 Resicuals 
se 
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Li (ou) E x) 
> ols plot resid standimodel) 
>| 
k —, | 
ri Re RC ES 


Standardized Residuals Chart 


Threshold: abs(2} 
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= 
M ne F1] F1" 


> ols plot resid levy!model) 
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Analyse de la performance 


Il existe un package nommé performance et une fonction compare_performance( ) associée 
à un package nommé see qui permet de faire une analyse pertinente et pédagogique de 
différents modèles et pas que des modèles linéaires. Voyons cela avec un exemple: 


library ("performance") 

library("see") 

data(iris) 

imi<-1m(Sepal.Length-Species,data=iris) 
Im2<-lm(Sepal.Length-Species+Petal.Length,data=iris) 
Im3<-1m(Sepal.Length-Species*Petal.Length,data=iris) 
(result<-compare performance (1mi, 1m2,1m3)) 
Comparison of Model Performance Indices 


| R2_adjusted 


3.45e+26 
1.30e+25 


ts Tex) 


Comparison of Model Indices 


Models 


Cl imt (1m) 
D l1m2 (im) 
Cl im3 (1m) 


R2_adjusted 
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Exemple 248.: Régression linéaire univariée par moindres 


carrés ordinaires forcée à l'origine 
R 343 


Le fait de forcer la régression à l'origine est très important dans la pratique mais comme nous 
l'avons étudié dans le cours théorique, c'est également un sujet à controverses. Nous allons 
vérifier 1c1 si R calcule le coefficient de corrélation conformément à la définition alternative 
de ce dernier dans le cas où la régression est forcée à l'origine. 


Toute l'analyse se résume alors simplement à la série de commandes suivantes: 


8 File Edit View Misc Packages Windows Help 


EBSOISOSIOIE 


> mydata<-read.csv("c:/tmp/RegressionLineaireUnivariee.csv",header=T,sep=";") 
> mydata 
Mois Ventes 


1 3 El 
2 6 9 
3 7 1e 
4 8 15 
5 9 17 
6 10 16 
7 11 17 
8 12 18 
9 15 18 
> summary (lm(Ventes-0+Mois,mydata)) 


Call: 
im(formula = Ventes - 0 + Mois, data = mydata) 


Residuals: 
Min 10 Median 3Q Max 
—-4.7262 -0.1809 0.3341 1.3945 3.3643 


Coefficients: 
Estimate Std. Error t value Pr(>it|l) 
Mois 1.51508 0.08243 18.38 7.9e-08 


Residual standard error: 2.373 on 8 degrees of freedom 
Multiple R-squared: 0.9769, Adjusted R-squared: 0.974 
F-statistic: 337.8 on 1 and 8 DF, p-value: 7.903e-08 


> 


À comparer avec la sortie donnée par Minitab 18.1: 
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Analyse de régression : Ventes en fonction de Mois 


Analyse de variance 


SomCar Valeur 
Source DL ajust CMajust ValeurF dep 
Régression 1 1902.94 1902.94 337.84 0.000 
Mois 1 1902.94 190294 337.84 0.000 
Erreur 8 45.06 5.63 
Total 9 1948.00 


Récapitulatif du modèle 


Rcarré Rocarré 
S Roarré  (ajust) (prév) 
2.37333 97.69% 97.40% 96.44% 


Coefficients 


Valeur Valeur 
Terme  Coeff CoefeErT deT dep FIV 


Mois 1.5151 00824 18.38 0.000 1.00 


Equation de régression 
Ventes = 15151 Mois 


NN 


À comparer avec la sortie donnée par Microsoft Excel 14.0: 


A B C D E F G H I J 
RAPPORT DÉTAILLÉ 


il 

3 Statistiques de la régression 

EN Coefficient de détermination multiple  0.98836623 
5 
6 


Sù] Coefficient de détermination R12 0.9768678 
M] Coefficient de détermination R2 0.8518678 
Hi Erreur-type 2.37332888 
EM) Observations 9 


IA ANALYSE DE VARIANCE 


11 Degré de libertmme des carryenne des car F eur critique de F 
1PA Régression 1 1902.93848 1902.93848 337.838312 3.4961E-07 
EN Résidus 8 45.0615199 5.63268999 
JE Total 9 1948 
15 
16 Coefficients Erreur-type Statistique t _ Probabilité pour seuil de pour seuil de our seuil de cour seuil de confiance = 95.0% 
1WA Constante 0 #N/A #N/A #N/A #N/A #N/A #N/A #N/A 
IEM Mois 1.51507841 0.08242912 18.3803785 7.9029E-08 1.32499652 1.7051603 1.32499652 1.7051603 
Et dans SPSS 25: 
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Model Summary 


Adjusted R Std. Error of 
Model R R Square? Square the Estimate 


1 .988* 977 .974 2.37333 
a. Predictors: Mois 


b. For regression through the origin (the no-intercept model), 
R Square measures the proportion of the variability in the 
dependent variable about the origin explained by 
regression. This CANNOT be compared to R Square for 
models which include an intercept. 


ANOvA®? 
Sum of 
Model Squares df Mean Square F Sig 
1 Regression 1902.938 1 1902.938 337.838 .000° 
Residual 45.062 8 5.633 
Total 1948.000% g 


a. Dependent Variable: Ventes 
b. Linear Regression through the Origin 
c. Predictors: Mois 


d. This total sum of squares is not corrected for the constant because the constantis 
zero for regression through the origin. 


Coefficients®? 
Standardized 
Unstandardized Coefficients Coefficients 
Model B Std. Error Beta t Sig 
1 Mois 1.515 .082 988 18.380 .000 


a. Dependent Variable: Ventes 
b. Linear Regression through the Origin 


Donc nous voyons que tous les logiciels utilisent définition alternative du coefficient de 
corrélation alternatif puisque nous retombons Sr la valeur calculée à la main dans le cours 
théorique de 0.9769! 
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Exemple 249.: Régression linéaire univariée par moindres 


carrés ordinaires avec M-estimateurs 
R 3.1.2 


Nous avons étudié dans le cours théorique quelques M-estimateurs avec un regard très 
critique sur le choix de ces derniers. Voyons comme il est possible avec R de faire une 
régression robuste basée par défaut sur le M-estimateur de Humber à l'aide de la fonction 
rim( ) du package MASS en reprenant les mêmes données que l'exemple précédent: 


R 
R File Edit View Misc 


FREE E 


library ("MASS") 
mydata<-read.csv("c:/tmp/RegressionLineaireUnivarieeRobuste.csv",header=T,sep=";") 
y<-rilm(Ventes-Mois,data=-mydata) 

plot (mydataS$Mois,mydataS$Ventes) 

abline (y) 

summary (y) 


Packages Windows Help 


VVVNNNV 


Call: rlm(formula = Ventes + Mois, data = mydata) 
Residuals: 

Min 1Q Median 3Q Max 
—4.1116 -1.1526 0.2035 0.5323 2.8611 


Coefficients: 

Value Std. Error t value 
(Intercept) 2.1799 2.3434 0.9302 
Mois 1.3288 0.2442 5.4421 


Residual standard error: 1.709 on 7 degrees of freedom 
> | 


Avec le graphique correspondant: 
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l'aRGmn parer ee EICIES 


mydatafÿVentes 


L 6 8 10 12 14 


mydata$Mois 


Comparons maintenant le modèle avec M-estimateur de Huber et de Tukey (pour information 
il y aussi la méthode des estimateurs MM! !!): 
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R RGui (64-bit) - [R Console] pr 


ŒR File Edit View Misc Packages Windows Help x 


SIA 


> model huber<-rlm(Ventes-Mois,method="M", psi=psi.huber, data-mydata) 
> summary (model _huber) 


Call: rlm(formula = Ventes + Mois, data = mydata, psi = psi.huber, 
method = "M") 

Residuals: 
Min 1Q Median 3Q Max 

=4:1116 -1-1526 0:-2035 0:5323 2.:8611 


Coefficients: 

Value Std. Error t value 
(Intercept) 2.1799 2.3434 0.9302 
Mois 1.328868 0.2442 5.4421 


Residual standard error: 1.709 on 7 degrees of freedom 
> model tukey<-rlm(Ventes-Mois,method="M", psi=psi.bisquare, data-mydata) 
> summary (model tukey) 


Call: rlm(formula = Ventes - Mois, data = mydata, psi = psi.bisquare, 


method = "M") 
Residuals: 
Min 10 Median 30 Max 


—3.7032 -1.2706 0.3780 0.6483 2.9185 


Coefficients: 

Value Std. Error t value 
|(Intercept) 2.6488 2.4469 1.0825 
Mois 1:2703 0:2550 4.9824 


Residual standard error: 1.884 on 7 degrees of freedom 
>| 


à comparer avec le modèle non robuste où nous avions obtenu pour rappel..….: 


R RGui (64-bit) - [R Console] — 


ŒR File Edit View Misc Packages Windows Help -|#|x 


SIA 


> model ols<-Ilm(Ventes-Mois,data=-mydata) 
> summary (model _ols) 


CAS 
im(formula = Ventes - Mois, data = mydata) 


Residuals: 
Min 10 Median 3Q Max 
—-3.32 -1.34 0.44 0.78 3.00 


Coefficients: 

Estimate Std. Error t value Pr(>|tl) 
(Intercept) 3.0200 Z:1510 1.404 0.203089 
Mois 1:2200 0.2241 5.444 0.000963 


Residual standard error: 2.241 on 7 degrees of freedom 
Multiple R-squared: 0.8089, Adjusted R-squared: 0.7816 
F-statistic: 29.63 on 1 and 7 DF, p-value: 0.0009626 


>| 
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Exemple 250.: Régression par densité de noyaux 
R 3.0.2 


Nous avons vu dans le cours théorique les détails mathématiques des deux cas classiques de 
régression par densité de noyaux et régression polynomial par régression de noyaux. 


D'abord commençons par poser le contexte en faisant une simple régression linéaire par 
moindres carrés ordinaires: 


R File Edit View Misc Packages Windows Help - 5 x 


ÉROSGSOE 


> mydata<-read.csv("c:/tmp/RegressionLineaireUnivariee.csv",header=T,sep=";") 


> mydata 
Mois Ventes 
[1 3 5: 
2 6 9 
3 7 12 
El 8 15 
5 9 17 
6 10 16 
7 11 L7 
8 12 18 
9 15 18 
> fit.lm<-lm(Ventes-Mois,data=-mydata) 
> summary (fit.lm) 


Call: 
im(formula = Ventes - Mois, data = mydata) 


Residuals: 
Min 1Q Median 3Q Max 
<3-32 -1-34 0.44 0.78 3.00 


Coefficients: 

Estimate Std. Error t value Pr(>|tl) 
(Intercept) 3.0200 2.1510 1.404 0.203088 
Mois 1.2200 0.2241 5.444 0.000963 


Residual standard error: 2.241 on 7 degrees of freedom 
Multiple R-squared: 0.8089, Adjusted R-squared: 0.7816 
F-statistic: 29.63 on 1 and 7 DF, p-value: 0.0009626 


> plot (mydataS$Mois,mydata$Ventes) 
> abline(fit.lm,col="blue") 
>| 


Ce qui donne visuellement: 
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le à 


mr Graphics: Device 2 (ACTIVE) ets) 


12 14 16 18 


mydata$Ventes 
10 


4 6 8 10 12 14 


mydata$Mois 


Voyons maintenant la régression par densité de noyaux en choisissant un noyau gaussien via 
la fonction native ksmooth( ): 


b,. 


R RGui (64-bit) - [R Console] = 


ŒR File Edit View Misc Packages Windows Help IR 


fit.ks<-ksmooth(mydata$Mois, mydata$Ventes, bandwidth = 3, kernel = "normal",n.points = 100) 


plot (mydataSMois,mydata$Ventes) 
abline(fit.lm,col="blue") 
lines(fit.ks,col="green") 


VVVNVNNVNV 


fit:ks$x 

[1] 3.000000 3.121212 3.242424 3.363636 3.484848 3.606061 3.727273 3.848485 
[91] 3.969697 4.090909 4.212121 4.333333 4.454545 4.575758 4.696970 4.818182 
[17] 4.939394 5.060606 5.181818 5.303030 5.424242 5.545455 5.666667 5.787879 
[251 5.909091 6.030303 6.151515 6.272727 6.393939 6.515152 6.636364 6.757576 
[33] 6.878788 7.000000 7.121212 7.242424 7.363636 7.484848 7.606061 7.727273 
[41] 7.848485 7.969697 8.090909 8.212121 8.333333 8.454545 8.575758 8.696970 
[49] 8.818182 8.939394 9.060606 9.181818 9.303030 9.424242 9.545455 9.666667 
[57] 9.787879 9.909091 10.030303 10.151515 10.272727 10.393939 10.515152 10.636364 
[65] 10.757576 10.878788 11.000000 11.121212 11.242424 11.363636 11.484848 11.606061 
[73] 11.727273 11.848485 11.969697 12.090909 12.212121 12.333333 12.454545 12.575758 
[81] 12.696970 12.818182 12.939394 13.060606 13.181818 13.303030 13.424242 13.545455 
[89] 13.666667 13.787879 13.909091 14.030303 14.151515 14.272727 14.393939 14.515152 
[97] 14.636364 14.757576 14.878788 15.000000 
> Eit.ksSy 

[1] 4.139831 4.187533 4.250917 4.334612 4.444195 4.590427 4.773757 5.003715 
[9] 5.285432 5.620750 6.006504 6.433465 6.886672 7.351381 7.802459 8.226824 
[117] 8.614130 8.960062 9.265489 9.534861 9.774532 9.991428 10.193975 10.385099 
[251 10.571051 10.755829 10.942546 11.133531 11.330434 11.534311 11.746693 11.966073 
[33] 12.192831 12.426274 12.665377 12.908812 13.155000 13.403175 13.649650 13.892882 
[41] 14.131259 14.362792 14.585617 14.798068 14.998725 15.186464 15.360492 15.520371 
[49] 15.666024 15.797729 15.916094 16.022025 16.116675 16.201386 16.277625 16.346912 
[57] 16.410756 16.470588 16.527706 16.583233 16.638078 16.692931 16.749004 16.804969 
[65] 16.861677 16.919130 16.977082 17.035208 17.093135 17.150483 17.207545 17.262453 
[73] 17.315881 17.367597 17.417448 17.465355 17.511308 17.555363 17.598182 17.638606 
[81] 17.677544 17.715087 17.751255 17.785953 17.818946 17.849852 17.878188 17.903706 
[89] 17.925464 17.943633 17.958286 17.969718 17.978377 17.984768 17.989387 17.993196 
[97] 17.995299 17.996770 17.997790 17.998493 
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Ce qui donne visuellement: 


£ 


mydata$Ventes 


e 6 8 10 12 14 


mydata$Mois 


Pour déterminer la valeur de l'ordonnée correspondant à (exemple pris au hasard) de x = 6 on 
utilisera: 


À RGui (64-bit) - [R ole] - 


R File Edit View Misc Packages Windows Help 


> which.min(abs(fit.ksSx-6)) 

[1] 26 

| > fit.ksSy[which.min(abs(fit.ksSx-6))] 
[1] 10.75583 

> | 


On peut procéder de manière similaire avec la fonction locpoly( ) du package pour la 
KernSmooth régression polynomial par densité de noyaux: 


R Statistical Software 1553/3133 


Vincent ISOZ, Daname KOLANI 


Sciences.ch 


MR RGui (64-bit) - [R Console] 
OR File Edit View Misc Packages Windows Help 


library (KernSmooth) 

fit.pks<-locpoly(mydata$Mois, mydataS$Ventes, bandwidth 
plot (mydataSMois,mydata$Ventes) 
abline(fit.lm,col="blue") 

lines(fit.ks,col="green") 

lines(fit.pks,col="red") 


tune prédiction 
which.min(abs(fit.pksSx-6)) 

[1] 101 

> fit.pksS$Sy[which.min(abs(fit.pksSx-6))] 
[1] 9.888969 

A 


VVNVNVNNVNNVNNNNV 


Ce qui donne visuellement: 


= 3, kernel = "normal") 


# 
MR Graphics: Device 2 (ACTIVE) 


12 14 16 18 


mydata$\entes 
10 


“ 6 8 10 


mydata$Mois 


12 14 
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Exemple 251.: ANOVA de la régression linéaire (bivariée) à 


facteurs fixes 
R 3.02 


Considérons les données suivantes du cours théorique: 


KR Fichier Edition Voir Misc Packages Fenêtres Aide 


> mydata<-read.csv{"C:/tmp/ANOVA Regression Ol.csv",header=T,sep=";") 
> mydata 
Janvier Février 

304 280 


284 303 
290 294 


310 270 
320 276 
270 310 
309 290 
293 312 
315 260 
301 325 


VY OH (0 © -J o OU & © ND H 


Et procédons à une ANOVA à I facteur fixe: 


annur-v- mt | 


R Fichier Edition Voir Misc Packages Fenêtres Aide [-ls|x] 


> mydata<-stack(mydata) 
l- sunmmaryi(aov( values - ind, mydata)) 


D£ Sum Sg Mean Sq F value Pri>F) 
ind 1 289 288.8 0.87 63 
Residuals 15 5976 332<0 
> | 


ou en passant donc par la régression linéaire: 
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Gui (64-bit - [ 
R Fichier Edition Voir Misc Packages Fenétres 


> anovallmivalues - ind, mydata)) 
Analysis of Variance Table 


Response: values 

DE Sum Sgq Mean Sq F value Pri>F) 
ind 1 286.8 266.60 0.868698 0.3633 
no C 18 5976.4 332.02 
> 


È 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> mydata<-read.csv("C:/tmp/ANOVA Regression 02.csv",header=T,sep=";"] 

> mydata 

C.A. Janvier Février 
304 1 
284 
290 
310 
320 
270 
309 
293 
315 
301 
280 
303 
294 
270 
276 
310 
290 
312 
260 
325 


SO JnnEeu D Hh 


H H 
H © 


HHHH 
in E © © 


H 
-J 
HHHHHHHHHHOGOO0000000 


O0000000006HBHHHHHH 
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Et ensuite nous procédons à une régression de tableau avec une analyse d'ANOVA pour voir 
que nous retombons bien sur nos pattes et avec les mêmes propriétés que celles discutées dans 
le cours théorique: 


R Fichier “Edition Voir Misc Packages Fenêtres Aide 


> anovallm(C.i. - Janvier+Février, mydata)) 
Analysis of Variance Table 


Response: C.dA. 

DÉ Sum Sg Mean Sq F value Pri>F) 
Janvier 1 258.6 266.60 0.669585 0.3633 
Residuals 18 5976.4 332.02 


> anova(lmiC.à. - Février+Janvier, mydata)) 
Analysis of Variance Table 


Response: C.A. 

DÉ Sum S5g Mean Sq F value Pri>F) 
Février 1 268.6 268.60 0.8698 0.3633 
TT 18 5976.4 332.02 
> 
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Exemple 252.: Régression quantile linéaire (globale) 
R 3.0.2 


Donc comme vu dans le cours de méthodes numériques, la régression quantile (uni ou 
multivariée) non censurée qui fait partie des techniques de régressions non paramétriques 
(avec la régression boostrap) et qui de mon point de vu est plus une technique numérique 
qu'une technique purement statistique sur le fond... 


Nous allons ici comparer le résultat donné par le package quantreg par rapport aux trois 
situations calculées avec Microsoft Excel dans le cours théorique: 


e La régression linéaire paramétrique ordinaire 
e La régression linéaire OLS des quantiles 
e La régression linéaire de la déviation absolue des quantiles par optimisation (LAD) 


Remarque: Malheureusement le package nlrq de R qui faisait de la régression quantile non 
linéaire ne semble plus être maintenu... Le lecteur intéressé pourra aussi avec le package 
quantreg faire une régression quantile par bootstrapping. 


Rappelons que cette technique est très utile en finance et dans le domaine biomédical. 
Cependant on lui préfère dans les cas non linéaires l'interpolation par spline. Voici par 
exemple un cas typique de l'interpolation quantile par spline que nous avons presque tous 
connus en étant petit quand nous allions chez le docteur pour mesurer notre taille en fonction 
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Bon ce rappel étant fait, nous partons du même jeu de données fictifs que dans le cours 


théorique: 


R Fichier Edition Voir Misc Packages Fenétres Aide 


> library(iquantreg) 
> mydata<-read.csv("C:/QuantReg.csv",header=T,sep=";:") 


> head(imydata) 


sexe Âge mois Taille 


F 


1 
2 
3 
4 
5 
6 
> 


F:71 Min. 


G:61 ist Qu.: 


Median 
Mean 


summary (mydata) 
Sexe Âge mois 


3rd Qu.: 


Taille 


Min. : 88. 
ist Qu.: 98. 
Median :101. 
Mean :100. 
srd Qu.:103;, 
Max. 111: 


Maintenant, nous faisons une régression linéaire quantile de la médiane avec la commande 
rqa() du package quantreg et regardons ce que nous obtenons par rapport à ce que nous 


avions obtenu dans Microsoft Excel pour la médiane: 
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R Fichier Edition Voir Misc Packages Fenêtres Aide 


> quantreg<-rq{Taille-ige mois,tau-0.5,data=-mydata) 

Message d'avis 

In Erq.fit.brix, y, tau = tau, ...) : Solution may ke nonunique 
> summary(quantreg) 


Call: rq(formula = Taille + ige mois, tau = 0.5, data = mydata) 


tau: [1] 0.5 


Coefficients: 
coefficients lower bd upper bd 
{Intercept) 101.00000 99.48892 102.05327 
âge mois 0.00000 -0.19782 0.115341 
Message d'avis 
Y, tau = tau, ci = TRUE, NN : Solution may be nonunique 
> 


Donc c'est pas mal du tout par rapport à Microsoft Excel! Il en est de même pour d'autres 
quantiles! 


Rappel: Il n'y a pas à ce jour de méthodes établis pour calculer correctement l'erreur 
standard des résidus ou un R? d'une régression quantile!! Mais si on veut vraiment par 
exemple comparer l'erreur standard entre les deux modèles: 
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R RGui (64-50 -(R Console - 0 


KR File Edit View Misc Packages Windows Help = FX 


> summary (lm(Taille-Age mois,data=mydata)) 


Call: 
im(formula = Taille - Age mois, data = mydata) 


Residuals: 
Min 1Q Median 3Q Max 
-12.3012 -2.7119 0.1652 2.7791 10.7211 


Coefficients: 

Estimate Std. Error t value Pr(>it|) 
(Intercept) 100.62249 0.64621 155.71 <2e-16 *** 
Age mois 0.02234 0.09730 0.23 0.819 


Signif. codes: (0 ‘#*##*”’ 0.001 ‘**#*’ 0.01 ‘*’ 0.05 *.’ 0.1 * ’ 1 


Residual standard error: 4.248 on 150 degrees of freedom 
Multiple R-squared: 0.0003514, Adjusted R-squared: -0.006313 
F-statistic: 0.05273 on 1 and 150 DF, p-value: 0.8187 


> sqrt(sum((lm(Taille-Age mois,data=mydata) $residuals)”"2)/150) 

[1] 4.247892 

> sqgrt(sum((rq(Taille-Age mois,tau=0.5,data=mydata) $residuals)”"2)/150) 
[1] 4.256203 

Warning message: 

+ bi Y, tau = tau, ...) : Solution may be nonunique 

> 


Comme quoi... ce n'est pas toujours le non-paramétrique qui est le meilleur. 


Maintenant, nous faisons plot de la régression linéaire OLS paramétrique avec des régressions 
linéaires quantiles pour différents quantiles: 
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VH++NVNVNVY 


x 


R R Console IE IES 


+ 


pilot imydata$ige mois,mydatafTaille,xlab="ige",ylab="Taille",col = #“hlue'") 
abline (quantreg,col="blue") 
abline(lmimydataf$fTaille-mydata$äge),lty = 2, col = "red'") 


taus <= ci0.05, 0.1, 0.25, 0.75, 0.9, 0.95) 

for (i in 1:length(taus)) !{ 

abline(rqimydatafTaille-mydata$äige, tau = taus[i]l), col = "gray") 
} 


0000 60! 0 


D RS Te eq === RE LES 


900 
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Figure 243 Graph d'une régression quantile 


Comme nous pouvons le constater et l'avions fait observer dans le cours de méthodes 
numériques, des régressions quantiles peuvent donc bien se croiser! 


Sinon on peut faire quelque chose de plus brut: 
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R [s|e | x | 


> quantreg<-rq(Taille-Age mois, tau=seg(0.05,0.95,by=0.05),data-mydata) 
Warning message: 

In rq.fit.br(x, y, tau = tau, ...) : Solution may be nonunique 

> plot (summary (quantreg)) 


L'Ae De [Ss|e|x | 


(Intercept) 


02 0.4 06 0.8 


Age_mois 


02 04 06 


-04 


Divers quantiles sont représentés par l'axe X. La ligne centrale rouge indique les estimations 
des coefficients OLS et les lignes rouges en pointillés sont les intervalles de confiance autour 
de ces coefficients OLS pour divers quantiles. La ligne pointillée noire représente les 
estimations de régression quantile et la zone grise est l'intervalle de confiance pour divers 
quantiles. Nous pouvons voir que pour la seule variable, les deux régressions estimées 
coïncident pour la plupart des quantiles. Cependant pour l'ordonnée à l'origine ce n'est pas le 
cas! 


Par conséquent, notre utilisation de la régression quantile n'est pas justifiable pour de tels 
quantiles. En d'autres termes, nous voulons que les lignes rouge et grise se chevauchent le 
moins possible pour justifier notre utilisation de la régression quantile. 
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Exemple 253.: Estimateur de Theil-Sen (régression médiane) 
R 3.3.2 


Comme nous l'avons vu dans le cours théorique, cette technique empirique est très simple à 
comprendre et à mettre en place. Nous allons voir ici qu'elle est disponible dans R bien 
évidemment et surtout la comparer à la régression quantile vue juste précédemment. 


Donc d'abord nous chargeons le jeu de données: 


ft RGui (64-bit) - [R Console] 


R File Edit View Misc Packages Windows Help 


> library (mblm) 
> mydata<-read.csv("C:/tmp/QuantReg.csv",header=T,sep=";:") 
> | 


Et ensuite nous utilisons la fonction mblm( ) du package mblm: 


FR RGuiï (64-bit) - [R Console] 
ŒR File Edit View Misc Packages Windows Help 


> fit<-mblm(Taille-Age mois,data=mydata) 
> summary(fit) 


Call: 
mblm(formula = Taille - Age mois, dataframe = mydata) 


Residuals: 
Min 1Q Median 3Q Max 
-11.5833 -2.0833 0.9167 3.5417 11.4167 


Coefficients: 
Estimate MAD V value Pr(>|V|) 
(Intercept) 100.0833 3.586829 11628 <2e-16 *** 
Age mois 0.0000 0.4942 3794 0.964 
Signif. codes: O ‘#**#*” 0.001 ‘**’ 0.01 ‘*’ 0.05 *.’ 0.1 * ’ 1 


Residual standard error: 4.301 on 150 degrees of freedom 


>| 
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Nous pouvons faire un plot tout simple: 


> plot (mydata$Age mois,mydata$Taille) 
> abline(fit,lty=2) 
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Figure 244 Graph d'une régression médiane 


Ce qui est beaucoup plus intéressant par contre, c'est que nous pouvons faire un plot de la 
densité des pentes: 
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> plot(density(fit$slopes)) 
> 


density.default(x = fit$slopes) 


0 1 


Bandwidth = 0.1696 


> plot(density(fit$intercepts)) 


density.default(x = fit$intercepts) 


95 100 105 110 


N=152 Bandwidth = 1.012 
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Exemple 254.: Régression linéaire univariée par moindres 
carrés ordinaires (modèle Gaussien) avec plot 2D/3D du 


modèle sous-jacent 
R 3.0.2 


Dans la littérature (la bonne de qualité!), nous voyons souvent les régressions linéaires 
univariées représentées avec la loi Normale à la verticale. Comme c'est une fonctionnalité 
souvent demandée voici typiquement le code avec l'aimable autorisation de 

Arthur CHARPENTIER pris de son billet de blog du mois d'octobre 2011: 


http://freakonometrics.hypotheses.org/2280 


Donc avec des données bidons cela donne d'abord au niveau des commandes. 


KR Fichier Edition Voir Misc Packages Fenêtres Aide 


X=c(1,2,3,4):Y=c(1,2,5,6) 

pilot (X,Y,pch=3,cex=1.5,lwd=2,xlab="",ylab="") 
base=data.frame(X,7Y) 
nbase=data.frame(X=seg(0,5,bhy=.1)) 
regi=lm(iÿ-1+X,data=base) 

Yi=predict (regil,newdata=nbase) 

lines (nbase$X,Y1,col="red",lud=2) 

point=2 

mu=predict (regi) [point] 

sioma=suwmmary(regl) $sigma 

yv=seq(0,7,.05) 

loi=dnormiy,mu,sioma) 

segments (point,y,loi+point,y,col="light green’) 
lines(loi+point,y) 

abline(v=point, lty=2) 
points(X[point],Y[{[point],pch=19,cex=1, lwd=2,col="red") 
points(X{[point],predict (reg1i)j [point],pch=19,col="blue") 


> 
> 
? 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> | 


Ce qui donne visuellement: 
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Figure 245 Graph de régression avec représentation de la Gaussienne sur un point 
N 
Ne) 


Ÿ 
De même en perspective 3D et provenant toujours du même blog: 


attach(cars) 

n=2 #choix empirique 

X=cars$speed 

Y=cars$dist 

df-data.frame(X,Y) 

vX=seq(min(X)-2,max(X)+2,length=n) 

vY=seq(min(v)-15,max(Y)+15,1length=n) 

on crée la box 3D à vide (remarquez l'astuce!) 
mat=persp(vX,vY,matrix(0,n,n),zlim-=-c(0,.1),theta=-30,ticktype-="detailed") 
mat va servir de matrice de projection pour la suite 


du classique: 
regmdl=glm(y-X,data-df,family-gaussian(link="identity")) 
on prépare x pour dessiner les lignes 
x=seq(min(X),max(X),length=500) 


pas évident à deviner... mais logique une fois qu'on la vu! 
regLine=trans3d(x,predict (regmdl,newdata=data.frame(X=x),type="response"), 
rep(0,length(x)),mat) 

sdgig=sqrt (summary (regmdl)$dispersion) #scalaire (valeur unique) 


yli=qnorm(.95,predict(regmdl,newdata-data.frame(X=x),type="response"),sdgig) 
y2=qnorm(.05,predict(regmdl,newdata-data.frame(X=x) ,type="response"),sdgig) 


#maintenant on dessine tout cela! 

#en faisant attention à l'ordre pour ne pas écraser c 

#qui a été dessiné auparavant 
C=trans3d(c(x,rev(x)),c(yl,rev(y2)),rep(0,2*length(x)),mat) 
polygon(C,border=NA,col="yellow") 


lines (regLine,lwd=2) 
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upLline=trans3d(x,yl,rep(0,length(x)),mat) 
lines (upLine, 1ty=2) 


lowLine=trans3d(x,y2,rep(0,length(x)),mat) 
lines (lowLine,1lty=2) 


C=trans3d(X,Y,rep(0,length(X)),mat) 
points(C,pch=19,col="red") 


#maintenant on dessine les gaussiennes en perspectiv 
n=8 

vX=seq(min(X),max(X),length=n) 

mgig=predict (regmdl,newdata=data.frame(X=vXx)) 
sdgig=sqrt (summary (regmdl)$dispersion) 


#partie pas évidente à deviner! 
for(j in n:1)f{ 
stp=251 
x=rep(vX[3j1,stp) 
y=seq(min(min(Y)- 
15,qnorm(.05,predict (regmdl,newdata=-data.frame(X=vX[j]),type="response"), 
sdgig)),max(Y)+15,length=stp) 
zO=rep (0,stp) 
z=dnorm(y, mgig[jl, sdgig) 
C=trans3d(c(x,x) ,c(y,rev(y)),c(z,z0),mat) 
polygon(C,border=NA,col="light blue",density-=40) 
C=trans3d(x,y,z0,mat) 
lines (C,1lty=2) 
C=trans3d(x,y,z,mat) 
lines (C,col="blue") 


Figure 246 Graph de régression avec représentation 3D de multiples Gaussiennes 
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Et nous pouvons évidemment faire de même avec d'autres distribution (pensez aux modèles 
de régressions linéaires généralisées Binomiaux, ou Poissons). 


W 
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Exemple 255.: Régression non linéaire univariée par moindres 


carrés ordinaires (modèle Gaussien) 
R 3.0.2 


Nous pouvons faire comme nous l'avons vu dans le cours théorie une régression uni ou 
multivariée non linéaire par moindres carrées ordinaires. 


En utilisant toujours les mêmes données: 


Fichier Edition Format Affichage 2? 
Mois;Ventes 


KR Fichier Edition Voir Misc Packages Fenêtres Aide 


> mydata<-read.csv{"C:/RegressionLineaireUnivariee.csv",header=T,sep=";:") 
> y<-n1ls (Ventes-alphaf (1-expi-lambda*Mois)),mydata,start=c{(alpha=i, lambda=0.02)) 
> summary(y) 


Formula: Ventes - alpha * (1 - exp(-lambda * Mois)) 


Parameters: 

Estimate Std. Error t value Pri>lt|l) 
alpha 27.32334 7.30644 3.740 0.00727 ** 
lambda 0.08546 0.03642 2.346 0.051136 


Signif. codes: O0 ‘#*#° 0.001 ***° 0.01 **° 0.05 *.° 0.1 * * 1 
Residual standard error: 1.681 on 7 degrees of freedom 


Number of iterations to convergence: 11 
ichieved convergence tolerance: 7.936e-06 


> plot (mydatafMois,mydatafVentes) 

> lines (mydatafMois,predict(yi,col="red",lud=2) 

> legendi"topleft", legend = capture.output (summary(y)[1]), cex = 
> grid) 

> | 


Ce qui donne: 
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mydata$Ventes 


4 6 8 10 12 14 


mydata$Mois 


Ensuite, si nous voulons prédire de nouvelles valeurs: 


Gui {64-bit: -! 


R Fichier Edition Voir Misc Packages Fenêtres 


> predict (y, data.frame (Mois=c(15,18,22) ,0Obs=c(0))) 
[1] 19.740084 21.45564 23.15456 
> | 


Tiré de l'ouvrage Biostatistcal Analysis and Design using R de Murrey Logan voici un 
excellent petit résumé des cas classiques des fonctions utilisées avec nls( ) : 
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Function Preview 


Concave/convex functions 
Power (y — ax?) 
Used to describe a large range of physical and biological trends B>1 


including allometric scaling relationships (e.g. Kleiber's law) and ous 
inverse square laws (e.g. Newtonian gravity). « defines the scale of 
the y-axis and B defines the magnitude and polatity of the rate = 


of change and thus the degree of curvature 
> nls(DV-a*IV"b, dataset, start-list(a=1, 
b=0.1}) 


Exponential (y = œel*) 
Models non-asymptotic growth and decay. & defines the scale of 
the y-axis and increasing magnitude of B increases the curvature of 
the curve. 
> nls(DV-a*exp(b*IV), dataset, starlt-list(a=1, 
b=0.1)) 


Aymptotic functions 
Asymptotice exponential (y = à + (B = œ)e®’*) 


Used to describe general asymptotic relationships. ns? 
Equivelent to the more simple y—a—be * when a =, k 
b = B — a andc = e7 : 
a - y value of horizontal asymptote. B - value of y when x = 0. 
y - natural log of rate of curvature 
> nls(DV-a+b*exp(c*x),dataset,start-=list(a=1, 
=-1,c=-1)) 
> nls(DV-SSasymp(IV,a,b,c), dataset) 


Michaelis-Menten (y = == 


B+x 

Used to relate rates of enzymatic reactions to substrate concentra- re 
tions 

a — y value of horizontal asymptote. B (Mechaelis parameter) - #<0 


value of x at which half the asymptotic response is obtained. 

> nls(DV-(a*IV)/(b*IV), dataset, 
start=list(a=1, b=1)) 

> nls(DV-SSmicmen(IV,a,b), dataset) 
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Exemple 256.: Coefficient de corrélation de Pearson et test 


associé 
R 3.0.2 


Là encore, nous allons vérifier que nous retrouvons les mêmes résultats que les calculs faits à 
la main après la démonstration mathématique dans le cours théorique du test et que dans 
Minitab et ce avec les mêmes données en utilisant la commande cor.test( ) : 


CG RGui (64-bit) - [R Ce 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> Informatique<-c(10.5,8.75,2,12.5,11,15.5,10.5) 

> Statistique<-c(16,14,10,5,14,16,11) 

> mydata<-as.data.frame(chind(Informatique,Statistique)) 
> cor (mydata$Informatique,mydata$Statistique) 

[1] 0.2982849 

> cor.test (mydata$ Informatique, ,mydata$Statistique) 


Pearson's product-moment correlation 


data: mydata$Informatique and mydata$fStatistique 
0.6988, df = 5, p-value = 0.5158 
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval: 
-0.5865210 O.8585014 

sample estimates: 

cor 
0.2982849 


> | 


Nous retrouvons donc les mêmes valeurs à la différence que R donne des informations plus 
pertinentes et plus précises que Minitab (du moins par défaut). 


Nous pouvons à l'aide de la commande rcorr() du package Hmisc faire de multiples 
affichages de p-values du test de Pearson d'un coup. Voyons cela: 
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RGui {64-bit - I 
RGui {64-bit 


| R Fichier Edition Voir Misc Packages Fenétres Aide 
@| 


> library(Hmisc) 
> mydata<-read.csv("C:/VariationsTitres.csv",header=T,sep=":") 
> rcorr (as.matrix (mydata)) 

Crédit.Lyonnais France.Télécom Lafarge Saint.Gobain Total.Fina.Elf 
Crédit.Lyonnais 1.00 0.05 0.73 0.54 0.59 
France.Télécom 0.05 1.00 -0.04 -0.50 -0.16 
Lafarge 573 -0.04 1.00 0.74 0.53 
Saint .Gobain 0.54 -0.50 0.74 1.00 0.59 
Total.Fina.Elf 0.59 -0.16 0.53 0.59 1.00 


n= 12 


P 

Crédit.Lyonnais France.Télécom Lafarge Saint.Gobain Total.Fina.Elf 
Crédit.Lyonnais 0.686827 0.0066 0.0718 0.0421 
France.Télécom 0.8827 0.9051 0.0980 0.6247 
Lafarge 0.0066 0.9051 0.0060 0.0771 
Saint.Gobain 0.0718 0.0980 0.0060 0.0427 
Total.Fina.Elf O.0421 0.6247 0.0771 0.0427 


> | 
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Exemple 257.: Coefficient de corrélation bisérial ponctuel 
R 3.63 


Rien d'extraordinaire ici puisque que comme nous l'avons démontré dans le cours théorique il 
s'agit d'un cas particulier du coefficient de corrélation de Pearson (avec la subtilité que la 


corrélation bisériale utilise l'estimateur biaisé de la variance). 


Voyons donc un exemple en considérant le jeu de données suivant: 


> #d'abord faisons le pearson classique 
> cor (mydata$Genre.Homme.,mydata$Taille,method="pearson") 


R 
R File Edit View Misc Packages 
Genre.Homme. Taille 
1 1 1.65 
2 1 1.74 
3 L 1.76 
4 1 EL: 71 
S À 1.81 
6 1 1:74 
| 7 L 1.78 
8 1 1.69 
9 1 : EE à À 
10 1 1.65 
11 1 L:6L 
12 1 e PE 
13 L 1:33 
14 À 1:69 
15 L 1575 
16 1 1-07 
17 £ 1.74 
18 1 1:69 
19 s À 1-70 
20 s À 1:73 
21 0 1.70 
22 0 1.54 
23 0 1:63 
24 0 1.63 
25 0 1.44 
26 0 1.68 
27 (e) 1.64 
28 0 1:63 
29 0 1.54 
30 0 1.54 
31 0 1:62 
32 0 1:58 
33 0 1:56 
| 34 (e) 1.50 
35 0 1.62 
[1] 0.7458879 
> 


Voyons maintenant la fonction polyserial( ) du package polycor: 


> (mydata<-read.csv("c:/tmp/Correlation Biseriale Ponctuelle.csv",sep=";",header-=T)) 
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R RGui (64-bit) - [R Console] 


R File Edit View Misc Packages Windows Help 


> library("polycor") 


> #la différence avec cor() vient du choix de l'estimateur 
> polyserial (mydata$Genre.Homme.,mydata$Taille) 

[1] 0.7854087 

> | 


biaisé de la variance 


Ce qui est parfaitement conforme aux calculs faites avec Microsoft Excel. 
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Exemple 258.: Coefficient de corrélation de Spearman 


(Spearman rho) 
R 3.02 


Nous allons partir ici des mêmes données que celles utilisées dans le cours théorique pour 
encore une fois vérifier que nous retombons sur la même chose ou pas et le comparer au 
résultat renvoyé par Tanagra. 


D'abord en utilisant les commandes cor() et rank() et ensuite en spécifiant la méthode 


BOE 


> xX<-0(5.7,93.2:0.4,4. «9,5. 
> y<-c(8.1,5.5,3.4,7. «6,2 

> mydata<-chindix,y) 

> cor(rank(x) ,rank(y)) 

[1] -0.6383008 

> #ou autre méthode 

> cor(x,y,method="spearman) 

[1] -0.6383008 

> | 


et même si nous n'avons pas démontré dans le cours théorique comment faire le test 
d'hypothèse classique, voici la commande si nécessaire: 


R RGuï (64-bit) - [R Console] — O X 
R File Edit View Misc Packages Windows Help -|#|x 


> cor.test(x,y,method="spearman") 


Spearman's rank correlation rho 


data: x and y 
S = 270.32, p-value = 0.04702 
alternative hypothesis: true rho is not equal to 0 
sample estimates: 
rho 
-0.6383008 NS 


Warning message: 

In cor.test.default (x, y, method = "spearman") 
Cannot compute exact p-value with ties 

>| 
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Exemple 259.: Régression linéaire multiple (avec ou sans 


interactions) 
R 3.0.2 


Maintenant faisons la même régression linéaire multiple que dans le cours théorique et 


Minitab avec la commande Im( ) en utilisant les données ci-dessous: 


Fichier Edition Format Affichage 2 


Mois;Couts ;CoutA;CoutB;Coute 
1;:44439;515;541;928 
243936; 929; 692; 711 

3; 44464 ; 800; 710; 824 
4:41533;:979;675; 758 
5:46343;1165;1147;635 
6,44922;:651;939; 901 
F1:43203;847;755; 580 

8 ; 43000 ; 942 ; 908 ; 589 
9:4096/7;630; 738 ; 682 
10;:48582;1113;1175;1050 
11;:45003;1086;1075; 984 
12;:44303;843;640;828 
13;42070; 500; 752; 708 
14:44353;813;989; 804 
15:45968;1190;823; 904 
16;:47781;1200; 1108; 1120 
17;,43202;731;590;1065 
18 ,44074 ;1089;607;1132 
19;:44610; 786; 513;839 


« 


Allons-y d'abord sans interactions: 
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> mydata<-read.csv{"RegressionLineaireMultiple.csv",header=T,sep=":") 
> fit<-lm(iCouts-Couti+CoutB+CoutC,data=mydata) 
> summary(fit) 


Call: 
imiformula = Couts - Couti + CoutB + CoutC, data = mydata) 


Residuals: 
Min 1Q Median 3Q Max 
-2042.8 -820.0 236.2 807.3 1721.4 


Coefficients: 

Estimate Std. Error t value Pr(i>l|t|) 
{Intercept) 35102.900 1837.227 19.106 6.11e-12 
Couti 2.066 1.665 .241 0.2337 
CoutE 4.176 1.681 . 484 0.0253 
CoutC 4.791 1.789 677 0.0172 


Signif. codes: O ‘###° 0.001 ‘**’ 0.01 ‘#’ 0.05 *.° 0.1 * * 1 
Residual standard error: 1253 on 15 degrees of freedom 


Multiple R-squared: 0.6454, idjusted R-squared: 0.5745 
F-statistic: 9.102 on 3 and 15 DF, p-value: 0.001127 


> | 


Nous retrouvons donc les mêmes données qu'avec Minitab et MS Excel. 


Agrémentons un peu ceci avec les analyses habituelles qualitatives: 
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o1s<-lm(formula=Couts-Couti+CoutB+CoutC,data=mydata) 
opar<-par (mfrow=c(2,2) ,oma=c(0,0,1.1,0)) 
plot(ols,las=1) 
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et le package car en utilisant la commande scatterplotMatrix() qui montre la distribution de 
chaque variable, l'interpolation linéaire avec chaque autre variable et aussi une régression 
LOESS (voir plus loin): 
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R R Console SEE 


> libraryi(car) 
> scatterplotMatrix (mydatal,-1] ,spread=FALSE) 
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Figure 247 Graph de lattice pour régression LOESS 


Toujours avec le package car, nous pouvons visualiser la contribution marginale pour chaque 
variable explicative: 
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E 


à 


Added-Variable Plot: CoutA 
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GR Console EEE 
> library("car") 
> par(mfrow=c{(1,3)) 
> avPlot(fit,variable="CoutA") 
> avPlot(fit,variable="CoutB") 
> avPlot(fit,variable="CoutC") 
>| 
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La véracité de ce diagramme est facilement vérifiable avec Microsoft Excel (mais dans un 


temps beaucoup plus long.….). 


Cependant l'esthétique du graphique de diagnostique précédent est pas des plus élégantes. 
Nous pouvons faire mieux avec le package performance et et sa fonction check_model( ) 


comme illustré ci-dessous: 
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[ 


MR Console ee) 
> library("performance") 
> mydata<-read.csv("c:/tmp/RegressionLineaireMultiple.csv",sep=";",head=T) 
> fit<-lm(Couts-CoutA+CoutB+CoutC,data=mydata) 
> check model (fit) 
> 
Œ R Graphics: Device 2 (ACTIVE) (se /&) 
Posterior Predictive Check Linearity 
Model-predicted lines should resemble observed data line Reference line should be flat and horizontal 
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Nous pouvons aussi améliorer le tableau de sortie des coefficient avec la fonction summ( ) du 


package jtools: 
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R RGui (64-bit) - [R Console] — (= 


GR File Edit View Misc Packages Windows Help — (9) De) | 


OISOSIOE 


|> mydata<-read.csv("c:/tmp/RegressionLineaireMultiple.csv",header=T,sep=";") 
> library("jtools") 

> summ(model,confint=TRUE,digits=3,vifs=TRUE) 

|MODEL INFO: | 
|Observations: 19 

|Dependent Variable: Couts 

|Type: OLS linear regression 


MODEL FIT: 

|F(3,15) = 9.102, p = 0.001 
R° = 0.645 

Adj. R° = 0.575 


Standard errors: OLS 


| Est 2.5% 97.5% t val P VIF 
(Intercept}) 35102.900 31186.944 39018.857 19.106 0.000 

CoutA 2.066 -1.483 5.615 1.241 0.234 1.542 

|CoutB 4.176 0.593 7.760 2.484 0.025 1.436 


|CoutC 4.791 0.977 8.604 2.677 0.017 1.090 


Nous pouvons aussi faire un diagnostique des intervalles de confiance des coefficients à l'aide 


du package GGally et sa fonction ggcoef( ): Ç 
Ÿ 
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x 


le 


ue ILES 
> library("GGally") 

> ggcoef(fit,vline color = "red",vline linetype = "solid",errorbar color = "blue", 

+ errorbar_ height = .25,exclude intercept = TRUE) 

> 

Re A SEE 


CoutA- 


estimate 


Ou avec la fonction plot_summs( ) du package broom.mixed: 
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MR Console ER EX 


> library("broom.mixed") 

> plot_summs (model, scale=TRUE,plot.distributions=TRUE, 
+ inner ci level=0.9,color.class="darkgreen") 

>| 


À Graphics: Device 2 (ACTIVE) ER EX 
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Ou encore avec la fonction plot_model( ) du package sjPlot: 
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à. 


Q R Console ER ES 


> library("sjPlot") 
> plot model (model, show.values = TRUE) 


> 
UK Graphics: Device 2 (ACTIVE) 3 IEC IE | 
Couts 
2.07 
CoutA- EE, —p— jp —_— 7 —— 
418* 
CoutB - nu a —— — 
4.79 * 
CoutC - ——_ —— — 
2 0 2 4 ë 8 10 
Estimates 


S1 nous voulons mettre en place des interactions, la syntaxe sera: 
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Bee) 


> mydata<-read.csv{"RegressionLineaireMultiple.csv",header=T,sep=":") 
> fit<-lmiCouts-Couti+CoutB+CoutC+Couti:CoutE,data=mydata) 
> summary(fit) 


Call: 
imiformula = Couts - Couti + CoutB + CoutC + Couti:CoutE, data = mydata) 


Residuals: 
Min 1Q Median 3Q Max 
-1819.9 -551.6 290.3 841.6 19323,.2 


Coefficients: 

Estimate Std. Error t value Pri>lt|) 
{Intercept}) .551e+0 5.909e+03 7.701 2.13e-06 
Couti .260e+00 5.824e+00 -1.418 0.1780 
CoutE -8.734e+00 7.192e+00 -1.214 0.2447 
CoutC 4.079e+00 1.707e+00 2.390 0.0315 
Couti:CoutB 1.322e-02 7.188e-03 1.839 0.0872 
Signif. codes: O ‘###* 0.001 ‘*** 0.01 ‘** 0.05 *.* 0.1 * *“ 1 


Residual standard error: 1164 on 14 degrees of freedom 
Multiple R-squared: 0.7144, idjusted R-squared: 0.6328 
F-statistic: 8.757 on 4 and 14 DF, p-value: 0.0009292 


> | 


C4 


Nous pouvons évidemment aussi très facilement faire des prévisions à nouveau avec la 
commande predict( ) : 
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mydata<-read.csv{("C:/RegressionLineaireMultiple.csv",header=T,sep=";") 
fit<-lm(iCouts-Couti+CoutB+CoutC,data=mydata) 
predict(fit,data.frame (Couti=750,CoutB=800,CoutC=900) ,interval="prediction") 


Lit lux upr 
44305.03 41508.93 47101.12 


R Statistical Software 1589/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 
Matrice des variances-covariances du modèle 


Nous avons vu dans le cours théorique l'importance de la matrice des variances-covariances 
dans l'analyse post-hoc de la régression multivariée pour calculer des nombreux autres 
statistiques y relatives (typiquement celles qui vont suivre). 


Voyons comment obtenir cette dernière à l'aide de la fonction vcov( ): 


R°6 it f é = 
R File Edit View Misc 


> voeov(fit) 


Packages Windows Help - SX 


(Intercept) CoutA CoutB CoutcC 
(Intercept) 3375402.7232 -499.7014365 -1203.5034712 -2222.7577631 
CoutA —499.7014 2.7721643 —-1.5358789 —0.8406541 
CoutB -1203.5035 -1.5358789 2.8266102 0.3252942 
CoutC —2222.7578 —0.8406541 0.3252942 3.2016521 


> 
> fon transforme en matrice de corrélation correspondante 
> cov2cor (vecov(fit, ful1=TRUE)) 


(Intercept) CoutA CoutB CoutC 
(Intercept) 1.0000000 -0.1633572 -0.3896293 -0.6761488 
CoutA —0.1633572 1.0000000 -0.5486742 -0.2821765 
CoutB -0.3896293 -0.5486742 1.0000000 0.1081325 


—0.6761488 -0.2821765 0.1081325 1.0000000 
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Importance relative des variables explicatives 


Comme nous le savons à chaque régression il est possible d'associer une ANOVA et à chaque 
variable nous pouvons associer la fraction du carré des erreurs qu'elle prend en compte par 
rapport au carré des erreurs totales! Avec un simple ratio il est alors possible de définir une 
importance relative de chaque coefficient. Cependant il existe de nombreuses autres 
techniques empiriques pour définir une importance relative. Voyons un exemple avec le 
package realimpo! 


D'abord le standard: 


F 5 
R KGui 62-55 - Rome, Ro 


R File Edit View Misc Packages Windows Help 


> library("relaimpo") 

> mydata<-read.csv("C:/tmp/RegressionLineaireMultiple.csv",header=T,sep=";") 
> linmod <- Im(Couts - CoutA+CoutB+CoutC, data = mydata) 

> summary(linmod) 


Call: 
im(formula = Couts - CoutA + CoutB + CoutC, data = mydata) 


Residuals: 
Min 1Q Median 3Q Max 
—-2042.8 -820.0 236.2 ca: “d 1721.4 


Coefficients: 

Estimate Std. Error t value Pr(>lt|) 
(Intercept) 35102.900 1837.227 19.106 6.11e-12 
CoutA 2.066 1.665 1.241 0.2337 
CoutB 4.176 1.681 2.484 0.0253 
CoutC 4.791 1.789 2.677 0.0172 


Signif. codes: (O0 ‘“#***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ O.1 * ” 1 


Residual standard error: 1253 on 15 degrees of freedom 
Multiple R-squared: (0.6454, Adjusted R-squared: 0.5745 
F-statistic: 9.102 on 3 and 15 DF, p-value: 0.001127 


> | 


et l'ANOVA correspondante: 
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LL 
R RGui (64-bit} - [R Consoie! 
ii 


CoutzZ 1 23958339 
CoutB 1 7647915 
CoutC 1 11249975 
Residuals 15 23541261 


Signif. codes: (O0 ‘***” 


| 
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> summary (aov (Couts-CoutA+CoutB+CoutC,mydata)) 
D£ Sum Sq 


Mean Sq F value Pr(>F) 


23958339 


7647915 
11249975 
1569417 


0.001 


\xaxt 


0.01 


ve’ 0.05 


15.266 0.0014 ** 
4.873 0.0433 * 
7.168 0.0172 * 


R 


Var DSL 


A 


Donc selon l'ANOVA, le CoutA représente 36% du total du Sum Sq et CoutB 11.5%, CoutC 
16.9% (somme de 64.54% pour les trois variables). 


Si nous utilisons la fonction calc.relimp() du package spécialisé relimpo (relative 


importance): 
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R File Edit nee 
BAC 


> calc.relimp(linmod,rela=T) 
Response variable: Couts 

Total response variance: 3688749 
Analysis based on 19 observations 


3 Regressors: 

CoutA CoutB CoutC 

Proportion of variance explained by model: 64.54% 
Metrics are normalized to sum to 100% (rela=TRUE). 


Relative importance metrics: 


1mg NS 
CoutA 0.2907700 
CoutB 0.3855077 
CoutC 0.3237223 


Average coefficients for different model sizes: 


1x 2Xs 3Xs 
CoutA 5.239542 3.829531 2.065953 
CoutB 5.579181 4.505292 4.176356 
TE 5.795426 4.863576 4.790641 
> 


Nous retrouvons le 64.54% par contre pour les coûts les importances relatives sont en 
importance inverse. Cela est dû au modèle empirique utilisé (car il en existe plus d'une 
dizaine..….). 
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Facteur d'Inflation de la Variance (VIF) 


Encore une fois nous allons contrôler les calculs faits à la main dans le cours théorique et 
obtenus aussi avec Microsoft Excel en utilisant toujours les mêmes données: 


Fichier Edition Format Affichage 2 


Mois; Couts ; CoutA;CoutB ; CoutE 
1;:44439;515;541;928 
2:43936;929;:692;711 
3:44464 ; 800; 710; 824 
4:41533:979;:675:758 
5:46343:1165:1147;:635 
6;:44922;:651;939;901 
#:43203;:847;755; 580 

8 ; 43000; 942 ; 908 ; 589 
9:40967;:630;738; 682 
10:48582;:1113;:1175;1050 
11:45003:1086:;:1075; 984 
12:44303;:843;640:828 
13:42070; 500; 752: 708 
14:44353;:813;989; 804 
15:45968:1190;823; 904 
16;:47/81;1200;1108 ; 1120 
17:43202;:731;590;:1065 
18:44074:1089;:607;1132 
19;:44610:; 786; 513;:839 
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setwd("C:/") 

libraryicar) 
mydata<-read.csv("RegressionLineaireMultiple.csv",header=T,sep=";:") 
fit<-lmiCouts-Couti+CoutB+CoutC,data=mydata) 
viT(iric) 

Couti CoutE CoutC 
.541525 1.435569 1.090206 


Nous retrouvons effectivement les valeurs calculées manuellement en cours et donc les 
mêmes conclusions. 


Notez que nou savions obtenus les mêmes résultats plus haut avec le package jtools: 
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R RGui (64-bit) - [R Console] 
AR File Edit View Misc Packages 


EBROISESIOIE 


Windows Help 


|> mydata<-read.csv("c:/tmp/RegressionLineaireMultiple.csv",header=T,sep=";") 


> library("jtools") 


> summ(model,confint=TRUE,digits=3,vifs=TRUE) 


|MODEL INFO: 

|Observations: 19 

|Dependent Variable: Couts 
|Type: OLS linear regression 


MODEL FIT: 
|F(3,15) = 9.102, p = 0.001 
R° = 0.645 

Adj. R° = 0.575 


Standard errors: OLS 


| Est. 
(Intercept) 35102.900 
CoutA 2.066 
|CoutB 4.176 
|CoutC 4.791 


31186.944 
-1.483 
0.593 
0.977 


39018.857 
5.615 
7.760 
8.604 


19.106 
1.241 
2.484 
2.677 


Nous pouvons faire rapidement le calcul que Minitab ne fait pas et qui consiste dans la règle 
empirique que la racine carrée du VIF soit plus grande que 2 alors il y a multicolinéarité: 


> | 


Maintenant vérifions que nous pouvons retrouver (par exemple!) la première valeur de VIF 
précédent de différentes façon selon ce que nous avons démontré dans le cours théorique. 


D'abord avec le cas le plus simple qui consiste à retrouver les VIF dans l'inverse de la matrice 


de corrélation: 


eŸ 


CoutC 
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+ Sort (vit iEiE)) 
Couti CoutE 
1.241582 1.198152 1.044129 


BOE 
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Œ® RGui (64-bit) - [R Console] — 
4 File Edit View Misc Packages Windows Help |) R 


> #On vérifie comme quoi la diagonale de l'inverse de la matrice 
> fde corrélation contient les VIF 
> mymatrix<-data.matrix(mydata{,3:5]) 
> solve(cor (mymatrix)) 
CoutA CoutB CoutcC 
CoutA 1.5415248 -0.8162097 -0.3658056 
CoutB -0.8162097 1.4355687 0.1352766 
ii —-0.3658056 0.1352766 1.0902064 
> 


Ce qui est bien vérifié! 


Maintenant, souvenons-nous dans le cours théorique que nous avons vu que ce qui définit le 
coefficient de corrélation multiple est dans la définition du VIF lui-même et particulièrement 
dans la corrélation des variables entre elles: 


HR RGui (64-bit) - [R Console] — x | 
4 File Edit View Misc Packages Windows Help -8x 


#On vérifie que le VIF contient aussi la définition 
fde la corrélation multiple 
fit<-lm(CoutA-CoutB+CoutC,mydata) 
sgrt (summary (fit)$r.squared) 

[1] 0.5926986 

> 

> fet le VIF est donc: 

> VIF1=1/(1-summary(fit)S$r.squared) 
> VIF1 

[1] 1.541525 

> | 


VVV NV 


Et nous retombons bien sur le résultat attendu! Nous pouvons aller encore plus loin en 
calculant le coefficient de corrélation multiple de façon explicite et à nouveau le VIF: 


R Statistical Software 1596/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


HR RGui (64-bit) - [R Console] — 


R File Edit View Misc Packages Windows Help =) 


> R13<-sqgrt (summary (Im(CoutC-CoutA,mydata))$r.squared) ;R13 
[1] 0.2681239 

> R23<-sqrt (summary (1Im(CoutB-CoutC,mydata))$r.squared) ; R23 
[1] 0.058213 

> 

> R123<-sqrt ((R12”"2+R13"2-2*R12*R13*R23) / (1-R23°2));:R123 
[1] 0.5926986 

> 

> 1/(1-R123"2) 

[1] 1.541525 

> | 


Bref voilà une application numérique qui "démontre" bien les différentes définitions et 
concepts vus dans le cours théorique. 
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Erreur d'ajustement (lack-of-fit) 


Dans le cours théorique nous avons démontré une astuce mathématique qui permet dans un 
certain sens de mettre en évidence le manque d'ajustement d'un modèle linéaire (avec ou sans 
interactions) qui consistait à décomposer l'erreur des résidus en erreur pure et erreur 
d'ajustement. Même si cette décomposition s'applique aussi à la régression univariée, il nous a 
semblé plus judicieux de présenter ce sujet ici dans la section concernant la régression 
multivariée (rappelons que la seule condition est d'avoir de multiples mesures pour une 
abscisse donnée!). 


Le but ici va être de voir si nous sommes dans un premier temps capable de reproduire les 
calculs faits dans Microsoft Excel (à la main) et si nous retombons sur les mêmes résultats 
que Minitab. 


Pour cela, nous partons du jeu de données suivant qui pour rappel est un plan d'expérience 
d'une série de 12 mesures répétées 3 fois (qui nous est bien connu dans le cours théorique!): 


R 
| R File Edit View Misc Packages nd Hel 
Lol 
> mydata<-read.csv("c:/tmp/LackOfFit.csv",header=T, sep=";") 
> mydata 
Mesure Lieu Vitesse Pression Distance 
1 L 1 L 1 32700 
2 2 1 1 2 33430 
3 3 1 1 3 31710 
_ 4 1 2 1 32680 
5 5 1 2 2 34070 
6 6 L 2 L. 33220 
ÿ ; 7 2 1 1 33180 
8 8 2 L 2 34430 
9 9 2 L 3 33570 
10 10 2 2 1 33270 
LE 11 2 2 2 33440 
12 12 2 2 3 32840 
13 13 L L 1 32750 
14 14 L 1 2 33360 
15 15 L L 3 32100 
16 16 L 2 1 32270 
L7 17 1 2 2 33100 
18 8 L 2 3 33700 
19 19 2 1 1 32160 
20 20 2 x à 2 34280 
21 21 2 L 3 33300 
22 22 2 2 1 33080 
23 23 2 2 2 33570 
24 24 2 2 3 33210 
25 25 L si 1 32960 
26 26 1 1 2 32910 
27 27 1 1 3 32220 
8 8 1 2 1 33130 
29 29 1 2 2 33610 
30 30 L 2 3 33285 
31 31 2 1 1 32640 
32 32 2 à 2 34460 
33 33 2 1 3 32570 
34 34 2 2 1 32415 
35 35 2 2 2 34204 
36 36 2 2 3 32470 
v 
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Faisons d'abord la régression linéaire classique sans interactions comme effectuée dans le 
cours théorique et l'ANOVA de la régression classique avec les fonctions Im( ) et 
summary( ) : 


GR File Edit View Misc Packages Windows Help _F x 
EECIBCE 
| 


[> fit<-lm(mydataS$Distance-as.factor (mydataS$Lieu)+mydata$Vitesse+mydata$Pression) 
>" EIiC 


Call: 
im(formula = mydataS$Distance - as.factor (mydataS$Lieu) + mydataS$Vitesse + 
mydataS$Pression) | 
Coefficients: 
(Intercept) as.factor (mydataS$Lieu)2 mydata$Vitesse mydata$Pression 
32639.7 326.9 157.4 40.0 


> summary(fit) 
[l 


| Call: 

im(formula = mydata$Distance - as.factor (mydata$Lieu) + mydata$Vitesse + 

mydata$Pression) 

Residuals: 
| Min 1Q Median 3Q Max 

—-1207.11 -533.36 44.44 365.22 1256.00 

Coefficients: 

Estimate Std. Error t value Pr(>ltl|) 

(Intercept) 32639.7 464.9 70.210 <2e-16 
as.factor (mydata$Lieu)2 326.9 225.5 1.450 0.157 
mydata$Vitesse 157.4 225.5 0.698 0.490 


mydata$Pression 40.0 LIST 0.290 0.774 
Residual standard error: 676.5 on 32 degrees of freedom 
Multiple R-squared: 0.07708, Adjusted R-squared: -0.009439 
| F-statistic: 0.8909 on 3 and 32 DF, p-value: 0.4564 


>| 


Nous retrouvons donc les mêmes résultats qu'avec Microsoft Excel et Minitab. Enfin, faisons 
l'analyse du manque d'ajustement qui nous intéresse avec la fonction pureErrorAnova() du 
package alr3: 
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R RGui (64-bit) - [R Console] 


OR File Edit View Misc Packages Windows Help 


> library("alr3") 
> pureErrorAnova(fit) 
Analysis of Variance Table 


Response: mydata$Distance 


as.factor (mydataS$Lieu) 1 961707 


mydata$Vitesse 1 223099 
mydata$Pression 1 38400 
Residuals 32 14645181 
Lack of fit 8 11243331 
“A Error 24 3401851 
> 


1 


961707 
223099 

38400 
457662 
405416 
141744 


Df Sum Sq Mean Sq F value 


6.7848 
1.5740 
0.2709 


9.9152 


Pr(>F) 
0.01554 
0.22171 
0.60749 


5.45e-06 


Nous retrouvons bien tous les résultats attendus avec les mêmes conclusions! 
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Analyse de la sensibilité par coefficients de régression standardisés 


Encore une fois nous allons contrôler les calculs faits à la main dans le cours théorique et 
obtenus aussi avec Microsoft Excel en utilisant toujours les mêmes données: 


Fichier Edition Format Affichage 2 


Mois; Couts ; CoutA;CoutB ; CoutE 
1:44439;:515;541;:928 
2:43936:;:929;:692;711 
3:44464 ; 800; 710; 824 
4:41533:979;:675:758 
5:46343:1165:1147:635 
6;,44922;:651;939;901 
7:43203;:847;755;:580 
8;:43000; 942; 908;:589 
9:40967:630;738:682 
10:48582;:1113:1175;1050 
11;:45003;:1086:1075; 984 
12:44303;:843;:640;:828 
13;:42070; 500; 752;708 
14:44353:813;989;:804 
15:45968;:1190;823; 904 
16;:47781;:1200;:1108;1120 
17;:43202;:731;590;:1065 
18:44074:1089:607;1132 
19;:44610;786:513;:839 


« 


NO 
Pour cela nous allons utiliser la fonction sre( );du package sensitivity qui nous donnera les 
coefficients de régression standardisés ainsi que le package boost pour faire du boosting dans 
le but d'obtenir les intervalles de confiance: 
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R Fichier Edition Voir Misc Packages Fenêtres Aide 


> library(sensitivity) 
Message d'avis 
le package ‘sensitivity’ a été compilé avec la version R 3.1.3 
> library(boot) 
Message d'avis 
le package ‘hoot’ a été compilé avec la version R 3.1.3 
mydata<-read.csv("C:/tmp/RegressionLineaireMultiple.csv",header=T,sep=";:")] 
attach(imydata) 
X<-data.frame (Couti,CoutB,CoutC) 
y<-data.frame (Couts) 
x<-src(X,vy,nboot=100,conf=0.95) 
print {x} 


Call: 
srciX = X, y = y, nboot = 100, conf = 0.95) 


Standardized Regression Coefficients (SRC): 

original bias std. error min. c.i. max. c.i. 
Couti 0.2368534 0.051767479 0.1915582 -0.1696256 0.6137520 
CoutBE 0.4575830 -0.071393959 0.1789723 0.2012317 1.0027647 
CoutC 0.4297660 -0.002177482 0.1218437 0.1882700 0.7121151 
> plot (x) 
> | 


Et le graphique associé: 


À R Graphics: Device 2 (ACTIVE E=SRCE 

NS 
SRC 

o 
LD 
Q 
o 
[es 
LD 
ae 
o 

Coutä CoutB CoutC 


Figure 248 Graphique de diagnostique d'analyse de la sensibilité 
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"Régression'" pas à pas ascendante ou descendante 


Ici nous allons encore une fois vérifier que nous retrouvons les mêmes résultats que dans le 
cours Minitab et R et ainsi qu'avec les calculs faits à la main suite à la présentation de cette 
technique empirique dans le cours théorique. 


Remarque: Rappelons que la "régression pas à pas" n'est pas une régression mais juste une 
méthode d'analyse! 


Première méthode (descendante package MASS) 


Nous utilisons pour cela la commande stepAIC() du package MASS: 


; 
né, RGui (64-bit) - [RC 


R Fichier Edition Voir. Misc Packages Fenétres Aide 


> library(MASS) 

> mydata<-read.csv("RegressionLineaireMultiple.csv",header=T,sep=";") 
> fit<-lm(Couts-Couti+CoutB+CoutC,data=mydata) 

> stepalC(fit,direction="backward") 

Start: AIC=274.57 

Couts - Couti + CoutB + CoutC 


D£ Sum of Sq RSS 
- Couti 1 2416354 25957614 
<none> 23541261 
- CoutB 1 9684283 33225544 
- CoutC 1 11249975 34791236 


Step: AIC=274.42 
Couts - CoutB + CoutC 


Df Sum of 5q R3S AIC 
<none> 25957614 274.42 
- CoutC 1 15629266 41566651 281.35 
- CoutB 1 22490733 48448347 284.28 


Call: 
imiformula = Couts - CoutB + CoutC, data = mydata) 


Coefficients: 
{Intercept) 
35475.303 


> | 


« 


Nous voyons que nous avons moins d'options que dans Minitab ce qui est bien dommage car 
les options proposées par ce dernier sont très pertinentes. Cependant dans R, nous avons le 
AIC (Akaïke Information Criterion) et que nous n'avons pas à ce jour dans Minitab ce qui est 
bien dommage. 


Nous voyons cependant que le meilleur modèle résultant est le même car R s'arrête dès que le 
modèle se dégrade (le but étant de minimiser l'AIC d'où le nom de la commande...). 
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Petit interlude: l'AIC (1973) est une mesure empirique d'une pseudo-distance entropique entre 
la distribution de probabilités vraie et celle estimée et appelé divergence de Kullback-Leibler: 


Ds(p.9 = poto PE se 


= p(x) log p(x) — Ÿ° p(x) log g(x) 


et nous remarquons de suite que si p(x) = g(x) la distance entropique est alors nulle. Akaïke 
s'est concentré sur le deuxième terme uniquement car 1l contient la distribution supposée: 


D p(x) log g(x) 


Ce dernier est par construction toujours négatif puisque nous prenons le log d'une valeur 
toujours inférieure à l'unité! Ensuite après quelques manipulations mathématiques discutables 
(probabilités conditionnelles, approximations de Taylor, convergence en loi, etc.) nous 
arriVOns à: 


AIC(k) = -21(6) +2k 


qui ne marche donc que pour des gros échantillons vu les hypothèses des développements 
sous-jacents. 


Dans tous les cas à sélection de modèles qui utilisent le même nombre de mesures K, il faut 
donc privilégier le modèle qui a la plus petite valeur (donc si c'est négatif, plus c'est négatif 
mieux c'est). Rappelons que le maximum de vraisemblance L décrit par construction d'autant 
mieux un modèle que ce dernier est grand! Dans le cas de modèles qui n'utilisent pas le même 
nombre de points de mesure & la sélection est à ma connaissance plus délicate à cause de la 
présence du +2Kk... 


Depuis 1l y a eu d'autres modèles comme le TIC (Takuchi's Information Criterion) développé 
en 1976 et le BIC (Baysian Information Criterion). 


R Statistical Software 1604/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Première méthode (ascendante package MASS) 


Même commande et même principe qu'avant: 


‘ 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> library(Mi55) 

> mydata<-read.csv("C:/RegressionLineaireMultiple.csv",header=T,sep=";") 
> fit<-lmiCouts-Couti+CoutB+CoutC,data=mydata) 

> stepalC(fit,direction="forward") 

Start: AIC=274.57 

Couts - Couti + CoutE + CoutC 


Call: 
imiformula = Couts - Couti + CoutE + CoutC, data = mydata) 


Coefficients: 
{Intercept}) 
35102.900 


> | 


Nous retrouvons donc bien le même résultat queïfans Minitab et qu'à la main (ou que dans 
MS Excel). Le seul point qui est un peu dommage c'est que R s'arrête à la première étape. 
Cela aurait été bien d'en montrer plusieurs comme le fait Minitab. 
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Deuxième méthode (descendante sans package) 


Nous allons utiliser la commande dropli() native de R: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> mydata<-read.csv("C:/RegressionLineaireMultiple.csv",header=T,sep=";") 
> #pas à pas descendant avec test de Fisher 

> dropi(lmiCouts-Couti+CoutB+CoutC,data=mydata) ,test="F") 

Single term deletions 


Model: 
Couts - Couti + CoutB + CoutC 

D£ Sum of 5 RSS AIC F value Pri>F) 
<none> 23541261 274.57 
Couti 2416354 25957614 274.42 1.5397 0.23373 
CoutE 9684283 33225544 279.11 6.1706 0.02529 + 
CoutC 11249975 34791236 279.99 7.1682 0.01722 * 


Signif. codes: O0 ‘##*#* 0.001 ‘*#° 0.01 ‘#’ 0.05 *.’ 0.1 * * 1 
> | 


Donc ici à l'aide des p-value on voit que c'est CaiC qui est le plus significatif, ensuite CoutB 
et ainsi de suite. Nous voyons aussi en face l'AÏC ce qui est toujours utile. 


On peut ensuite s'amuser à enlever la variable la moins significative: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


[ 


> dropiilm(Couts-CoutB+CoutC,data=mydata) ,test="F") 
Single term deletions 


Model: 
Couts - CoutB + CoutcC 

D£ Sum of 5q RSS AIC F value Pri>F) 
<none> 25957614 274.42 
CoutB 1 22490733 48448347 284.28 13.8631 0.001849 ** 
CoutcC 1 15629266 41586881 281.38 9.6337 0.006825 ** 


Signif. codes: O0 ‘##$’ 0.001 ‘f*° 0.01 ‘*’ 0.05 *.* 0.1 * ’ 1 
> | 


D 


et ainsi de suite... 
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Deuxième méthode (ascendante sans package) 


Nous allons utiliser la commande add1(}) native de R: 


ns RGui (64-bit) - [F 


1 Fichier Edition Voir Misc Packages Fenêtres Aide 
CI 


> attachimydata) 
> addiilm(iCouts-1) ,Couts-Couti+CoutB+CoutC,test="F") 
Single term additions 


Model: 
Couts + ji 
DÉ Sum of Sq RSS AIC F value Pr(>F) 


<none> 66397491 285.27 

Couti 23958339 42439151 281.76 9.5971 0.006534 $* 
CoutE 24810610 41586881 281.38 10.1421 0.005423 $* 
CoutC 17949143 45448347 284.28 6.2982 0.022500 * 


Signif. codes: 0 ‘**# 0.001 ‘**° 0.01 ‘f’ 0.05 *.* 0.1 


> | N 


L NE x à 


Là nous voyons que c'est CoutB qui est le plus significatif. C'est donc toujours conforme à 
Minitab et aux calculs faits à la main. Nous pouybns donc ensuite, nous amuser à ajouter cette 
& 


variable au modèle: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> addiilmiCouts-CoutB) ,Couts-Couti+CoutB+CoutC,test="F") 
Single term additions 


Model: 
Couts - CoutE 

D£ Sum of 5q RSS AIC F value Pri>F) 
<none> 41586881 281.38 
Couti L 6795645 34791236 279.99 3.1252 0.096151 . 
CoutC 1 15629266 25957614 274.42 9.6337 0.006825 ** 


Signif. codes: O0 ‘#*** 0.001 ‘#*° 0.01 ‘** 0.05 *.’ 0.1 
> | 


et ainsi de suite... 


L La L 
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Troisième méthode (ascendante sans package) 


Nous allons utiliser la commande step() native de R qui permet d'obtenir automatiquement 
les séquences de la deuxième méthode vue précédemment: 


R Fichier Edition Voir Misc Packages Fenétres Aide 


> step({lmiCouts-1j ,Couts-Couti+CoutB+CoutC,test="F", direction="both") 
Start: AIC=288.27 
Couts + 1 


D£ Sum of Sq RSS F value Pr(i>F) 
+ CoutB 1 24810610 41586881 10.1421 0.005423 ## 
+ Couti 1 23958339 42439151 9.5971 0.006534 ## 
+ CoutC 1 17949143 48445347 6.2982 0.022500 * 
<none> 66397491 


signif. codes: O0 ‘#*$##’ 0.001 -.01 ‘‘’ 0.05 *.’ 


Step: AIC=281.38 
Couts - CoutE 


DE Sum of Sq RSS F value Pri>F) 
+ CoutC 1 15629266 25957614 9.6337 0.006825 ** 
+ Couti 1 6795645 34791236 3.1252 0.096151 
<none> 41556881 
- CoutB 1 24510610 66397491 10.1421 0.005423 ** 


Signif. codes: O0 ‘*#s 0.001 -.01 ‘*’ 0.05 *‘.* 0.1 


Step: AIC=274.42 
Couts - CoutEB + CoutC 


D£ Sum of Sq RSS F value Pr(i>F) 
<none> 25957614 
+ Couti 1 2416354 23541261 .5397 0.233727 
- CoutC 1 15629266 41586881 .-6337 0.006825 #**# 
- CoutB 1 22490733 48448347 .-8631 0.001849 #*# 


signif. codes: O0 ‘*$##’ 0.001 . ver 0.05 *“.*" DL * * À 


Call: 
imiformula = Couts - CoutEB + CoutC]) 


Coefficients: 


« 


R Statistical Software 1608/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Quatrième méthode (meilleur sous ensemble sur R? ou C, de Mallows avec package 
leaps) 


Nous allons ici utiliser la commande leaps() du package leaps. Cela nous donne en nous 
basant sur le coefficient de corrélation ajusté comme critère à maximiser: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 
EOBSIAIE 


library(leaps) 
mydata<-read.csv("C:/RegressionLineaireMultiple.csv",header=T,sep=":") 
#on va forcer l'ordonnée à l'origine comme étant nulle par la même occasion 
fit<-model.matrix(lm(Couts--1+Couti+CoutB+CoutC,data=mydata)) 
leaps(ifit,mydata$Couts,method="adjr2") 
which 

1 2 3 

FALSE TRUE 

TRUE FALSE 

FALSE FALSE 

FALSE TRUE 

TRUE FALSE 

TRUE TRUE 

TRUE TRUE 


[1] "(Intercept)" "1" 


$fsize 
[11222333 4 


$fadjr2 
[1] 0.3368246 0.3232339 0.2274068 0.5601895 0.4370459 0.4105178 0.5745394 


> model<-leaps(fit,mydatafCouts,method="adjr2") 
> #meilleur modèle 
> model$which{[model$fadjr2==max(model$adjr2),] 
L 2 3 
“s TRUE TRUE 
> 


Donc le meilleur modèle au sens du coefficient de corrélation ajusté est celui qui contient les 
trois variables explicatives. 


Bien que la conclusion soit la même que dans Minitab, le lecteur pour test que si nous ne 
forçons pas l'ordonnée à l'origine comme étant nulle, la commande leaps() n'arrive pas à 
s'exécuter (contrairement à Minitab où nous pouvons forcer ou non l'ordonnée à l'origine). 


Sinon en nous basant sur le critère de Mallows: 
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RGui (64-bit) - [ 
KR Fichier Edition Voir Misc Packages Fenêtres Aide 


library(leaps) 


leapsifit,mydataf$Couts,method="Cp") 

which 
1 2 3 

FALSE TRUE 

TRUE FALSE 

FALSE FALSE 

FALSE TRUE 
2 TRUE FALSE 
2 TRUE TRUE 
3 TRUE TRUE 


$label 
[1] "(Intercept)" "1" 


$fsize 
[11222333 4 


$Cp 
[1] 11.498292 12.041342 15.870276 3.539650 8.170623 


> model<-leaps(ifit,mydata$Couts,method="Cp") 
> #meilleur modèle 
> model$which{[model$Cp==min(model$Cp),] 
1 2 3 
TT TRUE TRUE 
> 


mydata<-read.csv("C:/RegressionLineaireMultiple.csv",header=T,sep=";") 
#fon va forcer l'ordonnée à l'origine comme étant nulle par la même occasion 
fit<-model.matrix(lm(Couts--1+Couti+CoutB+CoutC,data=mydata)) 


R 


9.165250 4.000000 


Comme quoi... comme on dit toujours: il n'y a pas de bons modèles. Il n'y a que des modèles 


meilleurs que les autres! 
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Quatrième méthode (meilleur sous ensemble sur R?, C, de Mallows, AIC et BIC 
avec package biology) 


En utilisant le package biology et sa fonction Model.selection( ) mais ne fonctionnant que 
dans les versions antérieures à R 2.9.0 et pour lequel il faut passer par l'installation du fichier 
zip biology.zip: 


biology 
331 Ko 


Nous obtenons: 


RGui - [R Console] 
R Fichier Edition Voir Misc Packages Fenêtres Aide 


ÉSOSESINIE 


> mydata<-read.csv("C:/tmp/RegressionLineaireMultiple.csv",header=T,sep=";") 
> fit<-im(Couts--1+CoutA+CoutB4CoutC,data=mydata) 
> Model.selection(fit) 


Hodel selection 
Response: Couts 


r.squared Adj.r.sq P Cp AIC AlCCe deltaAIC waAlC BIC Select 
1. CoutA 0.3608320 0.3232339 1 -13.86159 281.7637 264.6209 7.3405203 0.012 283.6526 
2. CoutB 0.3736679 0.3368248 1 -13.86445 281.3783 284.2354 6.9550755 0.014 263.2671 * 
3. CoutcC 0.2703286 0.2274068 1 -13.70039 284.2798 287.1370 9.8566315 0.003 286.1687 
4. Couti+CoutB 0.4760158 0.4105178 2 -12.06674 279.9683 262.8454 5,.5651101 0.029 282.6216 
5. Couti+CoutC 0.4995964 0.4370459 2 -12.10874 279.1134 261.9706 4.6902255 0.045 261.9467 
6. CoutB+CoutC 0.6090573 0.5601895 2 -12.30370 274.4232 277.2603 0.0000000 0.465 277.2565 * 
7. CoutA+CoutB+CoutC 0.6454495 0.5745394 3 -10.36852 274.5667 277.4238 0.1435037 0.432 276.3445 
Model averaging 
Response: Couts R 


Estimate Unconditional SE Lower9SCI Upper9SCI 


CoutA 1.246643 1.091428 -0,.6923553 3.386041 
CoutB 4.463543 1.602168 1.3232940 7.603792 
CoutC 4.799863 1.736051 1.3972026 8.202523 
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Analyse perturbationnelle 


Bon c'est un outil qui fait un peu doublon avec les intervalles de toléreance et de prédiction de 
la régression. Mais certains préfèrent cette approche. Alors voyons de quoi il s'agit et pour 
cela faisons les préparatifs habituels: 


R RG 64-bit) - [R Console OI 
R File Edit View Misc Packages Windows Help Œ x 


[SE 


> mydata<-read.csv("c:/tmp/RegressionLineaireMultiple.csv", header=T,sep=";") 
> (model<-ilm(Couts--1+CoutA+CoutB+CoutC,data=-mydata)) 


Call: 
|1m(formula = Couts + -1 + CoutA + CoutB + CoutC, data = mydata) 


Coefficients: 
CoutA CoutB CoutcC 
7.263 16.692 27.906 


> summary (model) 


Call: 
Im(formula = Couts + -1 + CoutA + CoutB + CoutC, data = mydata) 


Residuals: 
Min 10 Median 3Q Max 
—10684 —-1658 2002 5406 8263 


Coefficients: 

Estimate Std. Error t value Pr(>l|t|) 
CoutA 7.263 8.006 0.907 0.377770 
CoutB 16.692 7.546 2.212 0.041865 
CoutC 27.906 6.425 4.343 0.000503 


Residual standard error: 6106 on 16 degrees of freedom 
Multiple R-squared: 0.9841, Adjusted R-squared: 0.9811 
F-statistic: 329.5 on 3 and 16 DF, p-value: 1.373e-14 


> 


Ensuite, nous utilisons la fonction perturb( ) du package perturb: 
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R RGui (64-bit) - [R Console] = (ml 


R File Edit View Misc Packages Windows Help - mx 


fperturbation de 1 sigma sur les trois variables 
library ("perturb") 

attach(mydata) #absolument indispensable!!! 
p<-perturb (model,pvars=c("CoutA","CoutB","CoutC"),prange=c(1,1,i),niter-200) 
> summary (p) 

Sformula 

[1] "Couts - -1 + CoutA + CoutB + CoutC" 


VVV NV 


Spvars 
[11 “CoùutA" "CoutB" “CoutC" 


Sprange 
(FA LT 


Sptrans2 
character(0) 


Sformula2 
[11 "Couts - -1 + CoutA.l + CoutB.1l + CoutC.1” 
| 


|$Sdistribution 
[1] "normal" 


Ssumm 

mean sd: min max 
|CoutA 7.256873 0.06061076 7.10110 7.40755 
CoutB 16.698688 0.06064994 16.55945 16.88242 
CoutC 27.905810 0.04410600 27.799697 28.03634 


Sdec.places 
[1] 3 


Sfull 
[1] FALSE 


|Sdots 
[1] "" 


attr(,"class") 
[1] "summary.perturb" 
> 


De ces résultats nous pouvons ensuite faire de nombreuses choses diverses et variées. Le 
lecteur pourra consulter la documentation du package pour appliquer la fonction perturb( ) 
sur des régressions comportant des variables catégorielles. 
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Recherche automatique de la meilleure régression polynomiale 


Avec le package glmulti et la fonction du même nom nous pouvons dans la version x86 de R 
demander à chercher le meilleur modèle quadratique avec interactions ou non. Pour cela, nous 


écrivons: 


R RGui (32-bit) - [R Console] — O ne 


R File Edit View Misc Packages Windows Help er, 


> mydata<-read.csv("c:/tmp/RegressionGLMulti.csv",header=T,sep=":") 
> library(glmulti) 

> model<-glimulti ("Couts",c("CoutA","CoutB","CoutC"}),data=mydata) 
Initialization... 

TASK: Exhaustive screening of candidate set. 

Fitting... 


After 50 models: 

Best model: Couts-1+4CoutC+CoutB:CoutA 
Crit= 326.964711688751 

Mean crit= 331.629762947528 
Completed. 

> 
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Exemple 260.: Régression linéaire uni ou multivariée non- 


négative (NNLS) 
R 3.6.1 


Dans la pratique, il arrive que nous souhaitons une régression linéaires par la méthode des 
moindres carrés dont aucun coefficient soit négatif (pour des raisons de cohérence avec la 
réalité). 


Pour montrer comment faire un NNLS (non-negative Least-Square) dans R, nous allons 
reprendre le jeu de donnnées précédent et pour comparaison, nous allons refaire une simple 
régression linéaire forcée à l'origine: 


R File Edit View Misc Packages Windows Help 8x 


EE 


> mydata<-read.csv("c:/tmp/RegressionLineaireMultiple.csv",header=T,sep=";") 
> mydata 
Mois Couts CoutA CoutB CoutC 


1 44439 S15 541 928 
2 43936 929 692 FLE 
3 44464 800 710 824 
4 41533 979 675 758 
5 46343 1165 1147 635 
6 44922 651 939 901 
7 43203 847 755 580 
8 43000 942 908 589 
9 40967 630 738 682 
10 10 48582 1113 1175 1050 
14 11 45003 1086 1075 384 
12 12 44303 843 640 828 
113 13 42070 500 752 708 
14 14 44353 813 989 804 
15 15 45968 1190 823 304 
116 16 47781 1200 1108 1120 
17 17 43202 +31 590 1065 
18 18 44074 1089 607 1132 
19 19 44610 786 513 839 
> fit<-lm(Couts--1+CoutA+CoutB+CoutC,data=-mydata) 
> summary(fit) 


Lo © -J a O1 & X ND FH 


Call: 
Im(formula = Couts - -1 + CoutA + CoutB + CoutC, data = mydata) 


Residuals: 
Min 1Q Median 3Q Max 
—10684 —-1658 2002 5406 8263 


Coefficients: 

Estimate Std. Error t value Pr(>lt|l) 
CoutA 7.263 8.006 0.907 0.377770 
CoutB 16.692 7.546 2.212 0.041865 
CoutcC 27.906 6.425 4.343 0.000503 


Residual standard error: 6106 on 16 degrees of freedom 
Multiple R-squared: 0.9841, Adjusted R-squared: 0.9811 
F-statistic: 329.5 on 3 and 16 DF, p-value: 1.373e-14 


>| 


EE ———EEZEZEZEZÂ_—_—_—_——————— 


Maintenant voyons comment à l'aide de la fonction nnls( ) du package nnls comment faire 
une telle régression: 
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R RGuï (64-bit) - [R Console] 
QR File Edit View Misc Packages Windows Help 


EBSOISOSINIE 


> library("nnls") 
> (x<-as.matrix(mydatal,3:5])) 
CoutA CoutB CoutC 
[1,1 515 541 928 
[2,1 929 692 J11 
[3,] 800 710 824 
[4,1 979 675 758 
[Sx] 1165 1147 635 
[6,] 651 939 901 
[7,] 847 135 580 
[8,] 942 908 589 
[9,1] 630 738 682 
[10,] 1113 1175 1050 
[11,] 1086 1075 984 
[12,] 843 640 828 
| [13,1 500 752 708 
| [14,] 813 989 804 
|[15,] 1190 823 304 
[16,] 1200 1108 1120 
[17,1] 731 590 1065 
| [18,] 1089 607 1132 
[19,] 786 513 839 
> (y<-mydatal,2]) 


[a] 


x 


[1] 44439 43936 44464 41533 46343 44922 43203 43000 40967 48582 45003 44303 42070 44353 


| [15] 45968 47781 43202 44074 44610 

+ 

> (fitNNLS <- nnls(x, y)) 

[Nonnegative least squares model 

|x estimates: 7.262658 16.69233 27.90647 
residual sum-of-squares: 596467703 


reason terminated: The solution has been computed sucessfully. 


l> fitNNLSSx 
[1] 7.262658 16.692332 27.906474 
> 


Et heureusement nous voyons qu'au moins dans le cas présent que nous retombons sur la 
valeur de la régression classique (c'est le test minimum à faire pour voir que le résultat ait au 


moins un minimum de cohérence!). 
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Exemple 261.: Régression linéaire uni ou multivariée 


contrainte 
R 3.6.1 


Bon ici le but est de reproduire le calcul que nous avions fait avec MATLAB (par ailleurs la 
fonction R correspondante a exactement le même nom!). Cependant rappelons que souvent 
l'utilisation de la régression contrainte est dangereuse car elle peut faire croire qu'il y a qu'une 
seule solution au problème contraint alors qu'en réalité 1l y en a une infinité. 


D'abord, reprenons la même capture d'écran que la documentation de MATLAB (cela aide 
aussi à comprendre ce qui va suivre): 


A:x< b, 
. 7 
min | |C + x — dl; such that 4 Aeg : x = begq. 
no Ib < x < ub. 


Et maintenant allons-y toujours en nous basant sur le même jeu de données et la fonction 
Isqlincon( ) du package pracma: 


R 
R File Edit View Misc Packages Windows Help ex 


ÉSOSOSINIE) 


> library("pracma") 
> (mydata<-read.csv("c:/tmp/RegressionLineaireMultiple.csv",header=T,sep=";")) 
Mois Couts CoutA CoutB CoutC 

1 44439 515 541 928 

2 43936 929 692 711 

3 44464 800 710 824 

4 41533 979 675 758 
5 46343 1165 1147 635 
6 
7 
8 


44922 651 939 301 

43203 847 755 580 

43000 942 908 589 
3 40967 630 738 682 
10 10 48582 1113 1175 1050 
11 11 45003 1086 1075 9384 
12 12 44303 843 640 828 
13 13 42070 500 752 708 
14 14 44353 813 989 804 
15 15 45968 1190 823 304 
16 16 47781 1200 1108 1120 
17 17 43202 731 590 1065 
18 18 44074 1089 607 1132 
19 19 44610 786 513 839 
> (x<-as.matrix(mydatal,c(3:5)])) 

CoutA CoutB CoutC 

[1,1] 515 541 928 

[2,1] 929 692 FIL 

[3,] 800 710 824 

[4,] 979 675 758 

[5,1] 1165 1147 635 

[6,] 651 939 901 

[7,1] 847 755 580 

[8,] 942 508 589 

[9,] 630 738 682 
[10,] 1113 1175 1050 
[11,] 1086 1075 984 
[12,1] 843 640 828 
[13,] 500 752 708 
[14,] 813 389 804 
[15,] 1190 823 904 
[16,] 1200 1108 1120 
[17,1] 731 590 1065 
[18,] 1089 607 1132 
[19,1 786 513 839 
> (y<-mydatal,2]) 

[1] 44439 43936 44464 41533 46343 44922 43203 43000 40967 48582 45003 44303 42070 44353 
[15] 45968 47781 43202 44074 44610 
> lsglincon(x, y,Aeq = c(1i, 1, 1), beq = 1,1b=c(0.3,0.2,0.4),ub=c(0.5,0.3,0.5)) 
[1] 0.4 0.2 0.4 
>| 


© © -J où 1 & W DH 


R Statistical Software 1617/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Exemple 262.: Régression polynomiale 
R 3.02 


Nous poursuivons en faisant la même régression polynomiale que dans le cours théorique et 
Minitab avec la commande Im( ) : 


x<-2(24,21,94,:37,29) 
y<-c(236,229,258,257,268) 
mydata<-as.table(chind(ix,y)}) 
mydata 

x Y 
À 24 236 
B 21 229 
C 34 258 
D 37257 
E 29 268 
> fit<-lmiy-x+Iix 2) ,data=mydata) 
> sunmmaryifit) 


Call: 
im(formula = y + x + Iix"2), data = mydata) 


Residuals: 
& 2 3 4 5 
-7.:546 3.327 -4.310 1.304 7,224 


Coefficients: 

Estimate Std. Error t value Pri>it|) 
{Intercept) -57.6509 122.5458 -0.470 0.684 
X 20.0841 8.7454 2.297 0.149 
E(x"21 -0.3139 0.-1504 -2.087 0.172 


Residual standard error: 68.361 on 2 degrees of freedom 
Multiple R-squared: 0.868691, Adjusted R-squared: 0.738682 
F-statistic: 6.64 on 2 and 2 DF, p-value: 0.1309 


> | 


« 


Nous retrouvons là encore une fois les mêmes résultats qu'avec Minitab et le cours théorique. 
La différence étant qu'avec Minitab nous avons automatiquement une série de graphiques 
récapitulatifs du modèle. 


Nous pouvons cependant compléter avec le package ggplot2 comme nous l'avons fait avant: 
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x<-c(24,21,34,37,29) 

y<-c(236,229,258,257,268) 

mydata<-as.data.frame(chindix,y)) 

library(ggplotz2) 

ggplot (imydata,aes (x=x,y=y))+geom point (j+stat _smooth(method="lm", formula=y-x+Ilix*2),level=0.95) 


> 
> 
> 
> 
> 
> | 


Figure 249 Graph régression polynomiale avec intervalle de confiance (ggplot) 


Ou avec une syntaxe alternative équivalente: 


x<-c(24,21,34,37,29) 
y<-c(236,229,258,257,268) 
mydata<-as.data.frame(chind(x,y])) 
library(ggplot2) 


gagplot (mydata,aes(x=x,y=y))+geom point (j+stat smooth(method="lm", formula=y-polyix, 2]),level=0.95) 


Nous pouvons aussi comparer plusieurs modèles en même temps: 
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R R Console sex] 


> 
> 
> 
> 
> 
+ 
La 
+ 


x<-c(24,21,34,37,29) É 
v<-c(236,229,258,257,268) 

mydata<-as.data.frame(chind(x,y)) 

library(ggplot2) 

gaplot (mydata,aes(x=x,y=y)])+geom point {]+stat smooth(imethod="lm",formula=y-x,size=1,se=FALSE, 
colour="bhlack")+stat smoothimethod="lm",formula=y-x+Iix"2), 

size=1,se=Fil$E,colour="hlue")+stat smooth(method="loess", formula=y-x, 
size=1,se=FALSE,colour="red") 


Nous pouvons revenir sur un cas plus compliqué comme nous l'avons fait avec Minitab pour 


vérifier les possibilités de R. Nous allons donc utiliser les mêmes données que dans le cours 
Minitab: 
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Interpolation de Lagrange 


Nous allons voir que nous pouvons effectuer des interpolations de Lagrange comme celles 
étudiées dans le cours théorique. Le script n'est de loin pas trivial. Il utilise les packages 
polynom et ggplot2 et particulièrement la fonction poly.calc() du premier package: 


Re RGui R sole] — 
 R File Edit View Misc Packages Windows Help he. 
Ella] 
> library(polynom) 
> Æ <= C(-2, “1, 0, 1, 2) 
|> y <= c(2, -1, 1, 2, 1) | 
> poly.calc(x, y) | 
Î1 + 2.083333%x - 0.7083333*x"2 - 0.5833333*x"3 + 0.2083333*x"4 
|> mydata <- data.frame(cbind(x, y)) 
> 
> f <- function(x) !{ 
+ return(l + 2.083333*x - 0.7083333*x"2 - 0.5833333*x"3 + 0.2083333*x"4 ) 
+ } 
> 
> library(ggplot2) 
> ggplot (mydata, aes(x=x, y=y)) + 
+ geom point (size=S, col="'blue') + 
+ | stat_function(fun = f, size=1.25, alpha=0.4) 
> 


Ce qui donne visuellement: 


e 


R à evice TIVE ERRRE: 


n 


Figure 250 Graph interpolation de Lagrange (ggplot) 


R Statistical Software 1621/3133 


Vincent ISOZ, Daname KOLANI 


Sciences.ch 


Exemple 263.: Régression pondérée 


R 3.5.1 


Nous avons aussi étudié mathématiquement les principes sous-jacents de la régression 


pondérée et surtout de sa difficulté à choisir les poids dans certaines situations. 


Voyons cependant si en reprenant l'exemple de Minitab si nous retombons sur les mêmes 


résultats. 


D'abord importons les données et voyons-en un graph: 


R EE 
> mydata <- read.csv("c:/tmp/RegressionPonderee.csv", header=T, sep=",") 
> head(mydata) 
Accidents AccidentRate Population 
1 20 1.35498e-04 147604.0 
2 38 6.21013e-05 611903.2 
3 17 1.20308e-04 141304.5 
= 16 7.81061e-05 204849.5 
5 20 1.31211e-04 152426.5 
6 37 8.78015e-05 421405.0 
> plot (x=-mydataS$Population, y-mydataS$Accidents) 
> 
e — 
R NES 
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Voyons déjà la à quoi ressemble le modèle naïf de base avec la variance des résidus globales 
(étant donné que dans le modèle naïf les résidus sont homoscédastiques alors il n'y a 
effectivement qu'une variance pour rappel): 
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MR RGui (64-bit) - [R Console] 
GR File Edit View Misc Packages Windows Help 


IEC 


> model.1 <- Im(Accidents- Population,mydata) 
> summary (model.1) 


Call: 
im(formula = Accidents + Population, data = mydata) 


Residuals: 
| Min 1Q Median 3Q Max 
|-16.0837 -4.5023 0.3836 4.4076 21.1181 


|Coefficients: 

Estimate Std. Error t value Pr(>|tl) 
(Intercept) 5.822e+00 1.313e+00 4.434 2.28e-05 
Population 7.186e-05 2.858e-06 25.147 < 2e-16 


Residual standard error: 7.085 on 105 degrees of freedom 
Multiple R-squared: 0.8576, Adjusted R-squared: 0.8562 
F-statistic: 632.4 on 1 and 105 DF, p-value: < 2.2e-16 


l> #fvariance des résidus 
> sigma (model.1) 
[1] 7.084646 


— CO 


> | Li 

Maintenant voyons le graph des résidus en fonctign de l'abscisse: 
a 

@ F Console NE ES 

> plot (mydata$Accidents, rstandard(model.1l),ylim=c(-3,3)) 

> abline(h=0, col="red") 

>| 

RR Graphics: Device 2 (ACTIVE) sex) 


rstandard{(model.1) 
-2 -1 0 


-3 


mydata$Accidents 


80 
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Nous voyons clairement qu'il y a un effet de dispersion net (effet "fan") qui a l'air d'être 
proportionnel à l'abscisse. Utilisons donc l'inverse de cette dernière comme poids: 


| ŒR RGui (64-bit) - [R Console (ml 
R File Edit View Misc Packages Windows Help Fe x 


> wts <- 1/mydataS$Population 
> head(wts, 40) 


[1] 6.774885e-06 1.634246e-06 7.076917e-06 4.881633e-06 6.560540e-06 2.373014e-06 
[7] 4.998895e-06 2.623418e-06 1.784775e-06 1.243911e-06 2.394608e-06 1.652055e-06 
[13] 2.390540e-06 7.536439e-06 1.269378e-06 8.142500e-06 1.212627e-06 5.055221e-06 
[19] 1.839789e-06 1.282155e-06 5.399769e-06 1.774682e-06 1.165165e-05 4.741859e-06 
[25] 6.514328e-06 2.582458e-06 5.254899e-06 2.473752e-06 1.913300e-06 1.270154e-06 
| [31] 2.591861e-06 1.713715e-06 2.575765e-06 9.383604e-06 1.238147e-06 6.557786e-06 


| [37] 1.162444e-06 4.223076e-06 1.815588e-06 5.095425e-06 
| > model.2 <- Im(Accidents- Population, weights=wts,data-mydata) 
| > summary (model .2) 


Call: 
Im(formula = Accidents - Population, data = mydata, weights = wts) 


Weighted Residuals: 
Min 1o Median 3Q Max 
—0.0295870 -0.0085203 0.0006693 0.0087642 0.0262133 


Coefficients: 
Estimate Std. Error t value Pr(>|ltl|) 
(Intercept) 3.815e+00 8.672e-01 4.40 2.61e-05 
Population 7.698e-05 2.864e-06 26.88 < 2e-16 


Residual standard error: 0.01178 on 105 degrees of freedom 
Multiple R-squared: 0.8731, Adjusted R-squared: 0.8719 
F-statistic: 722.7 on 1 and 105 DF, p-value: < 2.2e-16 


>| 


Nous voyons bien évidemment que les paramèteef du modèle changent alors. Voyons 
maintenant le graph des résidus: 
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x 


GRR Console sets) 


> plot (mydata$Accidents, rstandard(model.2),ylim=c(-3,3)) 
> abline(h=0, col="red") 
> | 


ke 


QR R Graphics: Device 2 (ACTIVE RE 


rstandard(model.2) 
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-3 
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mydata$Accidents 


Comparons les deux graphs de résidus côte à cô 
NI 


{es 
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Le 


Et comparons également le résultat visuel des deux modèles: 


FR Console a | Q | & 
> par(mfrow=c(1,2)) 
> plot (mydata$Accidents, rstandard(model.1),ylim=c(-3,3)) 
> abline(h=0, col="red") 
> plot (mydata$Accidents, rstandard(model.2),ylim=c(-3,3)) 
> abline(h=0, col="red") 
>| 
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Q “ Corsoie EST Ts] 


pilot (x=mydata$Population, y-mydataSAccidents) 

abline (model.1,col="red") 

abline (model.2,col="blue") 

legend ("topleft", col=c\"blre","red"), lty=i,inset=0.02, legend=c("OLs", "WLS")) 


QR Graphics: Dsvice 2 (ACTIVE) 


n 
#2 
es 
D 
D 
o 
oO 
< 
& 
DT 
pu 
Ù 
D 
> 
E 


4e+05 


mydata$Population 


R Statistical Software 1627/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Exemple 264.: Régression non linéaire générale 
R 3.0.2 


Le but ici va être de reprendre l'exemple fait dans le cours Microsoft Excel utilisant la 
méthode de Gauss-Newton et aussi la comparer avec ce que nous avions obtenu avec Minitab 
16. Nous partons donc des données suivantes: 


Fichier Edition Format Affichage 


Mobilite; LnDensite 
80.574;-3.067 
84,.248;-2.981 
87.264;-2.921 
87.195;-2.912 
89.076; -2.84 
89.608;-2.797 
589.868; -2.702 
90.101; -2.699 
92.405:-2.633 
95,854; -2,.481 
100.696;-2.363 
101.06;-2.322 
401.672;-1.501 
390.724;-1.46 
567,534; -1.274 
635.316; -1.212 
733.054; -1.1 
759.087; -1.046 
894,.206;-0.915 
330.785; -0.714 
1030.1093;-0.566 
1080.914;-0.545 
1122.643;-0.4 
1175.351;-0.309 
1260.531;-0.109 
1273.614;-0.103 
1288.339;:0.01 
1327.643:0.119 
1353.863;:0.377 
1414.509;:0.79 
1425.208;:0.963 
1421.384;1.006 
1442.962:1.115 
1464.35:1.672 
1468.7065;:1.841 
1447.894:2.047 
1457.628;2.2 


Ensuite, nous utilisons la commande native pour y répliquer le modèle théorique supposé: 
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R Fichier Edition Voir Misc Packages Fenétres Aide 


mydata<-read.csv{("C:/GaussNewton.csv",header=T,sep=";:") 
modele<-n1s(Mobilite-(b1+#h2 fLnbensite+b3 fLnlDensite"2+#h4#Lnbensite*3)/(1+#b5fLnDensite+ 
bé6*LnDensite*2+b7#*LnDensite"3), 

start=list (b1=1300,b2=1500,b3=500,h4=75,b5=1,b6=0.4,b7=0.05),data=mydata) 
summary(imodele) 


Formula: Mobilite - (b1 + b2 * LnDensite + b3 * LnDensite*2 + bh4 * Lnbensite*3)/(1 + 
h5 * LnDensite + h6 * LnDensite*2 + b7 * LnDensite*3) 


Parameters: 
Estimate Std. Error t value Pri>ltl|) 

b1 1.288e+03 4.665e+00 276.141 < 2e-16 
.491e+03 .957e+01 37.680 < Ze-16 
.-5332e+02 -870e+01 20.322 < 2e-16 
.542e+01 .568e+00 13.546 2.55e-14 
-663e-01 -.133e-02 30.839 < 2e-16 
.950e-01 .499e-02 26.558 < Ze-16 
-.973e-02 -.584e-03 9.552 2.02e-08 


Siguif. codes: 0 "+29 0.001 95 OO 9% 04,05 Se Qui * æ À 
Residual standard error: 13.71 on 30 degrees of freedom 


Number of iterations to convergence: 22 
ichieved convergence tolerance: 9.556e-06 


> | 


« 


Nous remarquons donc que le nombre d'itérations est inférieur à celui de Minitab. Par contre 
nous avons moins d'information concernant l'erreur du modèle que ce que donne Minitab ou 
Microsoft Excel de façon automatique. Avec un plus pour Minitab qui donne l'intervalle de 
confiance au lieu de la valeur critique de la distribution de Student! 


Sinon nous retrouvons exactement les mêmes valeurs de coefficients qu'avec Minitab et la 
même erreur résiduelle. 
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Exemple 265.: Régression linéaire/polynomiale 3D 
R 3.0.2 


Bon cet exercice n'est que pour les paillettes car avoir un modèle à seulement deux variables 
explicatives est super limitatif (c'est toujours le problème des graphes car en dehors de la 2D 
et de la 3D... c'est fini!). 


Nous travaillons à nouveau avec le fichier contenant les Coûts: 


Fichier Edition Format Affichage 2 


Mois;Couts;CoutA;CoutB;Coute 
1;:44439;515;541;928 
2:43936;929;692;711 
3;44464 ; 800; 710; 824 
4:41533;979;675;758 
5:46343;1165;1147;635 
6;,44922;:651;939;901 
7;43203;847;755; 580 

8 ; 43000; 942 ; 908; 589 
9:40967;:630; 738; 682 


10;:48582;1113;1175;1050 


17;43202;731;590;1065 
18:44074:1089;607;1132 
19;:44610; 786; 513;839 


« 


Et maintenant nous jouons avec la commande scatter3d() et Im() des package car et rgl. 


D'abord nous tentons de voir ce qu'un modèle purement linéaire avec deux variables 
explicatives donne: 
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> library(rgl) 

> libraryicar) 

> mydata<-read.csv("C:/RegressionLineaireMultiple.csv",header=T,sep=";:") 
> fit<-lmiCouts-Couti+Couti:CoutB,data=mydata) 

> scatter3d(mydatafCouts-mydatafCoutitmydata$CoutB,fit=c{"linear") 

+ ,xlab="Coutsi",ylab="Couts",zlab="CoutsB",model.sunmmary=TRUE) 

$flinear 


Call: 
imiformula = y - x + 2) 


Residuals: 
Min 10 Median 3Q Max 
-0.26403 -0.08110 -0.01339 0.08107 0.23023 


Coefficients: 
Estimate Std. Error t value Pri>l|tl|l) 
{Intercept) 0.19355 0.07278 2.660 0.0171 
0.23267 0.13161 1.768 0.0962 
0.24905 0.132860 1.875 0.0791 


Signif. codes: O ‘#*#*#” O.001 ‘#*’ O.01 ‘*’ 0.05 *.” 0.1 * ” 1 
Residual standard error: 0.1475 on 16 degrees of freedom 


Multiple R-squared: 0.476, Aidjusted R-squared: 0.4105 
F-statistic: 7.268 on 2 and 16 DF, p-value: 0.005683 


>| 


Soit graphiquement: 


Couts 


1000 


Figure 251 Graphique plan de régression linéaires 3D avec erreurs verticales et points 
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Nous pouvons faire mieux et optionnellement sans utiliser le package car et en affichant aussi 
l'ellipsoïde de contrôle: 


library(rgl) 
mydata<-read.csv("C:/tmp/RegressionLineaireMultiple.csv",header=T,sep=";:") 
x<-mydata$CoutA;vy<-mydata$CoutB;z<-mydata$CoutC 


#on afficher les sphères 

plot3d(ix, y, z, col="blue", box = FALSE, type ="s", radius = 20) 
#modèle linéaire 

fit <- I1m(z - x + y) R 

coefs <- coef(fit) 

a <- coefs["x"]; b <- coefs["y"]l: © <= -1 

d <- coefs["(Intercept)"] 

#on affiche le plan 

rgl.planes(a, b, c, d, alpha=0.5, color = "red") 
title3d(color="black","","", "CoutA","CoutB","CoutC") 


ellipse <- ellipse3d(cov(chindix,y,2z)}), 
centre=c(mean(x), mean(y), mean(z)), level = 0.95) 
wire3d(ellipse, col = "#D95SFO2", lit = FALSE) 


> 
> 
> 
1> 
? 
> 
> 
> 
> 
> 
> 
>? 
> 
> 
> 
> 
+ 
> 
> | 


Ce qui donne: 


“C 
R RGui (64-bit) - [RGL device 56 [Focus]] = a] X 


MT File Edit View Misc Packages Windows Help - 5 x 


ÉGROSCSIOIE) 


400 600 800 1000 1200 1400 


Figure 252 Graph de plan de régression 3D avec ellipse de confiance 
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Sciences.ch 


Avec un modèle quadratique seul avec interactions: 


> libraryirgl) 

> libraryicar) 
> mydata<-read.csv{("C:/RegressionLineaireMultiple.csv",header=T,sep=";") 
> fit<-lmiCouts-Couti+Couti:CoutB,data=mydata) 

> scatter3d(mydatafCouts-mydata$CoutitmydatafCoutB,fit=c{("œquadratic") 
+ ,xlab="Coutsi",vylab="Couts",zlab="CoutsB",model.summary=TRUE) 
fquadratic 


Call: 
lmiformula = y + (x + 2)°2 + Iix*2) + Iiz*2)) 


Residuals: 
Min 10 Median 30 Max 
—-0.21216 -0.07394 0.019990 0.07327 0.15238 


Coefficientse: 
Estimate Std. Error t value Pr(i>l|tl|) 
(Intercept) .42985 -11149 3.856 0.00199 ** 
x .05245 .35190 -0.149 .-88381 
Z .-81985 -39810 -2.059 .-06007 
TIx 2) .29629 .39695 0.746 .46870 
Itz*2) .15046 . 58644 1.962 «07156 . G 
X:2Z .18049 -63479 -0.284 . 78064 


Signif. codes: O0 ‘***° 0.001 ‘f*° 0.01 ‘*° 0.05 *.’ 0.1 * * 1 
Residual standard error: 0.1257 on 13 degrees of freedom 


Multiple R-squared: 0.6906, idjusted R-squared: 0.5717 
F-statistic: 5.605 on 5 and 13 DF, p-value: 0.004952 


Soit graphiquement: 
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Et en mélangeant les deux (par contre à ce moment là on ne peut plus avoir les projections des 
points sur le modèle): 
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| R R Console 


library(rgl) 

library(car) 
mydata<-read.csv{("C:/RegressionLineaireMultiple.csv",header=T,sep=";") 
fit<-lm(iCouts-Couti+Couti:CoutE,data=mydata) 
scatter3dimydatafCouts-mydatafCoutitmydata$CoutB,fit=c{"linear", 
rquadratic"),xlab="Coutsi",vylab="Couts",zlab="CoutsB",) 


Bref c'est joli mais très limite puisque à trois dimensions et de toute façon c'est aussi peu 
précis (un bon tableau avec des chiffres en statistiques ça reste toujours la base!). 


Enfin pour ceux qui veulent comparer plusieurs modèles de régression (comme si on avait un 
modèle à trois variables explicatives dont l'une est maintenue fixe): 
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library("car") 

library("rgl") 

scatter3d(x=iris$Sepal.Length, y=iris$Petal.Length,z=iris$Sepal.Width, 
groups=iris$Species,xlab="Sepal Length",ylab="Petal Length",zlab="Sepal Width" 
sellipsoid = TRUE) 


Petal Lena 
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Exemple 266.: Régression régularisée ridge (L2) 
R 3.5.1 


Comme nous l'avons mentionné dans le cours théorique: 


1. Il s'agit plus d'une technique d'ingénierie statistique que de statistiques pures (raisons 
pour lesquelles on va voir des différences importantes selon les packages dans la 
valeur du lambda optimal car entre les différentes formulations de la fonction de coût 
et les méthodes paramétriques... on a pas fini de se mélanger les pinceaux en absence 
de normes ISO) 


2. La régression régularisée ridge (ainsi que LASSO ou Elastic Net) ont plus leur place 
dans la section de machine learning (d'ailleurs nous reviendrons sur ces 3 types de 
régression dans le chapitre y relatif) que dans cette section sur la régression 
puisqu'aujourd'hui nous n'avons pas de relation analytique connu pour faire de 
l'inférence statistique sur les coefficients (autres que les bootstrapping bien 
évidemment!) 


Pour information, à ce jour et à ma connaissance, 1l n'existe pas (malheureusement) un seul et 
unique package qui fait en seulement quelques lignes (4-5 lignes) ce que nous allons voir ci- 
dessous. 


Avec le package MASS 


Donc commençons avec le package MASS ce ekemples ci-dessous peuvent probablement 
être améliorés)! 


R 

R File Edit View Misc Pac G Windows Help - 6) 
> mydata<-read.csv("c:/tmp/RegressionLineaireMultiple.csv",header=T,sep=";") 

> mydata 


Mois Couts CoutA CoutB CoutC 
1 44439 515 541 928 
2 43936 929 692 711 
3 44464 800 710 824 
4 41533 979 675 758 
5 46343 1165 1147 635 
6 44922 651 939 901 
7 43203 847 755 580 
8 43000 942 908 589 
9 40967 630 738 682 
10 10 48582 1113 1175 1050 
TL 11 45003 1086 1075 984 
12 12 44303 843 640 828 
13 13 42070 500 752 708 
14 14 44353 813 989 804 
15 15 45968 1190 823 904 
16 16 47781 1200 1108 1120 
17 17 43202 731 590 1065 
18 8 44074 1089 607 1132 
19 19 44610 86 513 839 


© © -J oO 01 & CO NN 
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R RGui (64-bt) - [R Console] — 


[| 


ŒR File Edit View Msc Packages Windows Help HE 


> summary (1m(Couts-CoutA+CoutB+CoutC,data=-mycata) ) 


Call: 
Im(formula = Couts - CoutA + CoutB + CoutC, data = mydata) 


Residuals: 
Min 10 Median 3Q Max 
—2042.8 -820.9 236.2 807.3 1721.4 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 35102.S9S00 1837.227 19.106 6.11e-12 
CoutA 2.066 1.665 1.241 0:2327 
CoutB 4.176 1.681 2.484 0.0253 
CoutC 4.791 1.789 2.677 0.0172 


Residual standard error: 1253 on 15 degrees of freedom 
Multiple R-squared: 0.6454, Adjusted R-squared: 0.5745 
F-statistic: 9.102 on 3 and 15 DF, p-value: 0.001127 


> library("MASS") 
> frégression ridge avec lambda={0 
> 1m.ridye (Couts-Cou-A+CoutB+CoutC,data=mydata) 


CoutA CoutB CoutcC 
35102.900449 2.065953 4.176356 4.790641 
> | 
MR RGui (64-bit) - [R Console] = Cl 
ŒR File Edit View Misc Packages Windows Help - # 


ÉROISGSIOIE 


> fit<-lm.ridge (Couts-CoutA+CoutB+CoutC, lambda=0,data=mydata) 
> fitScoef 
CoutA CoutB CoutcC 
442.7705 855.3994 803.4398 
> coef(fit)[1] #ordonnée à l'origine 


35102.9 

> fitSGCV 
(e] 

91958.05 

> | 
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QAR Console se] 53 


> #en variant le paramètre lambda de 0.0 à S0 par pas de 0.001 

> fit<-lm.ridge (Couts-CoutA+CoutB+CoutC, lambda=seg(0,50,by=0.001),data=mydata) 
> plot (fit) 

> 


A Graphics: Device 2 (ACTIVE) 
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Sciences.ch 


E 


MR R Console 


#version un peu plus sexy du graphique 
library("dplyr") 
library("broom") #pour la fonction tidy() 
library("psych") 
library("ggplot2") 
reg_ ridge df<-fit %>% tidy() 
headTail(reg ridge df) 
lambda GCV term estimate scale 

0 91958.05 CoutA 442.77 214.32 

0 91955.59 CoutA 442.79 214.32 

0 91953.13 CoutA 442.8 214.32 

0 91950.67 CoutA 442.82 214.32 
de ss. <NA> ss “à 
50 122794.37 CoutC 244.79 167.71 
50 122794.97 CoutC 244.79 167.71 
50 122795.57 CoutC 244.79 167.71 
50 122796.16 CoutC 244.78 167.71 
ggplot (reg ridge df,aes (lambda, estimate,color=term))+ 
geom_ line (size=1)+geom hline (yintercept=0, size=1)+ 
scale x _ continuous (expand=c(0,0))+ 
labs (x=expression(lambda),y=expression(hat (beta)))+theme bw()+ 
theme (panel.background=element rect(fill="gray97"), 
legend.background=element rect(fill="gray97"), 
legend.position="bottom",legend.title-=element blank()) 


VUNVVNN NV 


VH + + + + + V 0 © Jo U1 B & N FH 


Ce qui donne: 


à 


sex) 
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GR R Graphics: Device 2 (ACTIVE sex) 


—— CoutA— CoutB — CoutC 


Pour extraire la valeur optimale de lambda selon la méthode GCV (et donc toujours sur la 
base du package MASS), on écrira: 
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| MR RGui (64-bit) - [R Console] — 


| File Edit View Misc Packages Windows Help TE 


Bla 


> MASS::select (fit) 
modified HKB estimator is 0.9975516 
modified L-W estimator is 0.6957899 
| smallest value of GCV at 4.442 
> lambdas<-fit %>$5 glance() 
| > lambdas$lambdaGCV 


[1] 4.442 
> | 
@R Console EE El 


> ggplot (reg ridge df,aes (lambda, GCV))+geom line ()+ 

+ geom_ point (x=lambdas$lambdaGCV, y=min(reg ridge df$GCV),color="red3",size=3) + 
+ labs (x=expression (lambda), y=expression(GCV))+theme bw()+ 

+ Fr (panel.background=element rect(fill="gray97")) 

> 


Ce qui donne: 
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QU A Graphics: Device 2 (ACTIVE) 
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Avec le package ridge 


E n 


Œ R Console = REX 


> library("ridge") 
> # lambda optimal automatiquement calculé par une méthode semi-paramétrique 


> fit<-linearRidge(Couts-+ CoutA+CoutB+CoutC, data = mydata,scaling = "“scale") 
Warning message: 
In linearRidge (Couts + CoutA + CoutB + CoutC, data = mydata, scaling = "scale") 


lambda is chosen automatically so scaling is set to "“corrForm" 
> summary(fit) 


Call: 
linearRidge (formula = Couts - CoutA + CoutB + CoutC, data = mydata, 
scaling = "corrForm") 
Coefficients: 
Estimate Scaled estimate Std. Error (scaled) t value (scaled) 
(Intercept) 35796.125 NA NA NA 
CoutA 2.158 2015.768 1234.859 1.632 
CoutB 3.726 3326.788 1208.857 2:7192 
CoutC 4.305 3146.940 1119.922 2.810 
Pr(>ltl) 
(Intercept) NA 
CoutA 0.10260 
CoutB 0.00592 
CoutC 0.00495 


Ridge parameter: 0.1129874, chosen automatically, computed using 2 ECs 
Degrees of freedom: model 2.616 , variance 2.292 , residual 2.939 


> fit$lambda 

[1] 0.06192115 0.11298745 0.14766389 
> plot (fit) 

> | 


On voit donc ici une différent significative. Mais c'est dû à deux choses: 
1. Les coefficients ne sont pas standardisés 


2. Le package utilise la méthode proposée par Cule et al (2012) 
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Sciences.ch 
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MR R Graphics: Device 2 (ACTIVE 
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Avec le package gimnet 


Là encore on va voir des différences entre le lambda. Bien que glmnet utilise à ce jour aussi le 
GCV comme MASS, la différence est significative. 


f 


= Ses 
> library("glmnet") 
> #Alpka=0 correspond à la régression ridge comme va dans Le cours théorique 
> fit <-— glmnet (as.matrix(mydata[,c(3:5)]), mydata[,2],alpha=0, family="gaussian") 
> plot(fit, zxvar = "lamkda", label = TRUE) 
> | 
RS & Device 2 (ACTIVE (rst||ren|| | 
3 3 3 3 3 
2 
= 
œ 
S 
[= 
œ 
Le] 
O 


Log Lambda 
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> #eéllenlivn sans sel.sesd le résullal sere diflécenul à chaque exévulion! 
> cv.glmmod <— cv.glmnet(as.metrix(mydatal,ci3:5)]), y=mydatal,2], alpha=0,£family="gaussian") 
Marring message: 

Option grouped=FALSE enforced in cv.glmnet, since < 3 ckservazions per fold 

> Elot {cv.glmmod) 

> (bost.lamoda <- cv.glmmod$lzmbda.min) 

[1] 461.3203 
| > logibesz.lambda) 

[1] 6.134033 
1» | 


33333333333333433393333333333333333 


Mea7-Squared Error 


R RGui (64-bit) - [R Console] 
ŒR File Edit View Misc Packages Windows Help 


BROSSE) 


> fcoefficients correspondants aux lambda optimal 
> coef(cv.glmmod, "lambda.min")1[,1] 

(Intercept) CoutA CoutB CoutC 
” jiasisai 2.160472 3.342054 3.864020 
> 
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MR RGui (64-bit) - [R Console] — 
ŒR File Edit View Misc Packages Windows Help = EX 
EAOBEES 

> ftoujours avec les packages dlplyr et broom 

> #on peut formater la sorte afin de voir l'évolution 

> #fde l'algorithme 

> Éit<-fit 3>5 tidyi() 

> psych::headTail(fit) 

term step estimate lambda dev.ratio 

1 (Intercept) 1 44355.42 1142725.5 0 

2 CoutA 1 0 1142725.5 0 

3 CoutB 1 0 1142725.5 0 

2 CoutC 1 0 1142725.5 0 

5 <NA> ER La = a 
| 6 (Intercept) 100 35494.02 114.27 0.64 

7 CoutA 100 2.13 114.27 0.64 

8 CoutB 100 3:94 114.27 0.64 

9 | CoutC 100 4.51 114.27 0.64 

> 


On peut aussi faire des prévisions: 


R RGui (64-bit) - [R Console] — O 
ŒR File Edit View Misc Packages Windows Help -\#)x 


FEES | 


> library("glmnet") 
> mydata<-read.csv("c:/tmp/RegressionLineaireMultiple.csv",header=T,sep=";") 
> fit_ridge<- glmnet (as.matrix(mydata[,c(3:5)]), mydata{,2],alpha=0, family="gaussian") 
> cv.glmmod.ridge <- cv.glmnet (as.matrix(mydatal,c(3:5)]), y=mydatal,2], alpha=0,family="gaussian") 
Warning message: 
Option grouped=FALSE enforced in cv.glmnet, since < 3 observations per fold 
> predict(fit ridge, newx = as.matrix(mydata[,c(3:5)]), s = cv.glmmod.ridge$lambda.min) 
L 


[1,] 42972.41 
[2,] 43529.00 
[3,] 43754.88 
[4,1] 43764.12 
[5,] 45287.08 
[6,] 44512.89 
[7,] 43050.87 
[8,] 43811.67 
[9,] 42924.14 
[10,] 46900.12 
[11,] 46242.63 
[12,] 43625.85 
[13,] 42792.46 
[14,] 44652.33 
[15,] 45297.28 
[16,] 47135.82 
[17,] 44144.68 
[18,] 45240.58 
[19,] 43114.21 
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Forçage à l'origine 


On peut forcer la même analyse que précédemment à passer par l'origine en écrivant: 


- 


R : EN ES 
> fit<-glmnet (as.matrix(mydatal,c(3:5)]),mydatal,2],alpha=0, family="gaussian",intercept=FALSE) 
> plot(fit,xvar="lambda",label=TRUE) 
> | 
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Coefficients non-négatifs 


On peut forcer aussi en plus les coefficients à être non-négatifs (au cas où... !) avec: 
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> fit<-glmnet (as.matrix(mydatal,c(3:5)]),mydatal,2],alpha=0, family="gaussian", 
+ lower.limits = 0,intercept=FALSE) 

> D (£fit,xvar="lambda", label=TRUE) 

> 


# 
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Exemple 267.: Régression LASSO (L:1) 
R 3.5.1 


Nous allons ici nous concentrer que sur le package glmnet puisque nous nous sommes bien 
rendus compte de ses avantages. 


Il suffit reprendre l'exemple précédent mais avec alpha qui vaut 1: 


e à 


R° RENE 
> library("glmnet") 
> #Alpha=0 correspond à la régression ridge comme vu dans le cours théorique 
> fit <- glmnet(as.matrix(mydatal,c(3:5)]), mydatal,2],alpha=1,family-="gaussian") 
> plot(fit, xvar = "lambda", label = TRUE) 
> | 
fl me mme 
GR Graphics: Device 2 (ACTIVE Et NE 
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KR Conole =] te | x 


> +attention sans set.s2ed le résultat sera différent à chaque exécution! 
> cv.gimmod <— cv.gimnot (as.matrix (mydatal,c(3:5)]), y-mydatal,2], alpha-1,family-"Jauscian") 
Warning message: 


Op=zion grouped=FAZSE enforced 11 cv.glmaet, since < 3 observations par fold 
> plot (cv.glmmod) 

> (besL.lambda <- cv.ylLumod$lambda.iiri) 

[1] 48.32364 

> loq(best.lembda) 

[1] 3.878224 
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R RGui (64-b 
R File Edit View Misc Packages Windows Help 


BROISEESIOIE 


> coef(cv.glimmod, "lambda.min"){,1] 
(Intercept) CoutA CoutB CoutcC 


| MS 1.985055 3.998204 4.542858 
> 


Sinon on peut comme toujours faire des prévisions: 
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R Gui -bil - CR Cornu] 


Edit View HWisc Peckèges Wincowr Hap - EX 


> library("gimnet") 

> mydata<-read.csv("cs:/tmp/RegressionlineaireMultiple.csv",header=T, sep 

> fit _LASSO<- glmret (as.matrix (mydatal,c(3:5)]li, myiatal,2],alphs=1, family="gaussian") 

> cv.gimmod.LASSO <- cv.glmnet (as.matrix(mydata(,c{3:5)]), v=myds=zal,2], slpha=1l,=amily=";aussian") 

Wzrning message: 

Option gronped=FARSF enforced in cv.glmaet, since < 1 observations per fold 

> pr=diel (fil. TASSO, newx — Ascmalrix(mydalal,6{5:5)]}, S — ev.gTmmui. TASSOST ambre ie ni) 
1 

[1,1 42381-66 

[2,1 4332699 

[3,1] 43€73.41 

[4,1] 4358229 

[5,1 4533682 

[6,1 44€82.61 

(7,1 4279785 

[8,1] 43€669.87 

[9,1 42766.33 

[10,1] 47316.71 

[11,] 46533.33 

[12,1] 43490.45 

[13,1 42€81.02 

(114,1 42/61.81 

(15,1 45322.1}; 

[15,1 4549.88 

[17,1 44178.63 

118,1 45301.99 

[19,1 42399.17 

>| 
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Exemple 268.: Régression Elastic Net (L1+Li) 
R 3.5.1 


Pour l'elastic net on va à nouveau se focaliser sur le package glmnet mais avec un alpha de 
0.5. 


ie PIE 


> library("gimnet") 
falpha=0.5 correspond à un 2lastic net équilibré en LASSO et ridge 
tit <- gimnet (as.matrix(mydatal,c(3:5) |), mydatal,2],alpha=U.5,tamily="gaussian") 
plot (fit, xvar = "lambäa", label = TRUE) 


QU R Graphics Device 2 (ACTIVE 


a 
4 
C 
œ 
[e) 
Ces 
qd 
Q 


EN 
P 


E 
ŸJ 


Log Lambda 
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QR R Coicols En EE 


> cv.glmmod <- cv.clmneot (as.matrix (mydatal,c(3:5)]), y-mydatal,2], alpha-0.5,family-"gaus$s 
Warning message: 

Opzion grouped=FALSE enforced in cv.glmnet, since < 3 observations per ‘old 

> plot(cv.gimmoû) 

> (best.lambäa <- cv.glmmod$lambda.min) 

[1] 96.65727 

> logibest.larbda) 

[11 4.571171 

>| 


< 


3 3 3 3 8 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 


Vean-Squared Error 


log(Lambda) 


R RGui (64-bit) - [R Console] - CI] 
R File Edit View Misc Packages Windows Help - # x 


EROISOSINIE 


> fcoefficients correspondants au lambda optimal 
> coef(cv.glmmod, "lambda.min")[{,1] 


(Intercept) CoutA CoutB CoutC 
| soma 2.015877 3.885801 4.425868 
> 


Finalement on peut "s'amuser" à comparer tous les modèles: 
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QU E Console LS TEE] 


library ("glmret"]} 

mydata<-read.csv("c:/tmE/RegressionLineaireMultiple.csv",header=T, sep=";") 

fit OZS< Im(Couts-CoutAlCoutDiCoutC, data=mydata) 

fit ridge<- clmnet (as.matrix(mydata(,c(3:5)]), mydataf,2],alpha=ÿ, family="gaussian") 
fit LASSO< cimnet (as.matrix(mydata{,ci3:5i]), mydata[,2],alpha=1, family="gaussian") 
fit _EN<- glmret (as.matrix (mydatal,c(3:5)]), mydata{,2],alpha=0.5,family="gaussian") 
par (mfrow-c(2,2)} 

pilot (fit ridce, xvar = "lambda", label = TRUE, main="Ridge") 

plot (fit LASEO, xvar — "lambda", labcl — TRUE, main "_AS€O") 

D (fit _EN, xvar = "lambda", label = TRUE, main="Elastic Net") 


YVUNMNNVYNNNV 


VV 


VV 


 R Graphics Device 2 lACTIVE) 


n n 
L e 
É = 
È 
2 2 
E [= 
re 1 
F1 Là 
o (e) 


Cuefficients 


Ainsi que: 
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Le 


@ À Console sex) 


> par(mfrow=c(2,2)) 

> plot(cv.glmnet (as.matrix(mydatal,c(3:5)]), y=mydatal,2], alpha=0,family="gaussian"),s 
Warning message: 

Option grouped=FALSE enforced in cv.glmnet, since < 3 observations per fold 

> plot(cv.glmnet (as.matrix(mydatal,c(3:5)]), y=mydatal,2], alpha=1,family="gaussian"),s 
Warning message: 

Option grouped=FALSE enforced in cv.glmnet, since < 3 observations per fold 

> plot(cv.glmnet(as.matrix(mydatal,c(3:5)]), y=mydata[,2], alpha=0.5,family="gaussian"s 
Warning message: 

Option grouped=FALSE enforced in cv.glmnet, since < 3 observations per fold 

> 


ke 


Q R Graphics: Device 2 (ACTIVE Ss | |x 


33333 3 3 RIM 3 3 3 3 3 3 3 


5 5 
= EE 
3 & 8 À 
s + = + 
Fa Es 
gs ? 
=  . 
È 8 È ? nl ï Jiist 
& 4 dattes tite teste i TT | 
log(Lambda) log(Lambda) 
3 3 3 3 3 3ElesteNet, 3 3 3 3 0 
5 
5 à 
TT 
5 + 
3 
La 
7 
[= 
œ 
5 e 
F 
L'] 
La 
3 4 5 6 7 
log(Lambda) 


On peut comparer aussi tous les coefficients graphiquement. Pour cela on va d'abord traiter 
les données (y'a peut-être plus efficace mais bon....): 
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R 4 = 
R File Edit View Misc Packages Windows Help x 
ESC E | 
A 

> library("glmnet") 

|> library("tidyr") 

[> 

|> mydata<-read.csv("RegressionLineaireMultiple.csv",header=T, sep=";") 

|> fit_OLS<-1m(Couts-CoutA+CoutB+CoutC, data=mydata) 

|> fit_ridge<- glmnet (as.matrix(mydata[,c(3:5)]), mydata[,2],alpha=0, family="gaussian") 

|> fit_LASSO<- glmnet (as.matrix(mydata[,c(3:5)]), mydata[,2],alpha=1, family="gaussian") 

> fit EN<- glmnet(as.matrix(mydatal,c(3:5)]), mydata[,2],alpha=0.5,family="gaussian") 

|> 

|> df_coefs = chind(coef(fit_OLS), 

|+ as.data.frame.matrix(chind( 

+ coef(fit_ridge, s = cv.glmnet(as.matrix(mydatal, c(3:5)]), y = mydatal, 2], alpha = 0, family = "gaussian")$lambda.ise), 

1+ coef(fit LASSO, s = cv.glmnet(as.matrix(mydatal, c(3:5)]), y = mydatal, 2], alpha = 1, family = "gaussian")S$lambda.ise), 

+ coef(fit_ EN, s = cv.glmnet(as.matrix(mydatal, c(3:5)]), y = mydatal, 2], alpha = 0.5, family = "gaussian")S$lambda.ise)))) 
Warning messages: 

1: Option grouped=FALSE enforced in cv.glmnet, since < 3 observations per fold 


Option grouped=FALSE enforced in cv.glmnet, since < 3 observations per fold 
3: Option grouped=FALSE enforced in cv.glmnet, since < 3 observations per fold 
> colnames (df_coefs) <- c('OLS', "RIDGE', 'LASSO', 'Elastic Net') 

> df_coefs 


| OLS RIDGE LASSO Elastic Net 
(Intercept) 35102.900449 40103.873951 38101.053534 38518.069800 
CoutA 2.065953 1.444314 1.494429 1.601419 
| CoutB 4.176356 1.703065 2.919954 2.590357 
|Coutc 4.790641 1.889658 3.042825 2.752742 


|> df_coefs['variable'] <- rownames(df_coefs) 
> df coefs 


OLS RIDGE LASSO Elastic Net variable 
(Intercept) 35102.900449 40103.873951 38101.053534 38518.069800 (Intercept) 
CoutA 2.065953 1.444314 1.494429 1.601419 CoutA 
CoutB 4.176356 1.703065 2.919954 2.590357 CoutB 
CoutC 4.790641 1.889658 3.042825 2.752742 CoutC 


> df_coefs <- gather(df_coefs, model, coefs, OLS:Elastic Net) 
> df_coefs 


variable model coefs 
1 (Intercept) OLS 35102.900449 
2 CoutA OLS 2.065953 | 
13 CoutB OLS 4.176356 
4 CoutC OLS 4.790641 
5 (Intercept) RIDGE 40103.873951 
6 CoutA RIDGE 1.444314 
17 CoutB RIDGE 1.703065 
8 CoutC RIDGE 1.889658 
9 (Intercept) LASSO 38101.053534 
10 CoutA LASSO 1.494429 
11 CoutB LASSO 2.919954 
2 CoutC LASSO 3.042825 
13 (Intercept) Elastic Net 38518.069800 
14 CoutA Elastic Net 1.601419 
15 CoutB Elastic Net 2.590357 
16] CoutC Elastic Net 2.752742 


CO 
… et on peut passer alors à la partie graphique, 


. 
R FEES) 
> library("ggplot2") 
> colfill <- c('#A50026','#40004B','#276419','#313695") 
> ggplot(df_coefs, aes(x = model, y = coefs, fill = model)) + 
+ geom bar(stat = 'identity') + 
+ facet_wrap(-variable, ncol = 2, scales = "free y") + 
+ scale fill manual (values = colfill) 
>| 
R EEE 

(Intercept) 
40000 - 20 
30000 - 15- 
20000 - 1 
10000 - 0 
model 
0- 00- 
o E Elastic_Net 
8 ss 
| KE 
#1 | Er 
3- 
2- 
1- 
0- 
Elastic_Net  LASSO OLS RIDGE Elastic_Net  LASSO OLS RIDGE 
model 
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À nouveau on peut faire des prévisions: 


R Ru Ca-hit) - 8 Consnie] 


Fle Edit View [Misc Peckège: Wincows Hz2p 


BR LIEC e LE 


1 
[1,1] 42244.41 
[2,1 43406.40 
[3,1 43712-75 
[4,] 43€47-71 
[5,1] 45302.73 
[5,1] 44836.95 
[7,1] 42209.36 
[8,1] 43730.22 
[9,1] 42355.44 
[10,1 17128.68 
(11,1 416398.71 
|12,] 43516.66 
(13,1 42/62.29 
(11,1 44/21.59 
|15,1 45284.11 
[16,1 47352.45 
[17,1 44169.34 
[18,1 45248.86 
[19,1 42390.34 
>| 


R Statistical Software 


NW 


> library("gimaet"] 

> mylata<-read.csv("c:/tmp/RegressionLineaireMultiple .csv",.header=T, sep=";"! 

> Fit_FN<— gimaet (as-matix(mydatal,r(1:5)]), mydats(,2},alpha=û.5, famiiy="gaussian") 

> v-gimmotFN<— 0u.51mrel(as.imalr x (myilalat,::(38:5)]), y-mydalat,21, a1gihe-05, Camily-"galssi an") 
Warning message: 

Quioun groupedi-FANSF enforted in cv.glmnel, since < 3 observalions per loi 

> pradiel (Ti _7TwW, newx — AS-malrix(mydalal(,e{5:5)]), S — ev.q med. FNSTamtnla min) 


Sciences.ch 
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Exemple 269.: Régression Isotonique 
R 3.6.1 


Reproduisons 1c1 l'exemple détaillé fait à la main dans le cours théorique: 


O 


HR RGui (64-bit) - [R Console] 


R File Edit View Misc Packages Windows Help … EX 


x <= Ci-5, -3, -3,; -2, -1, 0, 2, 3, 5, 6, 7: 7» 9) 
fvaleurs y qui devraient être croissantes seulement 
v <= c(0; 0.4; 0.3; 0,2; 0.4; 0.6, 0.7; 0:2; 0:6;, 0:8; À; 1; 0.7) 
fit<-isoreg(x, y) 
#fvaleurs initiales 
fitSy 
[LT 0-0 0-4 0-3 0.2 0-4 0-6 0.7 0-2 0-6 0:98 L:0 1:0:0-.7 
> fvaleurs régréssées 
> EiTSvE 
[LT 0:0-0:3 0-3 0:3 0-4 0.5 0:85 0-5 :0:6 0:68 0-9 0-9 0:9 
> frésidus 
> sum(residuals(fit)”"2) 
[11 0,22 
> #points de croissance seuls 
> fitSyf[fitSiKnots] 
4 0.0 0.3 0.4 0.5 0.6 0.8 0.9 
> 


VVVVVV 


. | N°. | 
Nous retrouvons bien les même résultats. Voyeñs si nous obtenons aussi le même graphique: 


onsole =) [e ] C& 7] 


Isotonic regression isoreg{x = X, y = y) 


x$y 
0.4 0.6 0.8 1.0 


0.2 


0.0 


-5 0 5 
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Voyons si nous pouvons faire de la prévision et de l'interpolation: 


R rü i-biti - [R pa 


QR File Edit View Misc Packages Windows Help # x 


BSOISESINIE | 


> as.stepfun(fit) (seq(-10, 15, by=1i)) # prediction 

EL] 1050 0:0"0:0 0:0"0:0 05:00:53 0:3 033: 0.4 055: 055 /0:5: 055 0:56: 0.6 0:68: 0.9 
EZ91 0.9 0.9 0.9 0.9 0.9 0.9 0.9 0.9 
> | 


W 
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Exemple 270.: Support Vector Regression 
R 3.2.1 x86 


Il paraît assez évident que SVM peut aussi être utilisé pour la régression linéaire ou non 
linéaire et performe bien souvent bien mieux que les techniques paramétriques classiques. 
Voyons comment avec un exemple particulier univarié. 


Commençons avec le cas classique: 


> mydata<-read.csv("c:/tmp/RegressionUnivarieeSVM.csv",sep=";:", header=T) 
> mydata 
Mois Ventes 
4 
9 
12 
15 
17 
10 16 
11 17 
12 18 
15 18 
> plot (mydata) 
> model <- 1m(Ventes - Mois, mydata) 
> éd (model) 
> 


1 
2 
3 
4 
5 
6 
- 
8 


w 


Ce qui donne: 
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Et en utilisant le SVM, le résultat est bien évidemment meilleur: 


> model<-svm(Ventes-Mois,mydata) 
… > predictedY<-predict (model,mydata) 
> plot (mydata) 
> sine (mydata$Mois,predictedY,col="red",pch=4) 
> 
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Exemple 271.: Analyse de la corrélation canonique 
R3.1.1etR4.1 


Commençons par les captures que nous avions fait à l'époque de R 3.1.1. 


Nous utilisons le jeu de données du cours théorique: 


1 Fichier Edition Voir Misc Packages Fenêtres Aide 
GE 


> library(mixOmics) 
> mydata<-read.csv("C:/tmp/CanonicalCorrelation.csv",header=T,sep=";:")] 
> mydata 


Là 


OOo +E 0 © -J o Æ EE O Æ H 10 Oo + 0 © CG on 0 D - 


Safety Easy 
2.4 


Type Model Economy Service Value Price Design Sport 
Audi 100 3.9 2.8 Be 4.2 3.0 
BMW 5 series 
Citroen LX 
Ferrari 
Fiat Uno 
Ford Fiesta 
Hyundai 
Jaguar 
Lada Samar a 
Mazda 323 
Mercedes 200 
Mitsubishi Galant 
Nissan Sunny 
Opel Corsa 
Opel Vectra 
Peugeot 306 
Renault 19 
Rover 
Toyota Corolla 
Volvo 
Trabant 601 
VW Golf 
VTT Passat 
Warthurg 1:3 


. 


. 
. 
. 
. 


. 
. 
. 


1 
2 
3 
4 
5 
6 
7 
8 
9 


H 
H 
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. 
. 
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J N° OH -J © (0 O0 © O1 on B © (0 -J © (0 5 Bb RH 0 D © om 


En © D On + © 9 C2 CO 9 Co Co Co He Co 4 He Co Co A [NO Co pa 
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En utilisant la fonction rec() du package mixOmics nous obtenons: 
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R Fichier Edition Voir Misc Packages Fenétres Aide [-ls|x] 


X <- scale (mydata[5:6]) 
Y <- scale (mydatal[c(3:4,7:10)]) 
res.mix <- reciX,Ÿ) 
res.mix$cor 
L 2 
0.9793946 0.9056556 
> res.mix$loadings 
$x 


> 
> 
> 
> 


[;1] [,2] 
Value 0.6727396 -1.550779 
Price -0.3749989 -1.648293 


$T 

C;1] [:2] 
Economy -0.375836655 .39901329 
Service 0.167293406 .57333664 
Design 0.003083124 -05103513 
Sport. 0.470551446 .00349044 
Safety 0.242785970 .32401928 
Easy.h. 0.239394175 . 60649018 


> | 


Il s'agit bien des valeurs obtenues dans le cours théorique. Nous retrouvons les mêmes 
corrélations qu'avec MATLAB mais pas les mêmes coefficients (ceux-ci-dessus étant centrés 
réduits au contraire de MATLAB). 


Maintenant passons à un exemple fait en formation avec R 4.1 pour comparer les résultats de 
SAS et de R. Comme le package mixOmics n'y est plus disponible au jour où nous écrivons 
ces lignes, nous ferons l'exemple avec le package CCA et sa fonction ce). 


D'abord nous chargeons les données: 
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[ 
| MR RGui (64-bit) - [R Console] = CI 
GR File Edit View 


{> library("CCA") 
|> mydata<-read.csv("c:/tmp/Sales.txt",header=T,sep=";") 
|> str(mydata) 


Misc Packages Windows Help x 


| "data.frame': 50 obs. of 7 variables: 
$ Sales.Growth : num 93 88.8 95 101.3 102 ... 
$ Sales.Profitability : num 96 91.8 100.3 103.8 107.8 
$ New.Account.Sales : num 97.8 96.8 99 106.8 103 ... 
$ Creativity : int 9 7 8 13 10 10 9 19 19 14 ... 
$ Mechanical.Reasoning: int 12 10 12 14 15 14 12 20 17 18 
$ Abstract.Reasoning : int 9 10 9 12 12 11 9 15 13 11 ... 
| $ Mathematics : Ant 20 15 26 29 32 21 25 51 31 39 .. 


|> head(mydata) 
Sales.Growth Sales.Profitability New.Account.Sales Creativity Mechanical.Reasoning 


1 93.0 96.0 97.8 g 12 
2 88.8 91.8 96.8 7 10 
3 95.0 100.3 99.0 8 12 
4 101:3 103.8 106.8 13 14 
5 102.0 107.8 103.0 10 15 
6 95.8 97.5 99.3 10 14 
Abstract.Reasoning Mathematics 
(ei g 20 
2 10 RE 
{3 g 26 
4 12 29 
5 12 32 
16 11 21 | 
>| 


CO 
: _ NS. sans . 
Nous faisons d'abord une première analyse desgfiptive des différentes matrices de 
corrélations: 
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[ 
| R RGui (64-bit) - [R Console] — 


QR File Edit View Misc Packages Windows Help |: 


| 

|> X<-mydata[l:3] 
|> Y<-mydata([4:7] 
|> matcor(X, Y) 


| $Xcor 

| Sales.Growth Sales.Profitability New.Account.Sales 
|Sales.Growth 1.0000000 0.9260758 0.8840023 
|Sales.Profitability 0.9260758 1.0000000 0.8425232 
|New.Account.Sales 0.8840023 0.8425232 1.0000000 

| $Ycor 

| Creativity Mechanical.Reasoning Abstract.Reasoning Mathematics 
|Creativity 1.0000000 0.5907360 0.1469074 0.4126395 
|Mechanical.Reasoning O0.5907360 1.0000000 0.3859502 0.5745533 
Abstract.Reasoning 0.1469074 0.3859502 1.0000000 0.5663721 
Mathematics 0.4126395 0.5745533 0.5663721 1.0000000 
$XYcor 


Sales.Growth Sales.Profitability New.Account.Sales Creativity 
Sales.Growth 1.0000000 0.9260758 0.8840023 0.5720363 


Sales.Profitability 0.9260758 1.0000000 0.8425232 O0.5415080 
|New.Account.Sales 0.8840023 0.8425232 1.0000000 0.7003630 
Creativity 0.5720363 0.5415080 0.7003630 1.0000000 
|Mechanical.Reasoning 0.7080738 0.7459097 0.6374712 0.5907360 
Abstract.Reasoning 0.6744073 0.4653880 0.6410886 0.1469074 
Mathematics 0.9273116 0.9442960 0.8525682 0.4126395 
| Mechanical.Reasoning Abstract.Reasoning Mathematics 
Sales.Growth 0.7080738 0.6744073 0.9273116 
Sales.Profitability 0.7459097 0.4653880 0.9442960 
New.Account.Sales 0.6374712 0.6410886 0.8525682 
|Creativity 0.5907360 0.1469074 0.4126395 
|Mechanical.Reasoning 1.0000000 0.3859502 0.5745533 
| Abstract.Reasoning 0.3859502 1.0000000 0.5663721 
| Mathematics 0.5745533 0.5663721 1.0000000 


>| 


Ensuite nous obtenir les corrélations canoniques et nous voyons que nous obtenons bien les 
mêmes que dans SAS: 


R RGui (64-bit) - [R Console] — OI 


OR File Edit View Misc Packages Windows Help IE: 


> ccl$cor 

[1] 0.9944827 0.8781065 0.3836057 
> ccl$cor”2 

| 0.9889958 0.7710711 0.1471533 
> 


= 


On voit que 98.9 % de la variation dans U de s'explique par la variation de VI, et 77.11 % de 
la variation dans U, s'explique par V2, mais seulement 14.72 % de la variation dans U3 
s'explique par V3. Ces deux premières corrélations canoniques sont très élevées et suggèrent 
que seules les deux premières corrélations canoniques sont importantes. 
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Maintenant obtenons les coefficients des coefficients de la régression canonique pour noter 


que là aussi nous obtenons les mêmes qu'avec SAS: 


R File Edit View Misc Packages Windows Help 


EST 


> | 


Et donc nous avons par exemple: 


Ui = —0.0624% rouen — 0.209%Xpropit — 0.0783X nou 
R 


et respectivement: 


V, = —0.0697Y rente — 0.0307Ymecn — 0.0628X man 


> ceLl(3:341 
Sxcoef 

[,1] [,2] [,3] 
Sales.Growth —-0.06237788 -0.1740703 0.3771529 
Sales.Profitability -0.02092564 0.2421641 -0.1035150 
New.Account.Sales -0.07825817 -0.2382940 -0.3834151 
Sycoef 

[,1] [,2] [,3] 
Creativity —-0.06974814 -0.19239132 -0.24655659 


Mechanical.Reasoning -0.03073830 0.20157438 0O.14189528 
Abstract.Reasoning -0.08956418 -0.49576326 0.28022405 
Mathematics -0.06282997 0.06831607 -0.01133259 


Pour interpréter chaque composante, nous devons calculer les corrélations entre chaque 


variable et la variable canonique correspondante. 


Les corrélations entre les variables de vente et les variables canoniques pour la performance 


des ventes se trouvent ici : 
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R RGui (64-bit) - [R Console] - Q 


R File Edit View Misc Packages Windows Help 


ET 


> cc2 <- comput(X, Y, ccl) 
> ce213:6] 
Scorr.X.xscores 
[,1] [,2] [,3] 
Sales.Growth -0.9798776 0.0006477883 0.199598477 


Sales.Profitability -0.9464085 0.3228847489 -0.007504408 
New.Account.Sales —-0.9518620 -0.1863009724 -0.243414776 


$corr.Y.xscores 
[,1] [,2] [,3] | 
Creativity -0.6348095 -0.1894059 -0.24988439 
Mechanical.Reasoning -0.7171837 0.2086069 0.02598458 
Abstract.Reasoning -0.6436782 -0.4402237 0.22027544 
Mathematics -0.9388771 0.1734549 0.03614570 | 


$corr.X.yscores 


[,1] [,2] [,3] 


Sales.Growth -0.9744713 0.0005688272 0.076567107 
Sales.Profitability -0.9411869 0.2835272081 -0.002878734 
New.Account.Sales —-0.9466102 -0.1635921013 -0.093375287 | 


S$corr.Y.yscores 

[,1] [,2] [,3] 
Creativity -0.6383313 -0.2156981 -0.65140953 
Mechanical.Reasoning -0.7211626 0.2375644 0.06773775 
Abstract.Reasoning -0.6472493 -0.5013329 0.57422365 
Mathematics -0.9440859 0.1975329 O0.09422619 


> | 


En regardant la première variable canonique pour les ventes ci-dessus (première colonne de la 
matrice entourée en rouge), nous voyons que toutes les corrélations sont uniformément 
grandes. Par conséquent, nous pouvons considérer cette variable canonique comme une 
mesure globale de la performance commerciale. Pour la deuxième variable canonique pour les 
performances des ventes, aucune des corrélations n'est particulièrement importante et, par 
conséquent, cette variable canonique fournit peu d'informations sur les données. Encore une 
fois, nous avions décidé plus tôt de ne pas regarder les troisièmes paires de variables 
canoniques. 


Les corrélations entre les scores des tests et les variables canoniques pour les scores des tests 
se trouvent également dans: 
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R File Edit View Misc Packages Windows Help 
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> cc2 <- comput(X, Y, ccl) 
> cc2(3:61 
S$Scorr.X.xscores 


[,1] [,2] [,3] 


Sales.Growth -0.9798776 0.0006477883 0.199598477 
Sales.Profitability -0.9464085 0.3228847489 -0.007504408 
New.Account.Sales —-0.9518620 -0.1863009724 -0.243414776 


$corr.Y.xscores 
[,1] [,2] [,3] | 
Creativity -0.6348095 -0.1894059 -0.24988439 
Mechanical.Reasoning -0.7171837 0.2086069 0.02598458 
Abstract.Reasoning -0.6436782 -0.4402237 0.22027544 
Mathematics -0.9388771 0.1734549 0.03614570 | 


$corr.X.yscores 


[,1] [,2] [,3] 


Sales.Growth -0.9744713 0.0005688272 0.076567107 
Sales.Profitability -0.9411869 0.2835272081 -0.002878734 
New.Account.Sales —-0.9466102 -0.1635921013 -0.093375287 | 


Scorr.Y.yscores 


[,1] [,2] [,3] 
Creativity -0.6383313 -0.2156981 -0.65140953 
Mechanical.Reasoning -0.7211626 0.2375644 0.06773775 
Abstract.Reasoning .6472493 -0.5013329 0.57422365 
Mathematics -0.9440859 0.1975329 O0.09422619 


Étant donné que toutes les corrélations sont importantes pour la première variable canonique, 
cela peut également être considéré comme une mesure globale de la performance au test, 
cependant, il est plus fortement corrélé avec les résultats des tests de mathématiques. La 
plupart des corrélations avec la deuxième variable canonique sont faibles. Certains suggèrent 
que cette variable peut être négativement corrélée avec le raisonnement abstrait. 


En mettant ces deux dernières conclusions ensemble, nous voyons que le meilleur prédicteur 
de la performance des ventes est les résultats des tests de mathématiques, car cet indicateur se 
démarque le plus. 


Ces résultats sont encore renforcés en examinant les corrélations entre chaque ensemble de 
variables et le groupe opposé de variables canoniques. 


Les corrélations entre les variables de vente et la première variable canonique pour les 
résultats des tests: 
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UR RGui (64-bit) - [R Console] — C] 
GR File Edit View Misc Packages Windows Help 


ETC) 


> cc2 <- comput(X, Y, ccl) 
> ce213:61] 
$corr.X.xscores 


[,1] [,2] [,3] 
Sales.Growth —-0.9798776 0.0006477883 0.199598477 
Sales.Profitability -0.9464085 0.3228847489 -0.007504408 
New.Account.Sales —-0.9518620 -0.1863009724 -0.243414776 
$corr.Y.xscores 

[,1] [,2] [,3] 
Creativity —-0.6348095 -0.1894059 -0.24988439 


Mechanical.Reasoning -0.7171837 O0.2086069 0.02598458 
Abstract.Reasoning -0.6436782 -0.4402237 0.22027544 
Mathematics -0.9388771 0.173454S 0.03614570 


$Scorr.X.yscores 


[,1] [,2] [,3] 
Sales.Growth 0.9744713 0.0005688272 0.076567107 
Sales.Profitability -0.9411869 0.2835272081 -0.002878734 
New.Account.Sales 0.9466102 -0.1635921013 -0.093375287 


$corr.Y.yscores 

[,1] [,2] [,3] 
Creativity -0.6383313 -0.2156981 -0.65140953 
Mechanical.Reasoning -0.7211626 0.2375644 0.06773775 
Abstract.Reasoning —-0.6472493 -0.5013329 0.57422365 
Mathematics —-0.9440859 0.1975329 0.09422619 


> | 


Nous pouvons voir que ces trois corrélations sont fortes et montrent un modèle similaire à 
celui de la variable canonique pour les ventes. La raison en est évidente : la première 
corrélation canonique est très élevée. 


Les corrélations entre les scores des tests et la première variable canonique pour les ventes: 
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GR File Edit View Misc Packages Windows Help = Inix 


ETC) 


> cc2 <- comput(X, Y, ccl) 
> ce213:6] 
Scorr.X.xscores 


[1] [2] [3] 


Sales.Growth -0.9798776 0.0006477883 0.199598477 
Sales.Profitability -0.9464085 0.3228847489 -0.007504408 
New.Account.Sales -0.9518620 -0.1863009724 -0.243414776 


$corr.Y.xscores 

[,1] [,2] [,3] 
Creativity -0.6348095 -0.1894059 -0.24988439 
Mechanical.Reasoning -0.7171837 O0.2086069 0.02598458 
Abstract.Reasoning -0.6436782 -0.4402237 0.22027544 
Mathematics -0.9388771 0.1734549 0.03614570 


$corr.X.yscores 


[,1] [,2] [,3] 
0.9744713 0.0005688272 0.076567107 
0.9411869 0.2835272081 -0.002878734 
0.9466102 -0.1635921013 -0.093375287 


Sales.Growth 
Sales.Profitability 
New.Account.Sales 


$corr.Y.yscores 

[,1] [,2] [,3] 
Creativity -0.6383313 -0.2156981 -0.65140953 
Mechanical.Reasoning -0.7211626 0.2375644 0.06773775 
Abstract.Reasoning —-0.6472493 -0.5013329 0.57422365 
Mathematics —-0.9440859 0.1975329 0.09422619 


>| 


Ces deux derniers résultats confirment que la performance des ventes est mieux prédite par les 
résultats des tests de mathématiques. 


Nous pouvons aussi faire un graphique avec la fonction plt.ce( ) du package CCA: 
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GR R Console o | © | 


> pili.cciccl) 
> | 


1.0 


0.5 


0.0 


Dimension 2 
Dimension 2 


-0.5 


ee 


-10 


Dimension 1 


Enfin on peut faire comme dans SAS, obtenir lefésultat du test d'hypothèse que les 
corrélations canoniques de la ligne actuelle et foutes celles qui suivent sont nulles: 


X1 = Bio + Bai + B12Ÿ2 + : * * + B1gŸa + €1 
X2 = Pro + Bai Yi + Ba2Ÿo + +: + BogYa + €2 


Xp = Bo + Bi Yi1 + Bp2Y2 + * +: + BpgYa + Ep 


Ce qui nous donne en utilisant la fonction p.asym( ) du package CCP: 
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| ŒR RGui (64-bit) - [R Console] _ ml 
GR File Edit View Misc Packages Windows Help - FX 


ETC) 


> (rho <- ccl$cor) 
[1] 0.9944827 0.8781065 0.3836057 
> (n <- dim(X)[1]) 
[1] 50 
> (p <- length(X)) 
[11 3 
> (q <- length{(Y)) 
[1] 4 
> 
> library("CCP") 
> ## Calculate p-values using the F-approximations of different test statistis 
> p.asym(rho, n, p, q, tstat = "Wilks") 
Wilks' Lambda, using F-approximation (Rao's F): 
stat approx dfl daf2 p.value 
1 to 3: 0.002148472 87.391525 12 114.0588 0.000000e+00 
2 to 3: 0.195241267 18.526265 6 88.0000 8.248957e-14 
3 to 3: 0.852846693 3.882233 2 45.0000 2.783536e-02 
> p.asym(rho, n, p, q, tstat = "Hotelling") 
Hotelling-Lawley Trace, using F-approximation: 


stat approx dfl df2 p.value 
1 to 3: 93.4151751 324.358247 12 125 0.00000000 
2 to 3: 3.5407119 25.768514 6 131 0.00000000 
d'EC 3: 0.1725437 3.939747 2 137 0.02169625 


> p.asym(rho, n, p, q, tstat = "Pillai") 
Pillai-Bartlett Trace, using F-approximation: 
stat approx dfl df2 p.value 
1 to 3: 1.9072202 19.663454 12 135 0.000000e+00 
2 to 3: 0.9182244 10.36532 6 141 1.680060e-09 
3 to 3: 0.1471533 3.79122 2 147 2.480577e-02 
> p.asym(rho, n, p, q, tstat = "Roy") 
Roy's Largest Root, using F-approximation: 
stat approx dfl d£f2 p.value 
1 to 1: 0.9889958 1011.088 4 45 (e) 


F statistic for Roy's Greatest Root is an upper bound. 
>| 


Dans notre exemple, nous rejetons donc l'hypothèse nulle selon laquelle il n'y a pas de 
relation entre les deux ensembles de variables et concluons que les deux ensembles de 
variables sont dépendants. Notez également que l'hypothèse nulle ci-dessus équivaut 
également à tester l'hypothèse nulle selon laquelle toutes les p paires de variables canoniques 
ne sont pas corrélées 
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Exemple 272.: Régressions logistiques (logit et probit) 
R 3.6.2 


W 
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Régression binomiale (binaire/scoring) logit 


Comme nous l'avons vu dans le cours de statistique théorique, le problème d'une régression 
linéaire simple (bivariée) ou multiple à variable expliquée de type binaire c'est que le modèle 
théorique peut prendre toute valeur dans R ce qui est évidemment une aberration puisque 
dans le cas d'une variable expliquée de type 0/1, le modèle théorique ne doit jamais donner 
une valeur inférieure à 0 ou supérieure 1. Or c'est malheureusement ce que fera une régression 
linéaire. 


Pour cela nous avons démontré qu'il était possible d'utiliser une autre technique mathématique 
qui nous assurait que la condition susmentionnée soit satisfaite. Nous allons reprendre le 
même exemple mais au lieu de faire les calculs à la main, nous les faisons donc avec R (et les 
comparer accessoirement avec R). 


Nous utiliserons le même jeu de données: 


Le 
5e, RGui (64-bit) - [R Co 


R Fichier Edition Voir Misc Packages Fenétres Aide 


> mydata<-read.csv{("C:/RegressionLogistique.csv",header=T,sep=";") 
> str(imydata) 


‘'data.frame!: 136 obs. of 2 variables: 


$ Montant.crédit: int 27200 27200 27200 27200 27200 27200 27200 27200 27200 27200 ... 
$ Status dut: (0 0 O0: 0 0: 0; D 0 À 
> | 


Nous utilisons la commande native glm( ) et nous remarquons que nous obtenons les mêmes 
résultats que dans Minitab (avec la même différence que dans le cours théorique et pour les 
mêmes raisons): 


R Statistical Software 1676/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


RE RGu (Gb | 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


[ 


> mydata<-read.csv("C:/RegressionLogistique.csv",header=T,sep=";") 
> modele<-glmiStatus-Montant.crédit,family=binomial("logit"),data=mydata) 
> modele 


Call: glmiformula = Status - Montant.crédit, family = binomial{("logit"}, 
data = mydata) 


Coefficients: 
{Intercept) Montant.crédit 
-61.318316 0.002211 


Degrees of Freedom: 135 Total ({i.e. Null); 134 Residual 
Null Deviance: 1787 

Residual Deviance: 123.1 AIC: 127:1 

> summary(modele) 


Call: 
glmiformula = Status - Montant.crédit, family = binomial{"logit"i, 
data = mydata) 


Deviance Residuals: 
Min 10 Median 3Q Max 
-3.0983 -0.7326 0.12686 0.708686 1.7009 


Coefficients: 

Estimate Std. Error z value Pri>|zl) 
{Intercept}) -6.132e+01 1.202e+01 -5.101 3.38e-07 *** 
Montant.crédit 2.211e-03 4.308e-04 5.132 2.86e-07 ‘++ 


Signif. codes: O ‘*#*+#” 0.001 ‘##*’ 0.01 ‘ff’ 0.05 *.’ 0.1 * ‘“ 1 
(Dispersion parameter for binomial family taken to be 1) 
Null deviance: 172.67 on 135 degrees of freedom 


Residual deviance: 123.10 on 134 degrees of freedom 
IC: 127:1 


Nukiber of Fisher Scoring iterations: 5 


« 


GR RGui (64-bit) - [R Console — C] 
R File Edit View Misc Packages Windows Help 8 x 


EEE) 


> confint (modele) | 
Waiting for profiling to be done... | 


TE 97:95. $ 
(Intercept) —4.541997e+01 -21.524452077 
Montant.crédit 7.800537e-04 0.001633633 | 


> | 


Nous pouvons construire un petit data frame avec les données du modèle: 
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Bfe[o] 


> glm.probs<-predict (model,type="response") 

> model.prob<-chind(iProbabilite=glm.probs,Montants-mydata$Montant.crédit) 

> model.prob 

Probabilite Montants NS 
0.2353639 27200 

.2353639 27200 

.2353639 27200 

.2353639 27200 

.2353639 27200 

.2353639 27200 

-.2353639 27200 

-.2353639 27200 

.2353639 27200 

.2353639 27200 

-.2353639 27200 

.2353639 27200 

.2353639 27200 

.2353639 27200 

-.2353639 27200 

.2353639 27200 

.2353639 27200 

.2353639 27200 

.2353639 27200 

.2353639 27200 

.2353639 27200 


VOJnnbO NH 


H H 
k © 


HHHHHH 
© -J o in BE © 


(e) 
(e) 
(e) 
(e) 
(e) 
(a) 
(a) 
(e) 
(e) 
(a) 
12 (a) 
[a] 
(e) 
(e) 
(e) 
(e) 
(e) 
(e) 
(e) 
(a) 


Nous pouvons faire un plot des points mesurés, des points abscisses mesurées avec la théorie 
ainsi que d'un lissage: 
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> f<-function(ix){1/ (1+expi-(modelefcoef[1]-modelefcoef[2]*x)))} 

plot iStatus-Montant.crédit,xlim=c(25000,30000) ,xlab="Crédit",data=-mydata) 
> plot(f,25000,30000,col1="hlue" ,add=TRUE) 

pass imydata$Montant modeleffitted,type="1l",lud=2,col="red") 
> 


25000 26000 27000 28000 29000 


Crédit 


On peut aussi calculer et afficher le non moins important intervalle de confiance: 
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GR R Console sets) 
> plotdat <- data.frame (Montant.crédit=(25000:30000)) 

> preddat <- predict (modele, newdata=plotdat, se.fit-TRUE) 

> with(mydata, plot (Montant.crédit, Status, type="n", 

+ ylim=c(0, 1),xlim=c(25000,30000), ylab="Probabilité", xlab="Montant Crédit")) 

> with(preddat, lines(25000:30000, exp(fit)/(1+exp(fit)), col="blue")) 

> with(preddat, lines(25000:30000, exp(fit+1.96*se.fit)/(1+exp(fit+1.96*se.fit)), 1lty=2)) 

> with(preddat, lines(25000:30000, exp(fit-1.96*se.fit)/(1+exp(fit-1.96*se.fit)), 1lty=2)) 

> 


QR KR Graphics: Device 2 (ACTIVE) sex) 


Probabilité 
04 0.6 0.8 1.0 


0.2 


0.0 


25000 26000 27000 28000 29000 30000 


Montant Crédit 


Et obtenir les valeurs correspondantes: 
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R 
R 


> 
+ 
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RGui (64-bit) - [R Console] — [m] X 
File Edit View Misc Packages Windows Help IE 


ECO 


inverse logit = function(x)!{ 
exp(x)/(1+exp(x)) 
} 


fit<-glm.probsSfit 

se.fit<-glm.probs$se.fit 

se _high<-inverse logit(fit+1.96*se.fit) 

se _low<-inverse logit(fit-1.96*se.fit) 
expected<-inverse logit(fit) 
(chind(mydata$Montant.crédit,expected,se low,se high)) 


27200 
27200 
27200 
27200 
27200 
27200 
27200 
27200 
27200 
27200 
27200 
27200 
27200 
27200 
27200 
27200 
27200 
27200 
27200 
27200 
27200 
27200 
27200 
27200 
27200 
27200 
27200 
27700 
27700 
27700 
27700 
27700 
27700 
27700 


expected 
0.2353639 
0.2353639 
0.2353639 
0.2353639 
0.2353639 
0.2353639 
0.2353639 
0.2353639 
0.2353639 
0.2353639 
0.2353639 
0.2353639 
0.2353639 
0.2353639 
0.2353639 
0.2353639 
0:2353639 
0.2353639 
0.2353639 
0.2353639 
0.2353639 
0.2353639 
0.2353639 
0.2353639 
0.2353639 
0.2353639 
0.2353639 
0.4818202 
0.4818202 
0.4818202 
0.4818202 
0.4818202 
0.4818202 
0.4818202 


se_low 
0.1288647 
0.1288647 
0.1288647 
0.1288647 
0.1288647 
0.1288647 
0.1288647 
0.1288647 
0.1288647 
0.1288647 
0.1288647 
0.1288647 
0.1288647 
0.1288647 
0.1288647 
0.1288647 
0.1288647 
0.1288647 
0.1288647 
0.1288647 
0.1288647 
0.1288647 
0.1288647 
0.1288647 
0.1288647 
0.1288647 
0.1288647 
0.3685360 
0.3685360 
0.3685360 
0.3685360 
0.3685360 
0.3685360 
0.3685360 


se_ high 
0.3904313 
0.3904313 
0.3904313 
0.3904313 
0.3904313 
0.3904313 
0.3904313 
0.3904313 
0.3904313 
0.3904313 
0.3904313 
0.3904313 
0.3904313 
0.3904313 
0.3904313 
0.3904313 
0.3904313 
0.3904313 
0.3904313 
0.3904313 
0.3904313 
0.3904313 
0.3904313 
0.3904313 
0.3904313 
0.3904313 
0.3904313 
0.5970046 
0.5970046 
0.5970046 
0.5970046 
0.5970046 
0.5970046 
0.5970046 
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Courbe ROC et Matrice de Confusion 


Nous pouvons également avoir la courbe ROC (Receiver Operating Characteristic) à l'aide de 
la commande roc() du package pROC ): 


= —— 
Her MIE 


> (modele<-glm(Status-Montant.crédit, family-binomial("logit"),data-mydata)) 


Call: glm(formula = Status - Montant.crédit, family = binomial("logit"}), 
data = mydata) 


Coefficients: 
(Intercept) Montant.crédit 
—-61.318316 0.002211 


Degrees of Freedom: 135 Total (i.e. Null); 134 Residual 
Null Deviance: 172.7 

Residual Deviance: 123.1 BEC: 127:L 

> prob<-predict (modele, type=c("response")) 

> mydata$prob<-prob 

> library("pROC") 

> (g<-roc(Status-prob,data=-mydata)) 

Setting levels: control = 0, case = 1 

Setting direction: controls < cases 


Call: 
roc.formula(formula = Status + prob, data = mydata) 


Data: prob in 45 controls (Status 0) < 91 cases (Status 1). 
Area under the curve: 0.8193 
> plot(g) 
> | 


Sensitivity 


0.5 


Specificity 


Figure 253 Graph d'une courbe ROC (Receiver operating characteristic) 


La courbe ROC est identique à Minitab et à celle calculée dans le cours théorique à la 
différence que pour Minitab nous avons du laborieusement aller chercher une macro sur le 
site web de l'éditeur du logiciel. 


Nous pouvons aussi avoir un intervalle de confiance à l'aide du bootstrapping avec la 
commande ci.se() du même package (voilà une fonction bien utile qu'il manque à bon 
nombre de logiciels statistiques pour la courbe ROC) et mélangé avec une fonction nommée 
plot.roc( ): 
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R Console o || NH || 
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g<-plot.roc(Status-prob,data=mydata,percent=TRUE,ci=TRUE) 
SE=ci.se(g,specificities=seq(0,100,5)) 
pilot (SE,type="shape",col="light blue") 
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Figure 254 Graph d'une courbe ROC (Receiver operating characteristic) avec intervalle de confiance 


Avec la commande coords() du package pROC nous pouvons obtenir le meilleur cut-off: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> coordsig,'"best") 


threshold specificity sensitivity 
0.3585920 0.5555556 0.9760220 


> | 


Et avec le package verification et sa fonction roc.area( ) calculer la p-value que la courbe 
ROC est significativement différente de la diagonales (test des rangs de Wilcoxon): 
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R File Edit View Misc Packages Windows Help = 
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{> library("verification") 

{> roc.area(mydata$Status, mydataS$prob)Sp.value 
[1] 3.388968e-10 

> | 


Nous pouvons avec la commande matrixConfusion() du package caret afficher la matrice 
de confusion et autres informations utiles comme la spécificité et la sensibilité: 


RGui (64-bit) - [RC 
R Fichier Edition Voir Misc Packages Fenêtres Aide 


mydata<-read.csv("C:/RegressionLogistique.csv",header=T,sep=";") 
modele<-glmiStatus-Montant.crédit,family=-binomial("logit"),data=mydata) 
prob<-predict (modele,type=c{("response")) 
mydata$prob=prob 
mydata$prediction=ifelse(prob>=0.5,1,0) 
library(caret) 
confusionMatrix (mydata$prediction,mydataf$Status) 
Confusion Matrix and Statistics 


Reference 
Prediction O 1 

0 32 19 

L 131% 


iccuracy : 0.7647 
95% CI : (0.686844, 0.686332) 


No Information Rate : 0.6691 
P-Value [cc > NIR] : 0.009873 


[=] 


. 4859 
.376759 


Kappa : 
Monemar's Test P-Value 


[es 


7111 
.7912 
.6275 
.8471 
-3309 
.2353 
.3750 
.7512 


Sensitivity : 
Specificity : 
Pos Pred Value 
Neg Pred Value 
Prevalence 
Detection Rate 
Detection Prevalence 
Balanced iccuracy : 


O0O0C0O000O00O00O 


[=] 


‘Positive! Class 
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Et enfin comme nous l'avons démontré mathématiquement aussi en détails dans le cours 
théorique, nous pouvons calculer le log-loss de tout classificateur binaire. Pour cela, nous 
allons utiliser la fonction LogLoss( ) du package MLmetrics: 


GR RGui (64-bit) - [R Console] _ (m * 


| GR File Edit View Misc Packages Windows Help 6 x | 
Blîlal 


| > library("Mlmetrics") 

| > LogLoss(y pred-modeleS$fitted.value,y true-mydata$Status) 

[1] 0.4525754 | 
> | | 


Nous pouvons tout inclure dans une seule fonction bien sûr et ajouter le score F1, l'indice de 
Rand et aussi le coefficient de Matthew ou autre..…: 


C RGui (64-bit) - [R Console] 


R File Edit View Misc Packages Windows Help |#|x 


SIA] 


mydata<-read.csv ("C:/tmp/RegressionLogistique.csv", header=T, sep=";") 
modele<-glm(Status-Montant.crédit, family=binomial ("logit"), data=-mydata) 
prob<-predict (modele, type=c ("response")) 

mydata$prob=prob 

mydataS$prediction=ifelse (prob>=0.5,1,0) 

library("caret") 

CM<-confusionMatrix(as.factor (mydata$prediction), as.factor (mydata$Status)) 


err_metric=function (CM) 
{ 
TN =CM[1,1] 
TP =CM[2,2] 
FP =CM{[1,2] 
FN =CM[2,1] 
precision =(TP)/(TP+FE) 
recall_ score =(FP)/(FP+TN) 


fi _score=2* ((precision*recall score)/(precisiontrecall score)) 
accuracy model =(TP+TN) / (TP+TN+FPD+FN) 

False positive rate =(FP)/(FP+TN) 

False negative rate =(FN)/(FN+TP) 


print (paste ("Precision value of the model: ",round(precision,2))) 


print (paste("Accuracy (Rand Index) of the model: "round(accuracy model,2))) 
print (paste ("Recall value of the model: ",round(recall score,2))) 

print (paste ("False Positive rate of the model: ",round(False positive rate,2))) 
print (paste ("False Negative rate of the model: ",round(False negative rate,2))) 


print (paste("fi score of the model: ",round(fi score,2))) 
} 


VHHH EE EERRR R RE RRR ER R RRRMVVVV VV VV 


> err_metric(CM$table) 

[1] “Precision value of the model: 0.79" 

[1] "Accuracy (Rand Index) of the model: 0.76" 
[1] "Recall value of the model: 0:37" 

[1] “False Positive rate of the model: 0.37" 
[1] "False Negative rate of the model: D-157 
%: "f1 score of the model: 3 BAY 

> 
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Nous obtenons donc la même chose qu'avec Tanagra et qu'avec les calculs effectués à la main 
dans le cours théorique. 


Tests d'adéquations du ratio des vraisemblances, du khi-2 de Pearson et de 
Hosmer-Lemeshow 


Nous pouvons utiliser plusieurs tests pour vérifier l'adéquation de notre modèles aux données. 
Concentrons-nous sur les trois seuls que nous avons démontré dans le cours théorique. 


Commençons par le test du ratio des vraisemblances (ie des déviances comme nous l'avons vu 
dans le cours théorique): 

R 4 

R File Edit View Misc Packages Windows Help . 


> #de façon un peu plus élégante 

> l-pchisq(modele$null.deviance-modeleS$deviance, modele$df.null-modele$df.residual) 
[1] 1.918576e-12 
|> 

> fet en utilisant un package et une fonction dédiée qui nous est déjà connue 
> library("lmtest") 
| > lirtest (modele) 
Likelihood ratio test 
| 
| Model 1: Status - Montant.crédit 
| Model 2: Status - 1 
#Df LogLik Df Chisq Pr(>Chisq) 

1 2 -61.550 

2 1 -86.333 -1 49.566 1.919e-12 

> sum(residuals (modele, type = "pearson")”2) 

[1] 220.4426 

> anova(modele,test="'Chisq') 

Analysis of Deviance Table 


Model: binomial, link: logit 
Response: Status 


Terms added sequentially (first to last) 


| 
D£f Deviance Resid. Df Resid. Dev Pr(>Chi) 


| NULL 135 172.67 | 
Montant.crédit 1 49.566 134 123.10 1.91Se-12 


Evidemment les trois résultats concordent et nous voyons que le modèle avec les variables 
explicatives est (sans surprises dans ce cas particulier) bien meilleur qui celui sans variables 
explicatives. 


Maintenant passons au texte du kh1-2 de Pearson pour les résidus: 
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GR RGui (64-bit) - [R Console] = [n 


R File Edit View Misc Packages Windows Help F x 


SIeTa] 


> pchisq(sum((mydata$Status-modele$fitted.value)"2/modele$fitted.value) ,modele$df.residual) 

[1] 2.04020557300298e-18 

> #l- la valeur du dessus donne la p-value. Donc le modèle n'est pas rejeté de toute évidence... 
l> | 


Donc nous avons ici la même conclusion. 


Maintenant voyons sir nous pouvons faire le test du chi-2 de données de comptage (bon 
d'avance on sait que cela va échouer car certaines valeurs attendues du tableau de 
contingences valent zéro): 


R File Edit View Misc Packages Windows Help Œ x 


EI 


> +on prépare les données 
> glm.probs<-predict (modele, type="response") 
> modele.prob<-data.frame (chind(Probabilite=ifelse(glm.probs>=0.5,1,0), 
+ Montants=mydata$Montant.crédit,Status=mydata$Status)) 
> (agg<-aggregate (chind(modele.prob$Probabilite,modele.prob$Status), 
+ by=list (modele.prob$Montants), FUN=sum)) 
Group.l V1 v2 
1 27200 O 2 
2 27700 O 17 
|3 28300 30 26 | 
|4 28400 27 19 | 
[5 29900 28 27 
> #pas bon signe... y'a des valeurs nulles... 
> 
|> #première analyse à la main pour la p-value directement 
> #on observer d'abord la distance du chi-2 


> sum((aog$Vl-agoSV2)"2/agg$vl) | 
| [1] Inf | 
|> #c'est foutu mais par principe faisons comme si on avait rien vu... 

|> pchisq(sum((agg$Vl-agg$V2)"2/agg$Vl) ,nrow(agg)-1,lower.tail=FALSE) 

| [1] © 

> 

> fet autrement (mais on a le même souci toujours à cause des valeurs nulles) 

> chisq.test(agg$V2,p=agg$Vl/sum(agg$Vl)) 


Chi-squared test for given probabilities 


data: aggS$v2 
IX-squared = Inf, df = 4, p-value < 2.220446049e-16 


Warning message: | 
|In chisq.test(agg$V2, p = aggS$Vl/sum(agg$Vl)) 

| Chi-squared approximation may be incorrect 

>| 


Bref on peut rien dire dans ce cas particulier. Il faut oublier ce test là! 


Et voyons ce que nous dit les test de Hosmwer-Lemeshow avec la fonction hoslem.test( ) du 
package ResourceSelection: 
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R RGui (64-bit) - [R Console] — 


GR File Edit View Misc Packages Windows Help Lx 


EBOIBEE 


| > library("ResourceSelection") 
| > (hl<-hoslem.test (mydata$Status,fitted(modele))) 


Hosmer and Lemeshow goodness of fit (GOF) test 


| data: mydata$Status, fitted(modele) 
X-squared = 6.21789238699, df = 8, p-value = 0.622839186513 


> #comme p>0.05 nous ne rejettons pas l'hypothèse comme quoi notre modèle est bon 
> +on peut afficher les groupements choisis par la fonction: 
| > chind(hl$observed,hl$expected) 
yo vil yhatO yhatl 

| [0.235,0.482] 32 19 33.08149022516533 17.9185097748347 
| (0.482,0.778] 4 26 6.66094240856021 23.3390575914398 

(0.778,0.814] 8 19 S5.02708448292803 21.9729155170720 
To 1 27 0.23048297337520 27.7695170266248 

> 


Et enfin appliquons ce test sur un cas pratique que nous connaissons déjà bien: 


R RGui (64-bit) - [R Console] LL 


GR File Edit View Misc Packages Windows Help = 1) LX 


> mydata<-read.csv("c:/tmp/RegressionLogistique.csv",header=T,sep=";") 
> modele<-glm(Status-Montant.crédit,family=binomial("logit"),data=mydata) 
> modele 


Call: glm(formula = Status - Montant.crédit, family = binomial("logit")}), 
data = mydata) 


Coefficients: 
(Intercept) Montant.crédit 
—-61.318316 0.002211 


Degrees of Freedom: 135 Total (i.e. Null); 134 Residual 
Null Deviance: 172:7 

Residual Deviance: 123.1 ATC: 127-L 

> hoslem.test (modele$y, fitted(modele),g=10) 


Hosmer and Lemeshow goodness of fit (GOF) test 


data: modele$y, fitted(modele) 
X-squared = 6.2179, df = 8, p-value = 0.6228 


> | 
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Régression binomiale (binaire/scoring) probit 


Nous allons reprendre le même jeu de données que ci-dessus et faire une régression probit 
univariée et ensuite la comparer à la régression logit ci-dessus mais sensiblement avec 
d'autres approches statistiques ET visuelles. 


Rappelons avant cela que nous avons déjà mentionné les différences entre la régression logit 
et probit dans le cours théorique donc nous ne reviendrons pas dessus! 


D'abord nous chargeons le jeu de données qui pour des raisons pédagogiques évidentes seront 
les mêmes que l'exemple précédent: 


R 
R File Edit View Misc SG Windows Help 5 
> mydata<-read.csv("RegressionLogistique.csv",header=T,sep=";") 

| > 

| 


> xtabs(-Status + Montant.crédit, data = mydata) 
Montant.crédit 

Status 27200 27700 28300 28400 29900 
(e) 25 7 4 8 L 
1 2 17 26 19 27 


|> | 
| 


FRERE ET ET EE ANT | 


AC 
: 2 : re NS . ; 
Ensuite nous lançons la régression en précisant Bien que nous voulons le lien probit: 
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R RGui (64-bit) - [R Console] L (ie 


GR File Edit View Misc Packages Windows Help IE 


> model probit <- glm(Status - Montant.crédit, 

+ family = binomial(link = "probit"), 
+ data = mydata) 

> model probit 


Call: glm(formula = Status + Montant.crédit, family = binomial(link = "probit"), 
data = mydata) 


Coefficients: 
(Intercept) Montant.crédit 
—32.679944 0.001178 


Degrees of Freedom: 135 Total (i.e. Null); 134 Residual 
Null Deviance: 1727 

Residual Deviance: 125.3 ATC: 129:3 

> confint (model probit) 

Waiting for profiling to be done... 


2.5 % 97.5 % 
(Intercept) —4.541997e+01 -21.524452077 
Montant.crédit 7.800537e-04 0.001633633 


2 
> library("lmtest") 
> coeftest (model probit, type = "HC1") 


z test of coefficients: 

Estimate Std. Error z value Pr(>|zl|l) 
(Intercept) —3.2680e+01 6.4416e+00 -5.0733 3.910e-07 
Montant.crédit 1.1782e-03 2.3051e-04 5.1113 3.199e-07 


>| 


Q7 
Nous pouvons maintenant faire une graphique d'un genre différente à celui fait dans l'exemple 
précédent: 
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MR RGui (64-bit) - [R Console] — CI 


GR File Edit View Misc Packages Windows Help |#] 1x 


plot(x = mydataS$Montant.crédit, 

Y mydata$Status , 

main = "Probit Model of the Probability of Status given Credit", 
xlab = "Credit", 

ylab = "Status", 

pch = 20, 

ylim = c(-0.4, 1.4), 

cex.main = 0.85) 


plot(x = mydata$Montant.crédit, 
y = mydata$Status) 


abline(h L, 1tyv = 2, col "“darkred") 
abline(h = 0, lty = 2, col = “darkred") 
text (29500, 0.9, cex = 0.8, “Status 1") 
text (29500, -0.1, cex= 0.8, "Status 0") 


x <—- seq(min(mydata$Montant.crédit), max(mydata$Montant.crédit}), 10) 
y <- predict (model probit, list (Montant.crédit= x), type = "response") 


lines(x, y, lwd = 1.5, col = "steelblue") 


VVVVVVVVVNVV ENV EH EE + + + V 


Ce qui donnera: 
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le à 


GR R Graphics: Device 2 (ACTIVE ts | © tx] 


1.0 


Status 1 


mydata$Status 
04 0.6 0.8 


0.2 


0.0 


27500 28000 28500 29000 29500 30000 


mydata$Montant crédit 


Maintenant voyons pour le plaisir la variation de probabilité lorsqu'on passe d'une valeur de 
crédit de 28'000.- à 29'000.-: 


R RGui (64-bit) - [R Console] — O 


4 File Edit View Misc Packages Windows Help lex 


> fcalculons la variation de probabilité lorsqu'on passe de 28000 à 29000 
> predictions <- predict (model probit, 
+ newdata = data.frame("Montant.crédit" = c(28000, 29000)), | 
ù à type = "response") 
> 
> diff(predictions) 
2 
0.3099161 


>| 


Enfin comparons avec le modèle de régression logit: 
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MR RGui (64-bit) - [R Console] nn ( 


ŒR File Edit View Misc Packages Windows Help _ 5 x 


EE 


> (model logit <- glm(Status - Montant.crédit, 
_ family = binomial(link = "logit"}), 
+ data = mydata)) 


Call: glm(formula = Status - Montant.crédit, family = binomial(link = "logit"), 
data = mydata) 


Coefficients: 
(Intercept) Montant.crédit 
—-61.318316 0.002211 
Degrees of Freedom: 135 Total (i.e. Null); 134 Residual 
Null Deviance: 172.7 
D Deviance: 123.1 AIC: 127:1 
” 


Et encore mieux (!), comparons graphiquement: 


MR RGui (64-bit) - [R Console] — 


ŒR File Edit View Misc Packages Windows Help - x 


plot(x = mydataS$Montant.crédit, 
y = mydataS$Status , 
main = "“Probit Model of the Probability of Status given Credit", 
xlab = "Credit", 
ylab = "Status", 
pch = 20, 
ylim = c(-0.4, 1.4), 
cex.main = 0.85) 


abline(h Li. 1CY 2, €col "darkred") 
abline(h = 0, 1lty 25 COL "darkred") 
text (29500, 0.9, cex = 0.8, "Status 1") 
text (29500, -0.1, cex= 0.8, "Status 0") 


x <- seq(min(mydata$Montant.crédit), max(mydata$Montant.crédit), 10) 
y <- predict (model probit, list (Montant.crédit= x), type = "response") 


lines(x, y, lwd = 1.5, col = "steelblue") 


y_logit <- predict (model logit , list (Montant.crédit= x), type = "response") 
lines(x, y logit, lwd = 1.5, col = "black", lty = 2) 


legend("topleft", 
horiz = TRUE, 
legend = c("Probit", "Logit"), 
col = c("steelblue", "“black"), 
lty = c(1, 2)) 


VER NVNNV NN NN NNNNNN RE V 


Ce qui donne: 
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QU À Graphics: Device 2 (ACTIVE) 


Probit Model of the Probability of Status given Credit 


—— Probit ---- Logit 


Status 0 


27500 28000 28500 29000 29500 


Credit 
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Odds ratio et Risque Relatif 


Dans le cours théorique de méthode numérique nous avons introduit le concept de rapport des 
cotes et de risque relatif. Dans le chapitre de Statistiques nous avons démontré comment 
obtenir leur intervalle de confiance. 


Nous allons vérifier dans un premier temps si nous obtenons les mêmes résultats que ceux 
calculés à la main et dans un deuxième temps comparer l'odds ratio et son intervalle de 
confiance avec ce qui était donné par Minitab (ce dernier ne donnant aucune information sur 
le risque relatif) et le risque relatif et son intervalle de confiance à ce qui était donné par 
MedCalc. 


Nous importons donc d'abord les mêmes données que dans le cours théorique, nous les 
mettons sous forme de table de contingence et en faisons un petit barplot(}) classique: 


FÆ 
R & Console EEE 
> mydata<-read.csv("C:/0OddsRatio.csv",header=T,sep=";:") : 
> mydata 
Groupe ittaqueCardiaque Nombre 
1 Flacebo Oui 53 
Z Placebo Non 58 
3 äspirine Qui 11 
4 ispirine Non 40 
> mytable<-tapply(mydata$Nombre, list (mydata$Groupe,mydata$fittaqueCardiaque), 
+ function(ix){sum(x)}) _ 
à is lot (mytable,hbeside=T, legend=T) R R Graphics: Device 2 (ACTIVE) 


Ensuite, nous utilisons la commande epi.2by2() du package epiR pour faire une analyse du 
point de vue du placebo: 
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> epi.2hy2 (mytable,method="cohort.count",conf.level=0.95) 
Outcome + Outcome -— Total Inc risk * 
Exposed + 40 LI SE 78.4 
Exposed - 58 53 LL 52:39 
Total 98 60.5 


Inc risk ratio 1.50 (1.19, 1.89) 
Odds ratio 3.30 (1.46, 7.89) 
ittrib risk * 26.18 (11.56, 40.60) 
Attrib risk in population * 68.24 (-3.72, 20.20) 
Attrib fraction in exposed (%) 33.38 (16.25, 47.00) 
ittrib fraction in population 13.62 (4.69, 21.72) 


* Cases per 100 population units 
> | 


Rappel: Un odds ratio de 3.30 signifie pour rappel dans le cas présent que ceux traités au 
placebo présentent un facteur de 3.30 d'exposition supplémentaire au risque cardiaque par 
rapport à ceux traités à l'aspirine. - 

o 

Pour le Inc risk ratio qui n'est en fait que le risque relatif, nous avons donc une valeur de 1.5 
(au lieu du 2.21 tel que calculé à la main et avec MedCalc) et un intervalle de confiance de 
[1.19,1.89] (au lieu de [1.266,3.869] tel que calculé à la main et avec MedCalc). La raison est 


simple, pour obtenir les mêmes résultats il faut faire l'analyse par rapport à un autre groupe: 
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Sciences.ch 


MR RGui (64-bit) - 
R File 


[R Console] 


Edit View Misc Packages Windows Help 


|, table<-matrix(c(53,11,58,40),nrow=2,dimnames=list ("Group"=c("Placebo", 


| + "Heart Attack"=c{("Yes","No"))) 
|> table 
Heart Attack 
Yes No 
Placebo 53 58 
Treated 11 40 
> library("epiR") 
> epi.2by2(table,conf.level=0.95) 


Group 


Outcome + Outcome - Total 
Exposed + 53 58 112 
Exposed -— sé | 40 51 
Total 64 98 162 


Point estimates and 95% CIls: 


| Inc risk ratio 2.21 (1.27, 3.87) 
Odds ratio 3.32 (1:55; 7:14} 
Attrib risk * 26.18 (11.56, 40.80) 
Attrib risk in population * 17.94 (4.37, 31.51) 
Attrib fraction in exposed (%) 54.83 (21.05, 74.16) 
Attrib fraction in population (%) 45.40 (13.10, 65.70) 


Test that OR = 1: chi2(1) = 
Wald confidence limits 

CI: confidence interval 
és per 100 population units 
> 


"Treated"), 


Inc risk * Oodds 
47.7 0.914 
21.6 0:27 
39.5 0.653 


On peut afficher le graphique fourfold correspondant: 
oO 


Ÿ 
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F 1 | 


MR Console EEE) 


> fourfoldplot (table,std ="ind.max",conf.level = 0.95,main="Confusion Matrix") 
> sgrt(table/max(table)) 
Heart Attack 

Group Yes No 

Placebo 0.9559253 1.0000000 

Treated 0.4354942 0.8304548 
> (or<-(table[1i, 1]*table[2, 2])/(tablel1, 2]*table[2, 1])) 
[1] 3.322884 
> (se<-sqrt(sum(i/table))) 
[1] 0.3898954 
>| 


À Graphics: Device 2 (ACTIVE) EEE 


Confusion Matrix 


Group: Placebo 


No 


Heart Attack: Yes 


Heart Attack 


Group: Treated 


On peut aussi faire le cacul de façon plus directe et ludique pour le risk ratio maïs avec un 
autre point de vue (comme discuté dans le cours théorique!) — celui de l'aspirine! - en utilisant 
le package fmsb et sa fonction riskratio( ) qui donne en plus la p-value: 
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R RGui (64-bit) - [R Console] _ ] 


R File Edit View Misc Packages Windows Help - & xl 


ESIEIE 


> library("fmsb") 
> oddsratio(a=11, b=53, c=40, d=58, conf.level=0.95, p.calc.by.independence=TRUE) 
Disease Nondisease Total 


Exposed 11 40 51 
Nonexposed 53 58 111 
Total 64 38 162 


Odds ratio estimate and its significance probability 


data: 11 53 40 58 

p-value = 0.001601 

95 percent confidence interval: Î 
0.1401539 0.6461961 

sample estimates: 

[1] 0.3009434 


>| 


Nous avons donc avec le package epiR un odds ratio de 3.30 au lieu du 3.32 tel que calculé à 
la main et avec Minitab et un intervalle de confiance de [1.48,7.89] au lieu de [1.55,7.14] tel 
que calculé à la main et avec Minitab. La différence est donc raisonnable... 


Ou on peut ré-obtenir le résultat du début: 


 RGui (64-bit) - [R Console] 


R File Edit View Misc Packages Windows Help |#|x 


> oddsratio(a=40, b=58, c=11, d=53, conf.level=0.95, p.calc.by.independence=TRUE) 
Disease Nondisease Total 


Exposed 40 11 51 
Nonexposed 58 33 111 
Total 38 64 162 


Odds ratio estimate and its significance probability 


data: 40 58 11 53 

p-value = 0.001601 

95 percent confidence interval: 
1.547518 7.135012 

sample estimates: 

[1] 3.322884 


>| 


On peut aussi faire le cacul de façon plus directe et ludique pour le risk ratio mais avec un 
autre point de vue (comme mention dans le cours théorique) — celui de l'aspirine - en utilisant 
le package fmsb et sa fonction oddsratio( ) qui donne aussi en plus la p-value: 


R Statistical Software 1699/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


MR RGui (64-bit) - [R Console] L 


ŒR File Edit View Misc Packages Windows Help - x 


SOS SINIE 


> library("fmsb") 

> riskratio(xX=11, Y=53, mi=51, m2=111, conf.level=0.95, p.calc.by.independence=TRUE) 
Disease Nondisease Total 

Exposed 11 40 51 

Nonexposed 53 58 111 


Risk ratio estimate and its significance probability 


data: 11 53 51 111 

p-value = 0.001601 

95 percent confidence interval: 
0.2584485 0.7895238 

sample estimates: 

[1] 0.4517203 


> | 


Ou on peut ré-obtenir le résultat du début: 


R RGui (64-bit) - [R Console] — 


GR File Edit View Misc Packages Windows Help EX 


CSIOIE 


> riskratio(x=40, Y=58, mi=51, m2=111, conf.level=0.95, p.calc.by.independence=TRUE) 
Disease Nondisease Total 

Exposed 40 41 51 

Nonexposed 58 53 111 


Risk ratio estimate and its significance probability 


data: 40 58 51 111 

p-value = 0.001601 

95 percent confidence interval: 
1.194068 1.886864 

sample estimates: 

[1] 1.501014 


> | 
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Régression multinomiale (nominale) 


Nous avons démontré (non sans mal...) dans le cours théorique que la régression logistique 
multinomiale était une généralisation de la régression logistique binomiale. 


Cependant au vu de la lourdeur des calculs, nous nous sommes abstenus de faire tout calcul à 
la main ou même dans Microsoft Excel. Le but ici va donc être de vérifier si nous obtenons au 
moins les mêmes résultats qu'avec Tanagra ou Minitab (pour l'approche utilisant les réseaux 
de neurones, nous renvoyons le lecteur au chapitre sur la Machine Learning . 


Pour faire original (...) nous allons nous baser sur le jeu de données /ris de Fisher: 


R: 
R File Edit View Misc Packages Windows Help 5 x 


| 
| 


> mydata<-read.csv("c:/tmp/Iiris.csv",header=T,sep=",") 
> head(mydata) 
Sepal.Length Sepal.Width Petal.Length Petal.Width Species 


L SL 349 1.4 0.2 setosa 
2 4.9 3:0 1.4 0.2 setosa 
3 4.7 de 1-3 0.2 setosa 
4 4.6 351 L:S 0.2 setosa 
5 530 3:6 1.4 0.2 setosa 
| 6 5.4 339 127 0.4 setosa 
> summary (mydata) 
| Sepal.Length Sepal.Width Petal.Length Petal.Width Species 
Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100 setosa :50 
LS5E Qu.:5.:100 ist Qu.:2.800 ist Qu.:1.600 ist Ou.:0.300 versicolor:50 
Median :5.800 Median :3.000 Median :4.350 Median :1.300 virginica :50 
Mean :5.843 Mean :3:057 Mean =:3-758 Mean 2 LETLSS 
3rd OQu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800 
7” :2:900 Max. :4.400 Max. :6.900 Max. 22-500 
> 


D'abord voyons ce que nous pouvons obtenir avec la fonction vglm( ) du package VGAM!: 
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ŒR File Edit View Misc Packages Windows Help 1) x 
[El 


> library("VGAM") 

> fit <- vglm(Species-.,family-multinomial(refLevel=1), data-mydata ) 
There were 33 warnings (use warnings() to see them) | 
> summary(fit) 


Call: 
vglm(formula = Species + ., family = multinomial(refLlevel = 1), 
data = mydata) 


Pearson residuals: 

Min 10 Median 30 Max | 
log(mulf,2]/mul,1]) -1.393 -0.0002585 -6.687e-06 0.0004556 1.810 
log(mulf,3]/mul,1]) -1.810 -0.0003211 1.265e-09 0.0002391 1.393 | 


Coefficients: 
Estimate Std. Error z value Pr(>]|zl) 

(Intercept)}):1 7.272 19432.034 0.000 1.000 | 
(Intercept) :2 —35.365 19432.051 -0.002 0:999 | 
Sepal.Length:1 =6:777 5790.843 NA NA | 
Sepal.Length:2 —-9.242 5790.844 -0.002 0.999 
|Sepal.Width:1 —-5.889 2888.838 NA NA 

Sepal.Width:2 =-12:569 2888.841 -0.004 0.997 
|Petal.Length:1 13.201 4446.219 0.003 0.998 
|Petal.Length:2 22.630 4446.221 NA NA 
|Petal.Width:1 15.633 7133.169 0.002 0.998 

Petal.Width:2 33-919 7133.176 0.005 0.996 

Number of linear predictors: 2 


ls of linear predictors: log(mul,2]/mul,1]), log(mul,3]/mul,1]) 
Residual deviance: 11.8985 on 290 degrees of freedom 
|Log-likelihood: -5.9493 on 290 degrees of freedom 

|atiéé of iterations: 21 


Warning: Hauck-Donner effect detected in the following estimate(s): 
"Sepal.Length:1', "'Sepal.Width:1', "Petal.Length:2' 


Reference group is level 1 of the response 
> | 


Nous retrouvons donc bien des valeurs très similaires à celles de Minitab. Par contre nous 
sommes loin du compte relativement à Tanagra (mais nous savons qu'il y a un problème dans 
ce dernier). 


Avec la fonction habituelle predict( ) et du formatage, nous pouvons voir comment chaque 
ligne du jeu de données initial serait classée à posteriori (nous pourrions refaire une matrice 
de confusion et autres indicateurs statistiques): 
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GR File Edit View Misc Packages Windows Help | Ix 


[ 
| MR RGui (64-bit) - [R Console] LU 


> noquote (format (round(predict(fit,mydata[,-5],type = "response"),3), format="f")) 
setosa versicolor virginica 
À 1.000 0.000 0.000 
2 1.000 0.000 0.000 
| 3 1.000 0.000 0.000 
4 1.000 0.000 0.000 
5 1.000 0.000 0.000 
6 1.000 0.000 0.000 
7 1.000 0.000 0.000 
8 1.000 0.000 0.000 
9 1.000 0.000 0.000 
10 1.000 0.000 0.000 
11 1.000 0.000 0.000 
12 1.000 0.000 0.000 
13 1.000 0.000 0.000 
14 1.000 0.000 0.000 
15 1.000 0.000 0.000 
16 1.000 0.000 0.000 
17 1.000 0.000 0.000 
18 1.000 0.000 0.000 
19 1.000 0.000 0.000 
| 20 1.000 0.000 0.000 
21 1.000 0.000 0.000 
| 22 1.000 0.000 0.000 
[23 1.000 0.000 0.000 
| 24 1.000 0.000 0.000 
25 1.000 0.000 0.000 
26 1.000 0.000 0.000 
27 1.000 0.000 0.000 
| 28 1.000 0.000 0.000 
29 1.000 0.000 0.000 
30 1.000 0.000 0.000 
31 1.000 0.000 0.000 
32 1.000 0.000 0.000 
| 33 1.000 0.000 0.000 
| 34 1.000 0.000 0.000 
| 35 1.000 0.000 0.000 
36 1.000 0.000 0.000 
37 1.000 0.000 0.000 
38 1.000 0.000 0.000 
39 1.000 0.000 0.000 
40 1.000 0.000 0.000 
41 1.000 0.000 0.000 
42 1.000 0.000 0.000 
LA 


Evidemment, la même chose s'appliquerait avec de nouvelles données! 


On peut vérifier avec un deuxième package qui a priori à une approche indépendante basée 
sur la fonction mlogit() du package... mlogit: 


R Statistical Software 1703/3133 


Vincent ISOZ, Daname KOLANI 


R um 
Vie P Windows Help 8 x 
> library("mlogit") 
> adjusted data <- mlogit.data(mydata, choice="Species", shape="wide") 
> fit<-mlogit(Species - 0 | Sepal.Length+Sepal.Width+Petal.Length+Petal.Width, data=adjusted data) 
> fit 
Call 
|mlogit (formula = Species + 0 | Sepal.Length + Sepal.Width + Petal.Length + Petal.Width, data = adjusted data, method = "nr", print.level = 0) 
| Coefficients: 
versicolor: (intercept) virginica:(intercept) versicolor:Sepal.Length 
7.:7935 —34.8443 -7.7171 
| virginica:Sepal.Length versicolor:Sepal.Width virginica:Sepal.Width 
—10.1823 -5.9009 —-12.5818 
versicolor:Petal.Length virginica:Petal.Length versicolor:Petal.Width 
14.6912 24.1206 16.7926 
virginica:Petal.Width 
35.0787 
>| 


On retrouve bien le même ordre de grandeur pour les coefficients. Cependant pour les p- 
values on repassera… 
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Régression ordinale 


Nous n'allons pas faire dans l'originalité ici mais compiler les trois publications Internet 
suivantes qui se complètenet toutes trois dans leur approche et sont basées toutes sur le même 
jeu de données (il ne nous a pas été possible d'identifier l'ordre chronologique dans lequel ils 
ont été publié): 


e https://stats.idre.ucla.edu/stata/dae/ordered-logistic-regression/ 


e https://www.analyticsvidhya.com/blog/2016/02/multinomial-ordinal-logistic-regression/ 


e https://stats.1dre.ucla.edu/r/dae/ordinal-logistic-regression/ 


Chargeons d'abord les packages qui vont être nécessaires ainsi que le jeu données qui va nous 
accompagner: 


| | 
R File Edit View Misc Packages Windows Help -# xl 


library("foreign") 
library("ggplot2") 
library("MASS") 
library("Hmisc") 
library ("reshape2") 


mydata <- foreign::read.dta("c:/tmp/ologit.dta") 
head (mydata, 10) 
apply pared public gpa 


VVVNVNNVNNVNV NV 


1 very likely 0 0 3.26 

2 somewhat likely 1 O 3.21 

3 unlikely 1 L 3.94 

4 somewhat likely (e] 0 2.81 

5 somewhat likely (e) 02-53 

6 unlikely (e) 1 2:99 

7 somewhat likely 0 0 2.56 

8 somewhat likely 0 D 2:73 

9 unlikely 0 0 3.00 

10 somewhat likely + 0 3.50 

> str(mydata) 

"data.frame': 400 obs. of 4 variables: 

$ apply : Factor w/ 3 levels "unlikely","somewhat likely",..: 3212212212 
$ pared : int 0 1 1 O0 O O O O O 1 ... 

£- public: int O0 6 1 © O L à 0 O0 O -:: 

$ gpa = ‘mue 3-26 3:21 3.94 2-81 2.53 
— attr(*, "datalabel")= chr "" 


- attr(*, "time.stamp")= chr " 3 Aug 2010 10:45" 
- attr(*, "formats")= chr "$15.0g" "$9.0g" "$9.0g" "$9.0g" 
— attr(*, "types")= int 251 251 251 254 
- attr(*, "val.labels")= chr "apply" "" mm mm 
_ attr(*, "var.labels"}= chr "" mm nn mn 
- attr(*, "“version")= int 12 
- attr{(*, "label.table")=List of 1 
..$ apply: Named int 012 
..— attr(*, "“names")= chr "“unlikely 


somewhat likely very likely 


> | 


Pour les francophones, voici un explication du jeu de données: 


Une étude souhaite examiner les facteurs qui influencent la décision de postuler ou non à des 
études supérieures. On demande à des lycéens s'il est peu probable (unlikely), assez probable 
(likely) ou très probable (very likely) qu'ils postulent à des études supérieures. Par conséquent, 
notre variable de résultat comporte trois catégories ordonnées. 
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Des données sur le statut éducatif des parents, qu'un des deux au moins a suivi une formation 
supérieure (variable nommée pared pour l'abréviation de "parent education" dont la valeur est 
0/1), et une donnée s1 le lycée de l'élève est privé ou publique (variable nommée public dont 
la valeur est 0/1), et le GPA (score scolaire aux USA) des lycéens sont collectés. Les 
chercheurs ont des raisons de croire que les "distances" entre ces trois points ne sont pas 
égales. Par exemple, la "distance" entre «peu probable» et «assez probable» peut être plus 
courte que la distance entre «assez probable» et «très probable». 


Faisons avant de poursuivre, une autre résumé statistique de jeu de données: 


R File Edit View Misc Packages Windows Help l'E x 


ftentative pour approcher le résumé de type PROC FREQ de SAS 
pfreq = function(...) { 
group _by(...) %5>% 
summarise(n=n()) %5>% 
mutate (perc=-paste0(round(100 * n/sumi(n), 1), "S")) $5>$ 
arrange (desci(n)) | 
} 


#fprobablement on peut mieux faire... | 
pfreq(mydata, apply) | 
A tibble: 3 x 3 | 
apply n perc 

<Ect> <int> <chr> 

unlikely 220 55% 

somewhat likely 140 35% 

very likely 40 10% 

pfreq(mydata, pared) | 
A tibble: 2 x 3 

pared n perc 

<int> <int> <chr> 


MUVUVV +++ VV 


# V © ND H 


| 1 0 337 84.29% 
2 1 63 15.85% 
> pfreq(mydata, public) 
| # À tibble: 2 x 3 
public n perc 
<int> <int> <chr> 
1 (e) 343 85.85% | 
2 1 57 14.2$% | 


Ou encore une autre résumé pour aider à comprendre le jeu de données: 
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Sciences.ch 


R RGui (64-bit) - [R Console] - O 


UR File Edit View Misc Packages Windows Help 


> ftable(xtabs(- public + apply + pared, data = mydata)) 
pared (e) 1 
public apply 


(e] unlikely 175 14 
somewhat likely 98 26 
very likely 20 10 
1 unlikely 25 6 
somewhat likely 12 -: 
very likely 7 3 
> 


Ou pour ceux qui préfèrent les visuels: 


E 


M R Console 


> ggplot (mydata, aes(x = apply, y = gpa)) + 
+ geom boxplot (size -.75) + 
+ geom_jitter (alpha 5) + 
+ facet_grid(pared - public, margins = TRUE) + 


+ theme (axis.text.x = element text (angle = 45, hjust = 1, vijust = 1)) 
>| 
MR KR Graphics: Device 2 (ACTIVE 
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Nous lançons la régression ordinale simple (sans interaction et d'ordre 1) avec la fonction 
polr( ) du package MASS: 


| R RGui (64-bit) - [R Console — O 


R File Edit View Misc Packages Windows Help mx 


> fit <- MASS::polr(apply - pared + public + gpa, method="logistic", data = mydata) 
> summary(fit) 


Re-fitting to get Hessian 


Call: 
MASS: :polr (formula = apply + pared + public + gpa, data = mydata, 
method = "logistic") 


Coefficients: 

Value Std. Error t value 
pared 1.04769 0.2658 3.9418 
public -0.05879 0.2979 -0.1974 
gpa 0.61594 0.2606 2.3632 
Intercepts: 

Value Std. Error t value 

lunlikely|somewhat likely 2.2039 0.7795 2.8272 
somewhat likelyl|very likely 4.2994 0.8043 5.3453 


Residual Deviance: 717.0249 
| AIC: 727.0249 


> | 
En d'autres termes: S 
R 
logit(P(Y <1)) = 2.20 — 1.05 : PARED — (0.06) - PUBLIC — 0.616 : GPA 
logit(P(Y <2)) = 4.30 — 1.05 : PARED — (0.06) - PUBLIC — 0.616 : GPA 


Nous pouvons calculer les p-values des coefficients de différentes manières. D'abord 
manuellement: 


R Statistical Software 1708/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


MR RGui (64-bit) - [R Console] — 


ŒR File Edit View Misc Packages Windows Help - x 


ÉBSOSESIOIE | 


L> (coeff table <- coef(summary(fit))) 


| Re-fitting to get Hessian 


Value Std. Error t value 
pared 1.04769010 0.2657894 3.9418053 
public —0.05878572 0.2978611 -0.1973595 
gpa 0.61594057 0.2606337 2.3632420 
unlikely|somewhat likely 2.20391473 0.7795447 2.8271820 
somewhat likely|very likely 4.29936315 0.8043260 5.3452991 


> approximation normale valable que pour les grands échantillons 

> p_ normal <- pnorm(abs(ctable[, "t value"]), lower.tail = FALSE) * 2 

> #ou mieux en utilisant la loi de student "pt" 

> p_student <- pt(abs(coeff table[, "t value"]), df=fitS$df.residual, lower.tail = FALSE) * 2 
> (p_table <- cbind(coeff table, "p value Approx" = p_ normal,"p value Exact" = p_ student)) 


Value Std. Error t value p value Approx p value Exact 
pared 1.04769010 0.2657894 3.9418053 8.087062e-05 9.564431e-05 
| public —0.05878572 0.2978611 -0.1973595 8.435462e-01 8.436477e-01 
gpa 0.61594057 0.2606337 2.3632420 1.811583e-02 1.859943e-02 
unlikely|somewhat likely 2.20391473 0.7795447 2.8271820 4.695963e-03 4.934827e-03 
sh likelylvery likely 4.29936315 0.8043260 5.3452991 9.026786e-08 1.529727e-07 
>” 


Ou avec la fonction clm( ) du package ordinal: 


UR RGui (64-bit) - [R Console] — 


ŒR File Edit View Misc Packages Windows Help = |A] 1x 


Bel 


> library("ordinal") 

> fit alternative <- clm(apply - pared + public + gpa, data = mydata) 
> summary(fit alternative) 

formula: apply + pared + public + gpa 

data: mydata 


link threshold nobs logLik AIC niter max.grad cond.H 
logit flexible 400 -358.51 727.02 5(0) 1.63e-10 1.3e+03 


Coefficients: 
Estimate Std. Error z value Pr(>|zl) 


pared 1.04766 0.26579 3.942 8.09e-05 
public -0.05868 0.29786 -0.197 0.868438 


gpa 0.61575 0.26063 2.363 0.0182 


Threshold coefficients: 
Estimate Std. Error z value 


lunlikely|somewhat likely 2-.2033 0.7795 2.826 
TT likely|very likely 4.2988 0.8043 5.345 
> 


Nous pouvons aussi obtenir les intervalles de confiance des coefficients: 
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BR File Edit View Misc Packages Windows Help … 6 
î l 


> confint(fit) 
Waiting for profiling to be done... 


Re-fitting to get Hessian 


2-2 3 97:95 + 
pared 0:5281768 15721750 
public -0.6522060 0.5191384 
gpa 0.1076202 1.1309148 
> confint.default(fit) #Intervalle supposant normalité... 


Re-fitting to get Hessian 


2.5 % 97.5 % 
pared 0.5267524 1.5686278 
public -0.6425828 0.5250114 
gpa 0.1051079 1.1267733 
> 


© 
Les IC à la fois pour pared et gpa ne comprennêht pas 0; public le fait. Les estimations des 
sortie sont données en unités de logits ordonnés, ou en logarithmes des cotes ordonnés. Donc, 
pour la variable pared, nous dirions que pour une augmentation d'une unité de pared (c.-à-d. 
allant de 0 à 1), nous nous attendons à une augmentation de 1.05 de la valeur attendue de 
apply sur l'échelle log odds, compte tenu de toutes les autres variables modèle sont 
maintenues constantes. Pour gpa, nous dirions que pour une augmentation d'une unité de gpa, 
nous nous attendrions à une augmentation de 0.62 de la valeur attendue de appply dans 
l'échelle log odds, étant donné que toutes les autres variables du modèle sont maintenues 
constantes. 


Les coefficients du modèle peuvent être quelque peu difficiles à interpréter car 1ls sont mis à 
l'échelle en termes de logarithmes. Une autre façon d'interpréter les modèles de régression 
logistique consiste à convertir les coefficients en odds ratios. Pour obtenir les OR et les 
intervalles de confiance, nous exponentions simplement les estimations et les intervalles de 
confiance: 
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R 
R File Edit View Misc Packages Windows Help 


> fodds rations (rapports de cotes) 
|> exp(coef(fit)) 
pared public gpa 
2.8510579 0.9429088 1.8513972 
> #OR et IC 
> exp(cbind(OR = coef(fit), confint(fit))) 
Waiting for profiling to be done... 


Re-fitting to get Hessian 


OR 2.5 % 97:5:% | 
pared 2.8510579 1.6958376 4.817114 | 
public 0.9429088 0.5208954 1.680579 | 


gpa 1.8513972 1.1136247 3.098490 | 
> 


Ces coefficients sont les rapports de cotes proportionnels et nous les interpréterions à peu près 
comme nous le ferions les rapports de cotes d'une régression logistique binaire. 


QC 
Il existe de nombreuses interprétations équivaleñtes du rapport de cotes en fonction de la 
façon dont la probabilité est définie et de la direction des cotes®® (le symbole * dénote la 
méthode la plus simple à interpréter). 


Pared (Parental Education): 


1. 


* Pour les étudiants dont les parents ont fréquenté le collège, les chances d'être plus 
susceptibles (c.-à-d. Très ou assez probable versus peu probable) de postuler sont de 
2.85 fois celles des étudiants dont les parents ne sont pas allés au collège, en 
maintenant constantes toutes les autres variables. 


Pour les étudiants dont les parents n'ont pas fréquenté le collège, les chances d'être 
moins susceptibles de postuler (c.-à-d. Peu probable ou plutôt ou très probable) sont 
2.85 fois supérieures à celles des étudiants dont les parents sont allés au collège, en 
maintenant constantes toutes les autres variables. 


School Type (public) 


Pour les élèves des écoles publiques, les chances d'être plus susceptibles (c.-à-d. Très 
ou plutôt probables contre peu probables) de présenter une demande sont de 5.71% 
inférieures [c.-à-d. (1 -0.943) x 100%] que les élèves des écoles privées, , en 
maintenant constantes toutes les autres variables. 


28 Pour les détails voir https://stats.idre.ucla.edu/r/fag/ologit-coefficients/ 
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e _* Pour les élèves des écoles privées, les chances d'être plus susceptibles de 
postuler sont de 1.06 fois [soit 1 / 0.943] que celles des élèves des écoles 
publiques, en maintenant constantes toutes les autres variables (rapport de 
cotes positif). 


e Pour les élèves des écoles privées, les chances d'être moins susceptibles de postuler 
(c.-à-d. Improbables contre plutôt ou très probables) sont de 5.71% inférieures à celles 
des élèves des écoles publiques, en maintenant constantes toutes les autres variables. 


e Pour les élèves des écoles publiques, la probabilité d'être moins susceptible de 
postuler est de 1.06 fois celle des élèves des écoles privées, en maintenant 
constantes toutes les autres variables (rapport de cotes positif). 


GPA 


1. * Pour chaque augmentation d'une unité de la moyenne pondérée cumulative des 
étudiants, les chances d'être plus susceptibles de postuler (très ou plutôt probable par 
rapport à peu probable) sont multipliées par 1.85 fois (c.-à-d., augmente de 85%), en 
maintenant constantes toutes les autres variables. 


2. Pour chaque diminution d'une unité de la moyenne pondérée cumulative des étudiants, 
les chances d'être moins susceptibles de postuler (peu probable ou plutôt ou très 
probable) sont multipliées par 1.85 fois, en maintenant constantes toutes les autres 
variables. 


Comme mentionné dans le cours théorique, tester d' hypothèse des cotes proportionnels semble 
délicat. Nous allons donc ici utiliser la méthode proposée par Harrell. Rappelons que ce 
dernier propose une méthode graphique pour valider l'hypothèse. 


Les valeurs affichées dans le graphique proposées par Harrell sont essentiellement des 
prédictions (linéaires) d'un modèle logit, utilisées pour modéliser la probabilité que y soit 
supérieur ou égal à une valeur donnée (pour chaque niveau de y), en utilisant une variable 
prédictive (x) à un temps. Pour créer ce graphique, nous aurons besoin de la libraire Hmisc. 


Le code ci-dessous contient deux parties et est utilisé pour créer le graphique de Harrell pour 
tester l'hypothèse de cotes proportionnelles. Fondamentalement, nous allons représenter 
graphiquement les logits prédits à partir de régressions logistiques individuelles avec un seul 
prédicteur où les groupes de résultats sont définis soit par apply = 2 et par apply = 3. Si la 
différence entre les logits prédits pour différents niveaux d'un prédicteur, disons pared, est 
même si le résultat est défini par apply> = 2 ou apply> =3;, alors nous pouvons être a peu près 
confiants que l'hypothèse de scotes proportionnelles est vraie. En d'autres termes, si la 
différence entre les logits pour pared = 0 et pared = 1 est la même lorsque le résultat est 
apply> = 2 que la différence lorsque le résultat est apply> = 3, alors l'hypothèse de cotes 
proportionnelles tient probablement. 


La première partie crée la fonction qui estime les valeurs qui seront représentées 
graphiquement. La première ligne de cette commande indique à R que sf{ ) sera une fonction, 
et que cette fonction prend un argument, que nous nommons y. La fonction sf() calculera la 
probabilité logarithmique d'être supérieure ou égale à chaque valeur de la variable cible. Pour 
nos besoins, nous aimerions que les log des cotes de apply soient supérieures ou égales à 2, 
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puis supérieures ou égales à 3. Selon le nombre de catégories devotre variable dépendante et 
le codage de vos variables, vous pouvez si nécesseaire modifier cette fonction. 


Remarque: Ci-dessous, la fonction est configurée pour une variable y à trois niveaux, 1, 2, 3. 
S1 votre variable dépendante a 4 niveaux, étiquetés 1, 2, 3, 4, vous devrez ajouter "Y> = 4'= 
qlogis (mean(y> = 4)) à l'intérieur du premier ensemble de parenthèses. Si votre variable 
dépendante était codée 0, 1, 2 au lieu de 1, 2, 3, vous devez modifier le code, en remplaçant 
chaque instance de 1 par 0, 2 par 1, etc. 


À l'intérieur de la fonction sf( ), nous trouvons la fonction qlogis( ), qui transforme une 
probabilité en logit. Donc, nous allons essentiellement alimenter les probabilités de apply 
supérieures à 2 ou 3 à qlogis, et cela retournera les transformations logit de ces probabilités. À 
l'intérieur de la fonction qlogis, nous voyons que nous voulons que les logarithmes des cotes 
de la moyenne de y> = 2. Lorsque nous fournissons un argument tel que apply, à la fonction 
apply , y> = 2 sera évalué à 0/1 (FAUX / VRAI ), et en prenant la moyenne de ce vecteur, 
vous obtiendrez la proportion ou la probabilité que apply> = 2. 


La deuxième commande ci-dessous avec la fonction with( ) appelle la fonction sf() sur 
plusieurs sous-ensembles des données définies par les prédicteurs. Dans cette commande, 
nous voyons la fonction summary( ) avec une formule fournie comme premier argument. 
Lorsque R voit un appel à summary( ) avec un argument de formule, il calcule les statistiques 
descriptives de la variable sur le côté gauche de la formule par groupes sur le côté droit de la 
formule et renvoie les résultats dans un joli tableau. Par défaut, la fonction summary( ) 
calcule la moyenne de la variable de gauche. Donc, si nous avions utilisé le code 
summary(as.numeric (apply) - pared + public + gpa) sans l'argument fun, nous 
obtiendrions les moyennes arithmétiques sur apply par pared, puis par public, et enfin par gpa 
divisé en 4 égaux groupes. Cependant, nous poiVons remplacer le calcul de la moyenne en 
fournissant notre propre fonction, à savoir sf( ) à l'argument fun =. 
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R 
BR File Edit View Misc 


ackages Windows Help 5 


> sf <- function(y) !{ 

+ c('Y>=1' = glogis(mean(y >= 1)), 

+ "Y>=2'" = qlogis(mean(y >= 2)), 

_ "Y>=3'" = qlogis(mean(y >= 3))) 

+ } 

> (s <- with(mydata, summary(as.numeric(apply) + pared + public + gpa, fun=sf))) 
as.numeric (apply) N= 400 

+——————— + te + + 

| | IN [Y>=1/1%Y>=2 [Y>=3 | | 
+ + 

Ipared Î|No 13371In£f |-0.378336441-2.440735| 

| [Yes | 63]Inf | 0.765467841-1.347074 | 
+ Re —— ER + + 

public |No 1343]Inf [-0.20479441|-2.345006] 

| [Yes | 57lInf 1-0.175890671-1.547563] 

+ He RE —— + - 

|gpa [[1.90,2.73)1102|Inf 1-0.39730180|-2.772589] 

| 1[2.73,3.00)1 99]1In£f |-0.26415158|-2.302585] 

| 1[13.00,3.28)1100[Inf |-0.200670701-2.090741 

| 1[13.28,4.00]1 99]Inf | 0.060624621-1.803594] 

+ He Sr &——— + 

[Overall] 1400|Inf 1|-0.20067070|[-2.197225] 

+ He RE —— He + 


Le tableau ci-dessus affiche les valeurs prédites (linéaires) que nous obtiendrions si nous 
régressions notre variable dépendante sur nos vgsfäbles prédictives une à la fois, sans 
l'hypothèse de pentes parallèles. 


Nous pouvons évaluer l'hypothèse des pentes parallèles en exécutant une série de régressions 
logistiques binaires avec différents points de coupure sur la variable dépendante et en vérifiant 
l'égalité des coefficients entre les points de coupure. Nous assouplissons ainsi l'hypothèse des 
pentes parallèles pour vérifier sa tenabilité. 


Pour ce faire, nous transformons la variable dépendante ordinale d'origine en une nouvelle 
variable dépendante binaire qui est égale à zéro si la variable dépendante ordinale d'origine 
(ici apply) est inférieure à une valeur donnée a et 1 si la variable ordinale est supérieur ou égal 
à cette même valeur donnée a (notez que c'est également ce que représentent les coefficients 
du modèle de régression ordinale). 


Ceci est fait pour k-1 niveaux de la variable ordinale et est effectué par le code 
as.numeric(apply)> = a ci-dessous. 


La première ligne de code ci-dessous estime l'effet de pared sur le choix de «unlikely» par 
rapport à «somewhat likely» ou «very likely» du la variable apply. La deuxième ligne de code 
estime l'effet de pared sur le choix de «unlikely» ou «somewhat likely» par rapport à «very 
hkely» de la variable apply. 


En regardant l'ordonnée à l'origine de ce modèle (-0.3783), nous voyons qu'il correspond à la 
valeur prédite dans la cellule pour pared égal à «no» dans la colonne pour Y > = 1, la valeur 
en dessous, pour pared égal à «yes» est égal eà l'ordonnée à l'origine plus le coefficient de 
pared (c'est-à-dire -0.3783 + 1.1438 = 0.765). 
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GR RGui (64-bit) - [R Console] 


R File Edit View Misc Packages Windows Help 


> glm(I(as.numeric(apply) >= 2) + pared, family="binomial", data = mydata) 


Call: glm(formula = I(as.numeric(apply) >= 2) + pared, family = "binomial" 
data = mydata) 


Coefficients: 
(Intercept) pared 
| -0.3783 1.1438 


Degrees of Freedom: 399 Total (i.e. Null); 398 Residual 

Null Deviance: 550.5 

|Residual Deviance: 534.1 ATC: 538.1 

|> glm(I(as.numeric(apply) >= 3) + pared, family="binomial", data = mydata) 


Call: glm(formula = I(as.numeric(apply) >= 3) + pared, family = "binomial" 
data = mydata) 


Coefficients: 
(Intercept) pared 
—2.441 1.094 


Degrees of Freedom: 399 Total (i.e. Null); 398 Residual 


Null Deviance: 260.1 
Residual Deviance: 252.2 AIC: 256.2 
> | 


Nous pouvons utiliser les valeurs du tableau précédent pour nous aider à évaluer si 


LA 


LA 


l'hypothèse de cotes proportionnelles est raisonnäble pour notre modèle (on reproduit la table 


encore une fois ci-dessous par commodité): *? 
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R File Edit View Misc Packages Windows Help x 


> sf <- function(y) !{ 

+ c('Y>=1' = glogis(mean(y >= 1)), 
- "Y>=2! glogis(mean(y >= 2)), 
_ "Y>=3! glogis(mean(y >= 3))) 
+ 
> 


} 
(s <- with(mydata, summary(as.numeric(apply) + pared + public + gpa, fun=sf))) 
as.numeric (apply) N= 400 


+= === | RS met nn === + 
I I IN [Y>=11%>=2 1Y>=3 |] | 
== === ++ === + 
Ipared JÎNo 1337|Inf |-0.37833644|-2.440735 
I |Yes | 63|Inf | 0.76546784|-1.347074| | 
+ a Se Se + + | 
Ipublic [No 1343]Inf |-0.20479441]1-2.345006] | 
| [Yes | S7]Inf |-0.175890671-1.547563 | 
+ + a + + 
|gpa 1[1.90,2.73)|102]Inf |-0.39730180|-2.772589 


I 1[12.73,3.00)] 99]Inf |1-0.26415158|-2.302585] 
I 1[13.00,3.28)1100]1Inf |-0.20067070|-2.090741] | 
| 1[13.28,4.00]1 99]Inf | 0.06062462|-1.803594] | 


+ Re Re + + 
[Overall] 1400/|Inf |-0.200670701-2.197225 
+ Ra —— a + + 
>| 


Par exemple, lorsque pared est égal à «No», la différence entre la valeur prévue pour apply 
supérieur ou égal à deux et apply supérieur ou égal à trois est à peu près 2: 
& 


-0.378 - -2.440 = 2.062 


Pour un pared égal à «Yes», la différence des valeurs prévues pour apply supérieur ou égal à 
deux et appliquer apply ou égal à trois est également d'environ 2: 


0.765 - -1.347 = 2.112 


Cela suggère que l'hypothèse des pentes parallèles est raisonnable (ces différences sont ce que 
le graphique ci-dessous trace). 


Tournons notre attention vers les prédictions avec public comme variable prédictive, nous 
voyons que lorsque public est réglé sur «No», la différence de prédictions pour apply 
supérieur ou égal à deux, par rapport à apply supérieur ou égal à trois est d'environ 214: 


- 0.204 - -2.345 = 2.141 
Lorsque public est défini sur «Yes», la différence entre les coefficients est d'environ 1.37: 
-0.175 - -1.547 = 1.372 


Les différences de distance entre les deux ensembles de coefficients (2.14 contre 1.37) 
peuvent suggérer que l'hypothèse des pentes parallèles ne s'applique pas au prédicteur public! 
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Cela indiquerait que l'effet de la fréquentation d'une école publique par rapport à une école 
privée est différent pour la transition de «very likely» à «something likely» et «something 
likely» à «very likely». 


La commande plot( ) ci-dessous indique à R que l'objet que nous souhaitons tracer est l'objet 
s. La commande which = 1: 3 est une liste de valeurs indiquant les niveaux de y qui doit être 
inclus dans le tracé. Si votre variable dépendante avait plus de trois niveaux, vous devez 
remplacer le 3 par le nombre de catégories (par exemple, 4 pour une variable à quatre 
catégories, même si elle est numérotée 0, 1, 2, 3). La commande pch = 1: 3 sélectionne les 
marqueurs à utiliser et est facultative, tout comme xlab = ‘logit' qui étiquette l'axe des x et 
main = "qui définit l'étiquette principale du graphique à vide. 


S1 l'hypothèse de cotes proportionnelles est vérifiée, pour chaque variable prédictive, la 
distance entre les symboles pour chaque ensemble de catégories de la variable dépendante 
devrait rester similaire. Pour aider à le démontrer, nous avons normalisé tout le premier 
ensemble de coefficients à zéro, donc il y a un point de référence commun. En regardant les 
coefficients de la variable pared, nous voyons que la distance entre les deux ensembles de 
coefficients est similaire. En revanche, les distances entre les estimations pour public sont 
différentes (c'est-à-dire que les marqueurs sont beaucoup plus éloignés sur la deuxième ligne 
que sur la première), ce qui suggère que l'hypothèse de cotes proportionnelles peut ne pas 
tenir! 


R OEIES 
> sf <- function(y) !{ 
L c('Y>=1' = qglogis(mean(y >= 1)), 
+ "Y>=2' = qlogis(mean(y >= 2)), 
+ "Y>=3' = qlogis(mean(y >= 3))) 
LE : 
? 
> s <- with(mydata, summary(as.numeric(apply) - pared + public + gpa, fun=sf)) 
> plot(s, which=1:3, pch=1:3, xlab='logit', main='" ', xlim-=range(s[,3:4])) 
> | 
L. 
R R Graphics: Device 2 (ACTIVE) (sn) ee) (Es 
N 
pared 
No + L 337 
Yes ES ë 63 
public 
No + & 343 
Yes + & 57 
gpa 
[1.90,273); + à 102 
[2.73,3.00) + 4 9g 
[3.00,3.28) + à 100 
[3.28,4.00] + à 9g 
Overall 
+ ê 400 
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Sinon nous pouvons exécuter la test de Brant avec la fonction brant( ) avec package brant ou 
avec la fontion poTest( ) du package car: 


R File Edit View Misc Packages Windows Help 5 X 


> ftest des cotes proportionnels: 
> library("brant") 
> brant (fit) 


Test for X2 df probability 

Omnibus 4.34 3 0.23 

pared 0.13 L 0.72 

public 3.44 À 0.06 

gpa 0.18 1 0.67 

H0: Parallel Regression Assumption holds X2 df probability 


Omnibus 4.3429046 3 0.22673821 

pared 0.1323413 1 0.71601675 

public 3.4433562 1 0.06350656 

gpa 0:1791233 1 0.67212771 

> #aussi le test de Brant mais sous une autre forme 
> library("car") 

> poTest(fit) 


Tests for Proportional Odds 
MASS : :polr (formula = apply - pared + public + gpa, data = mydata, 


method = "logistic") 


b[polr] b[>unlikely] b[>somewhat likely] Chisquare df Pr(>Chisq) 


Overall 4.34 3 0.227 
pared 1.0477 1.0596 0.9156 013 TZ 0.716 
public -0.0588 —-0.2006 0-.5351 3.44 1 0.064 
| 0.6159 0.5482 0.7363 0.18 1 0.672 
> 


Une fois que nous avons terminé d'évaluer si les hypothèses de notre modèle se vérifient, nous 
pouvons calculer des prédictins de probabilités, qui sont généralement plus faciles à 
comprendre que les coefficients ou les rapports de cotes. Par exemple, nous pouvons faire 
varier le gpa pour chaque niveau de pared et public et calculer la probabilité d'être dans 
chaque catégorie de apply. Pour ce faire, nous créons un petit nouvel ensemble de 20 données 
de toutes les valeurs à utiliser pour la prédiction: 
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MR RGui (64-bit) - [R Console] — X 

GR File Edit View Misc Packages Windows Help le 
BOISECSIEOIE 

> (nouvelles donnees test <- data.frame( 

+ pared = rep(0:1, each = 5), 

_ public = rep(0:1, each = 10), 

+ gpa = rep(seq(from = 1.9, to = 4, length.out = 5), 4))) 
pared public gpa 

1 0 0 1.900 

2 0 0 2.425 

3 0 0 2.950 

e 0 0:3:475 

5 0 0 4.000 

6 1 0 1.900 

7 1 0 2:425 

8 1 0 2.950 

9 1 0 3.475 

10 1 0 4.000 

11 0 1 1.900 

12 0 1 2.425 

13 0 1 2.950 

14 0 1 3.475 

15 0 1 4.000 

16 1 1 1.900 

17 1 L 2.425 

18 L 1 2.950 

19 1 1 3.475 

20 1 1 4.000 

> | 


Et allons-y pour la prédiction: 


M RGui (64-bit) - [R Console] — 

ŒR File Edit View Misc Packages Windows Help -_ EF x 

> (predictions<-cbhbind(nouvelles donnees test, predict(fit, nouvelles donnees test, type = "probs"))) 
pared public gpa unlikely somewhat likely very likely 

1 0 0 1.900 0.7376186 0.2204577 0.04192370 

2 0 0 2.425 0.6704584 0.2725251 0.05701654 

= | 0 0 2.950 0.5955338 0.3273606 0.07710563 

4 0 0 3.475 0.5158750 0.3806290 0.10349601 

5 0 0 4.000 0.4354012 0.4270264 0.13757240 

6 E À 0 1.900 0.4964844 0.3925963 0.11091921 

7 4 0 2.425 0.4164336 0.4365276 0.14703885 

8 1 0 2.950 0.3405599 0.4670646 0.19237545 

| 1 0 3.475 0.2720654 0.4803022 0.24763242 

10 1 0 4.000 0.2128992 0.4744834 0.31261744 

11 0 1 1.900 0.7488359 0.2115390 0.03962507 

12 0 1 2.425 0.6833142 0.2627488 0.05393697 

13 0 1 2.950 0.6096106 0.3173643 0.07302504 

14 0 1 3.475 0.5305387 0.3712940 0.09816734 

SR 0 1 4.000 0.4499032 0.4193517 0.13074512 

16 z 1 1.900 0.5111790 0.3835678 0.10525322 

17 1 1 2.425 0.4307859 0.4293962 0.13981794 

18 1 1 2.950 0.3538830 0.4627102 0.18340685 

49 £ 1 3.475 0.2838623 0.4792945 0.23684318 

# L 1 4.000 0.2229163 0.4769574 0.30012630 

> 
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Maintenant, nous pouvons remodeler les données avec le package reshape2 et sa fonction 
melt( ): 


ŒR File Edit View Misc Packages Windows Help 
SOBIE 


> (data_ pour _plot <- melt(predictions, id.vars = c("pared", "public", "“gpa"), 
+ variable.name = "Level", value.name="Probability")) 
pared public gpa Level Probability 
(e) .300 unlikely 0.73761859 
.425 unlikely 0.67045835 
.950 unlikely 0.59553382 
.-475 unlikely 0.51587497 
-000 unlikely 0.43540118 
.900 unlikely 0.49648444 
-.425 unlikely 0.41643359 
.950 unlikely 0.34055991 
.475 unlikely 0.27206538 
.-000 unlikely 0.21289918 
.-900 unlikely 0.74883590 
.425S unlikely 0.68331418 
unlikely 0.60961062 
unlikely 0.53053868 
unlikely 0.44990320 
unlikely 0.51117895 
unlikely 0.43078587 
unlikely 0.35368298 
unlikely 0.28386232 
unlikely 0.22291626 
somewhat likely 0.22045771 
somewhat likely 0.27252510 
somewhat likely 0.32736055 
somewhat likely 0.38062901 
somewhat likely 0.42702641 
somewhat likely 0.39259634 
somewhat likely 0.43652756 
somewhat likely 0.46706464 
somewhat likely 0.48030221 
somewhat likely 0.47448338 
somewhat likely 0.21153903 
somewhat likely 0.26274885 
somewhat likely 0.31736434 
somewhat likely 0.37129397 
somewhat likely 0.41935168 
somewhat likely 0.38356783 
somewhat likely 0.42939618 
somewhat likely 0.46271017 
somewhat likely 0.47929450 
somewhat likely 0.47695744 
very likely 0.04192370 
very likely 0.05701654 
very likely 0.07710563 
very likely 0.10349601 
very likely 0.13757240 
very likely 0.11091921 
very likely 0.14703885 
very likely 0.19237545 
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et tracer toutes les probabilités prédites pour les différentes conditions. Nous traçons les 
probabilités prédites, reliées à une ligne, colorées par niveau du résultat, apply et facettées par 
niveau de pared et public. Nous utilisons également une fonction d'étiquette personnalisée 
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pour ajouter des étiquettes plus claires montrant ce que chaque colonne et ligne du tracé 
représente: 


mure em) 


> ggplot (data pour plot, aes(x = gpa, y = Probability, colour = Level)) + 
geom_line() + facet grid(pared - public, labeller="label both") 


Level 


—— unlikely 


Z 
ao 
œ 
pe) 
o 
Le 
Q 


—— somewhat likely 
—— very likely 
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Exemple 273.: Régression orthogonale (régression de Deming) 
R 3.02 


Nous allons encore une fois vérifier ici si les calculs effectués à la main et dans Microsoft 
Excel suite aux démonstrations mathématiques d'une partie des éléments de la régression de 
Deming effectuées dans le cours théorique. 


Pour cela, nous utiliserons les 39 lignes suivantes (prises en partie de l'aide Minitab) qui 
correspondent à la mesure de la pression sanguine avec deux instruments de 39 individus 
(chaque individu ayant mesuré sa pression sanguine une fois avec l'ancien et une fois avec le 
nouvel instrument): 


se, RGui (64-bit} - [RÇ 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> mydata<-read.csv("C:/RegressionOrthogonale.csv",header=T,sep=";:") 
> strimydata) 
'data.frame!: 39 obs. of 2 variables: 

$ Nouveau: int 100 122 129 136 110 111 137 134 141 112 

$ äctuel : int 100 120 132 139 110 110 137 133 140 112 


Æ 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> library(MethComp}) 
> Deming(x=mydatafictuel,vy=mydata$Nouveau,sdr=0.9) 
Intercept Slope sigma.mydata$ictuel sigma.mydata$fNouveau 
| -0.5091632 1.0037374 1:926933939 1.1937005 
> 


Nous voyons alors que bien que la pente soit très proche de ce que nous avons obtenu avec 
Minitab, au niveau de l'Intercept il y a près de 20% de différence! 
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De plus, nous n'avons pas d'intervalle de confiance ce qui enlève tout utilité à l'analyse telle 
quelle est présentée ci-dessus. Heureusement, les auteurs proposent une régression 
orthogonale par bootstrapping. Nous avons alors: 


> Demingix=mydatafictuel,y=mydata$Nouveau,boot=TRUE) 
mydata$Nouveau = alpha + heta* mydata$ictuel 


Estimate $5.e.(boot) 50% 2.54% 97.5*% 
Intercept -0.3867358 2.59070595 -0.5122269 -5.4234882 4.559345 
Slope 1.0027381 0.02131253 1.0039809 0.9620726 1.043659 
sigma.mydata$ictuel 1.2619752 0.14422966 1.2263183 0.9209491 1.510403 
+ ie 1.2619752 0.14422966 1.2263183 0.9209491 1.510403 
> 


Et là nous sommes beaucoup plus proches des résultats donnés par Minitab ce qui est heureux 
et de plus, nous avons les intervalles de confiance avec donc les mêmes conclusions. 


Nous pouvons aussi ploter les trois modèles de régressions (pour voir les différences quand 
celles-ci sont éventuellement significatives): 


> library(MethComp) 

> orthClassic<-Deming(ix=mydata$ictuel,vy=-mydata$Nouveau,sdr=0.9) 
> orthBoot<-Demingix=mydatafictuel,vy-=-mydata$Nouveau,boot=TRUE) 
mydata$fNouveau = alpha + bheta* mydatafictuel 

#on met les points 

plot (x=mydatafictuel,y-=-mydata$fNouveau) 

#fon montre une régression classique (moindres carrés) 

abline (lmimydatafNouveau-mydata$ictuel)) 

fon montre la régressin de Deming classique 

abline (orthClassic[1:2],col="red") 

#on montre la régression de Deming par Boostrap 

abline (orthBoot{[1:2],col="blue") 


VVNNNNNNV V 


Ce qui nous donne: 
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es | 
Lun] 
D 
> 
= 
Le] 
PA 
LA 
CG 
+ 
Œ 
Ê 


mydata$ Actuel 
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Exemple 274.: Régressions linéaires généralisées (GLM) 
R 3.0.2 


Nous allons ici vérifier si nous retrouvons bien les différents résultats calculés à la main et 
obtenus dans le cours théorique après avoir fait la démonstration détaillée de certains modèles 
GLM particuliers (nous ne reviendrons donc pas sur le cas gaussien déjà traité plus haut). 


Régression de Poisson log-linéaire (régression des événements rares) 


Nous allons reprendre ici l'exemple fait dans le cours théorique utilisant le même jeu de 
donnée que dans le cours Microsoft Excel et Minitab et évidemment avec les mêmes critiques 
et hypothèses: 


Fichier Edition Format Affichage 
Trimestre;Décès 


nJ 
Hn 


3 

4: 
5: 
6: 
7: 
a: 
9: 
1 


Ensuite, nous utilisons la commande native glm() de R: 
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> library(MiS5S) 

> mydata<-read.csv("C:/RegressionPoisson.csv",header=T,sep=";:") 
> fit<-glmiDécès-Trimestre,data=mydata,family="poisson") 

> summary(fit) 


Call: 
glmiformula = Décès - Trimestre, family = "poisson", data = mydata) 


Deviance Residuals: 

Min 10 Median 3Q Max 
-2.21008 -1.02032 -0.69704 0.04028 2.707758 
Coefficients: 

Estimate Std. Error z value Pri>|zl|) 

{Intercept) 0.33963 0.25119 1.352 0.176 
Trimestre 0.25652 0.02204 11.639 <Ze-16 *## 
Signif. codes: O0 ‘***% D,.001 ***f 0.01 *** 0.05 *,° 0,1 * * 1 
(Dispersion parameter for poisson family taken to be 1) 

Null deviance: 207.272 on 13 degrees of freedom 
Residual deviance: 29.654 on 12 degrees of freedom 
LIC: 86.581 


Number of Fisher Scoring iterations: 5 


> | 


Donc en ce qui concerne les coefficients nous obtenons les mêmes valeurs que dans le cours 
théorique. Pour le reste. nous ferons confiance à R... 


Nous pouvons si besoin être plus précis en indiquant le type de lien. 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> fit<-glm(iDécès-Trimestre,data=-mydata,family-=poisson(link = log)) 
> Fit 


Call: glmiformula = Décès - Trimestre, family = poisson(link = log), 
data = mydata) 


Coefficients: 
{Intercept) Trimestre 
0.3396 0.2565 


Degrees of Freedom: 13 Total (i.e. Nullj: 12 Residual 
Null Deviance: 207.3 


Residual Deviance: 29.65 AIC: 06.58 
> | 


« 
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Et nous pouvons plotter un petit résumé important concernant la validité du modèle: 


> par (mfrow=c(2,2)) 
> plotifit) 
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Régression GLM Négative binomiale (NB-2) 


Nous prenons donc le même jeu de données que dans le cours théorique et Microsoft Excel 
dont voici un échantillon: 


et ensuite nous utilisons la command glm.nb(}) du package MASS pour obtenir: 


L 
L 
, 
, 
, 
5 
LI 
3 
. 
L 
L 
, 
, 
, 
, 
3 
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Ô : 
Ô : 
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> library(MASsS) 

> mydata<-read.csv("C:/RegressionBinomialeNegative.csv",header=T,sep=";:") 
> fit<-glm.nb(Joursibsence-Note+Genre, data=mydata) 

> summary(fit) 


Call: 
glm.nb(formula = Joursibsence - Note + Genre, data = mydata, 
init.theta 0.775738356, link = log) 


Deviance Residuals: 
Min 10 Median 3Q Max 
-2.0040 -1.0659 -0.4137 0.2747 2.7043 


Coefficients: 

Estimate Std. Error z value Pr(i>|zl) 
{Intercept]) 2.703440 0.224672 12.033 < 2e-16 *** 
Note -0.015649 0.003883 -4.030 5.57e-05 #f** 
Genre -0.431207 0.139017 -3.102 0.00192 *+* 


Signif. codes: O0 ‘**#’ 0.001 ‘*f’ 0.01 ‘*’ 0.05 *‘.° 0.1 * ” 1 


{Dispersion parameter for Negative Binomial(0.7757) family taken to be 1) 
Null deviance: 3768.29 on 315 degrees of freedom 
Residual deviance: 356.90 on 313 degrees of freedom 
AIC: 1769.9 
Number of Fisher Scoring iterations: 1 
Theta: 0.7757 


Std. Err.: 0.0741 


2 x log-likelihood: -1761.8550 
> | 


« 


Nous nous retrouvons donc avec les mêmes résultats des coefficients et de l'ordonnée à 
l'origine que dans le cours théorique et qu'avec SAS. Après pour les autres informations. 
c'est une autre histoire! 
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fl 


R R Console 


> library(MA5S);library(ggplotz2) 
> mydata<-read.csv("C:/RegressionBinomialeNegative 


> str(mydata) 


‘'data.frame!: 316 obs. of 3 variables: 
$ Genre int À 1 O 0-0 © 0 1 À À 
$ Note num 42.5 46.8 43.6 43.6 27.2 


$ Joursibsence: int 4 4 2 3 3 13 11 7 10 9 ... 
> fit<-glm.nb(Joursibsence-Note+Genre,data=mydata) 
> par (mfrow=c{(2,2)) 


EIRE 


.csv",header=T,sep=";:") 


> DiOtiELE) 


> R R Graphics: Device 2 (ACTIVE) 


4 
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On peut faire un plot du modèle. Voyons cela (si vous avez des propositions d'amélioration, 
n'hésitez pas à me contacter!). D'abord montrons que nous pouvons obtenir les valeurs des 
moyennes d'absence du modèle théorique pour chaque genre pour les notes moyennes: 
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> library(Mà55);library(ggplotz2) 
> mydata<-read.csv("C:/RegressionBinomialeNegative.csv",header=T,sep=":") 
> str(imydata) 

‘'data.frame!: 316 obs. of 3 variables: 

$ Genre 5 int 1100000111 

$ Note : num 42.5 46.6 43.6 43.6 27.2 

$ Joursibsence: int 4 4 2 3 3 13 11 7 10 9 ... 
> fitmodel<-glm.nb(Joursibsence-Note+Genre,data=mydata) 
> nevdata<-data.frame (Note=mean(mydata$fNote) ,Genre=c(0,1)) 
> strinewdata) 

'data.frame!: 2 obs. of 2 variables: 

$ Note : num 50.1 50.1 

$ Genre: num O 1 
> #pour avoir les prévisions pour une note moyenne et chaque genre 
> nevdata$phat<-predict (fitmodel,newdata,type="response") 
> strinewdata) 

'data.frame!: Z ohbs. of 3 variables: 

$ Note : num 50.1 50.1 

$ Genre: num O 1 

phat : num 6.82 4.43 


> | 
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> nevdata<-data.frame (Note=rep(seq(from=min(mydata$Note) ,to=max (mydata$Note),length.out=100),2),Genre=c{(0,1)) 
> nevdata<-chind(inewdata,predict (fitmodel,newdata,type="link",se.fit=TRUE)) 
> strinewdata) 
‘'data.frame!: 200 obs. of 5 variables: 
$ Note 5: num .01 2 2.99 3.98 4.97 
Genre 5: num 1 0 TL, 0 LL: 0.21 0 TL 
ÊLE 5: num .69 2.24 2,66 2.21 2.63 
se.fit 5: num .221 0.198 0.214 0.192 0.207 
residual.scale: num 1111111111 
> newdata<- within(newdata, { 
Absences <- expifit) 
LL <- exp{fit- 1.96 * se.fit) 
+ UL <= exp{ifit+ 1.96 * se.fit) 
AS 
> strinewdata) 
'data.frame!: 200 obs. of 6 variables: 
$ Note : num -01 2 2.99 3.98 4.97 


+ 
+ 


$ Genre : num 1. 0 À 0 À 0 À © 1 

$ fit 5: num 569 ete. 08 Lee Ll 2:63 

$ se.fit : num -.221 0.198 0.214 0.192 0.207 

$ residual.scale: L LT À L À À À LE 54 

$ UL 5 num Sr 13.9 21.7 13:93 20.7 

$ LL 5: num .53 6.37 9.36 6.26 9.2 

$ ibsences : num 14.7 9.4 14.25 9.12 13.81 
nevwvdataG<-newdata[which(inewdataf$Genre==1),] 
newdataF<-newdata[whichinewdataf$Genre==0),] 

gaplot ()+ 

geom line (data=newdataG,aes (x=Note,y=Aibsences) ,colour="blue",size=2)+ 
geom line (data=newdataG,aes (x=Note,vy=UL),colour="blue",size=1)+ 

geom line (data=newdataG,aes (x=Note,y=LLl),colour="blue",size=1)+ 

geom line (data=newdatar,aes (x=Note,y=Absences) ,colour="pink",size=2)+ 
geom line (data=newdatar,aes (x=Note,y=UL),colour="pink",size=1)+ 

geom_ line (data=newdatar,aes (x=Note,vy=LLl),colour="pink",size=1) 


VO + + + + + VV 


Ce qui donnera: 
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. SS | : 
Donc il est rassurant de voir que plus les absengËés sont faibles, meilleure est la note. 
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Recherche automatique de la meilleure régression de Poisson 


Avec le package glmulti et la fonction du même nom nous pouvons dans la version x86 de R 
demander à chercher le meilleur modèle de Poisson (ce package ne fait pas encore le modèle 
binomial négatif mais 1l fait par contre le modèle logit!). Pour cela, nous écrivons: 


R RGui (32-bit) - [R Console] — O X 
KR File Edit View Misc Packages Windows Help x 


| 


Lai 
> library(glmulti) 
> model<-glmuiti(Deces-.,family = poisson, data=mydata) 
Initialization... 
TASK: Exhaustive screening of candidate set. 
Pittins.…… 
Completed. 
> summary (model) 
$name 
[1] "“glimulti.analysis" 


$methnod 
[1] "nn" 


Sfitting 
[1] "gim” 


S$Scrit 
[1] "aic” 


Slevel 
[1] 2 


S$Smarginality 
(1] FALSE NS 


Sconfsetsize 
[1] 100 


S$Sbestic 
[1] 86.5807 


Sicvalues 
[1] 86.5807 262.1995 


Sbestmodel 
[1] "Deces - 1 + Trimestre" 


Smodelweights 
[1] 1.000000e+00 7.325961e-39 


Sincludeobjects 
[1] TRUE 


R Statistical Software 1734/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


En écrivant simplement: 


R RGui (32-bit) - [R Console] . [m] X 


R File Edit View Misc Packages Windows Help 


> mode1| 


Nous obtenons une longue liste de résultats, dont: 


R RGui (32-bit) - [R Console] — O X 


R File Edit View Misc Packages Windows Help 


Call: fitfunc(formula = as.formula(x), family = ..1, data = data) | 


Coefficients: 
(Intercept) Trimestre R 
0.3396 0.2565 


Degrees of Freedom: 13 Total (i.e. Null); 12 Residual 
Null Deviance: 207.3 


Residual Deviance: 29.65 AIC: 86.58 


(12]] 


Call: fitfunc(formula = as.formula(x), family = ..1, data = data) 
Coefficients: 


(Intercept) 
2415 


Degrees of Freedom: 13 Total (i.e. Null): 13 Residual 


Null Deviance: 207.3 
Residual Deviance: 207.3 AIC: 262.2 
> | 
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Exemple 275.: Régressions linéaires généralisées 


mixtes/longitudinales (GLMM) 
R 3.6.1 


Nous avons vu que le sujet des GLMM est extrêmement vase, tout autant que les ANOVA... 


Par ailleurs 1l y a un ouvrage de presque 600 pages dédié au sujet avec R: 


Andrzej Gatecki 
Tomasz Burzykowski 


_Linear 
| Mixed-effects 


Models Using R 


Il va donc sans dire qu'ici nous ne ferons de survoler le sujet avec un cas extrêmement simple! 


Pour cela on va utiliser le jeu de données s/eestudy suivant (il s'agit de 18 personnes, qu'on a 
laissé dormir 8 heures par jour pendant une longue période et ensuite dont on a retiré 3 heures 
de sommeil — donc plus que 5 heures... - et dont on a mesuré la vitesse des réflexes en 
millisecondes sur 9 jours): 
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R RGui (64-bit) - [R Console] — O 
ŒR File Edit View Misc Packages Windows Help #4 x 

ElSIa] 

> library("lattice") d 

> data("sleepstudy") 

> str(sleepstudy) 

"data.frame': 180 obs. of 3 variables: 
$ Reaction: num 250 259 251 321 357 ... 
$ Days s sim 012 345.6 7 B9 
$ Subject : Factor w/ 18 levels "308","309","310",..: 1 1 1 1 1 1 1 1 1 1 ... 

> sleepstudy 

Reaction Days Subject 

1 250 0 308 

2 259 5 à 308 

3 251 2 308 

Es 321 3 308 

S 357 4 308 

6 415 5 308 

7 382 6 308 

8 290 F 308 

9 431 8 308 

10 466 9 308 

IL 223 0 309 

12 205 E À 309 

13 203 2 309 

14 205 3 309 

15 208 El 309 

16 216 5 309 

17 214 6 309 

18 218 7 309 

19 224 8 309 

20 237 9 309 

21 199 0 310 

22 194 À 310 

23 234 2 310 

24 233 3 310 

25 229 _ 310 

26 220 5 310 

27 235 6 310 

28 256 gi 310 

29 261 8 310 

30 248 9 310 

31 322 0 330 

32 300 1 330 

33 284 F2 330 

34 285 3 330 

35 286 Ê: 330 

36 298 5 330 

37 280 6 330 

38 318 7 330 

39 305 8 330 

40 354 9 330 : 


Faisons quelques graphiques pour afficher d'abord l'état des choses: 
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r 
@R R Console 


> | 


QR R Graphics: Device 2 (ACTIVE) 


400 - 


Average reaction time (ms) 


200 - 


0.0 25 


> ggplot(sleepstudy, aes(x=Days, y=Reaction,group=Subject)) + 
+ geom line (aes(colour=Subject)) + ylab("Average reaction time (ms)") + 
+ xlab("Days of Sleep deprivation") 


ECS) 


sex) 


50 75 
Days of Sleep deprivation 


Faisons des régressions simples multiples pour chacun des 18 individus: 
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> ggplot(sleepstudy, aes(x = Days, y = Reaction, color = Subject)) + 
+ geom point() + 

+ geom_smooth(method='lm',formula=y-x) 

> 


Ou dans un autre style beaucoup plus intéressant: 
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F 


Ou dans un style plus académique: 


MR Console EEE 
> library("gridExtra") 
> pl <- ggplot (sleepstudy, aes(x = Days, y = Reaction)) + 
+ geom_ point (shape = 1) + 
F geom_smooth(method = "lm”, fill = "dodgerblue", level = .95) + 
+ scale x continuous (breaks = c(0, 3, 6, 9)) + 
+ coord cartesian(ylim = c(180, 500)) 
Due <= pi + facet_wrap(-Subject, nrow = 4) 
> gridExtra::grid.arrange(pil, p2, ncol = 2) 
> 
MR R Graphics: Device 2 (ACTIVE) EEE 
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200- 
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le x 


GR R Console ONE 


> lattice::xyplot (Reaction + Days | Subject, data = sleepstudy, layout = c(9, 
+ 2), type = c("g", "p", "r"), index.cond = function(x, y) coef(lm(y - 


+ x))[1], xlab = "Days of sleep deprivation", ylab = "Average reaction time (ms)") 
> 
QR R Graphics: Device 2 (ACTIVE = E! ba 
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On voit clairement que faire une régression GLM vu les tendances qui s'inversent de ci de 
là... va pas être la meilleure solution.….! 


Faisons aussi un plot de l'évolution des temps de réflexes avec un intervalle de confiance 
utilisant le bootstrapping: 
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r x 


Q R Console | _ | [O1 | 23 | 
> ggplot(sleepstudy, aes(x=Days, y=Reaction)) + 
+ stat_summary(fun.data = "mean cl boot", colour = "red") + 
+ ylab("Average reaction time (ms)") + xlab("Days of Sleep deprivation") 
> 

EE à 
Q FR Graphics: Device 2 (ACTIVE) Ss|o|Xx| 

360 - 


5 320- 
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Days of Sleep deprivation 
Ou encore: 
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( R R Console sex) 


> boxplot (Reaction - Subject, data=sleepstudy) 


Reaction 
300 350 400 450 


250 


200 


308 310 331 333 335 349 351 369 371 


Faisons maintenant une régression linéaire simple (même si nous savons déjà que ce n'est pas 
une mauvaise idée): 
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| R RGui (64-bit) - [R Console] L LI 
| ŒR File Edit View Misc Packages Windows Help - x 


> mod <- Im(Reaction - Days, sleepstudy) 
> summary (mod) 


Call: 
Im(formula = Reaction - Days, data = sleepstudy) 


Residuals: 


| Min 10 Median 3a Max 
—110.85 -27.48 1.55 26-14 139.95 
| Coefficients: 

Estimate Std. Error t value Pr(>lt|) 
| (Intercept) 291:41 6.61 38.03 < 2e-16 
Days 10.47 1.24 8.45 9.9e-15 


|Residual standard error: 47.7 on 178 degrees of freedom 
Multiple R-squared: 0.286, Adjusted R-squared: (0.282 
|F-statistic: 71.5 on 1 and 178 DF, p-value: 9.89e-15 


> plot(sleepstudy$Days,sleepstudy$Reaction, 


|+ xlab = "Days", ylab = "Response time (ms)") 
> lines (sleepstudy$Days,mod$fitted.values) 
> | 


On voit que le coefficient de corrélation est terriblement mauvais. 
oO 


Ÿ 
N 
Ce qui donne graphiquement: 
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Faisons des multiples régressions linéaires pour chacun des sujets (toujours dans un objectif 
de diagnostique) à l'aide de la fonction ImList( ) du package Imed: 


| GR File Edit View Misc Packages Windows Help EX 


> #une régression linéaire pour chaque sujet 
> (reg.sub] <- IlmList (Reaction - Days | Subject, data=sleepstudy)) 
Call: ImList (formula = Reaction - Days | Subject, data = sleepstudy) 
Coefficients: 

(Intercept) Days 


308 244 21.76 
309 205 2.26 
310 203 6.11 
330 290 3.01 
331 286 5.27 
332 264 9.57 
333 275 9.14 | 
334 240 12.25 
335 263 -2.88 
337 290 19.03 
349 215 13.49 
350 226 19.50 
351 261 6.43 
352 276 13.57 
369 255 11.35 
370 210 18.06 
371 254 9.19 
372 267 11.30 


Degrees of freedom: 180 total; 144 residual 
Residual standard error: 25.6 
> reg.subj.df <- data.frame(lapply(reg.sub], coef)) 
> #avec l'intervalle de fluctuation de l'ensemble au ler et 3ème quartile 
> apply(reg.subj.df, 1, quantile, prob = c(0.25, 0.75)) 
(Intercept) Days 


25% 229 6.19 
75% 2/3 43:55 
> | 


Et on peut faire un graphique des plus intéressants à l'aide des variables précédemment créées: 
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le 1 


KR Console ES ES 
> intcpt.dens <- density(as.numeric(reg.subj.df[1, ]), adj = 1.2) 
> len <- length(intcpt.densS$x) 
> xyplot (Reaction - Days, data = sleepstudy, xlim = c(0, 8), ylab = "Fitted $ 
+ scales = list(x = list(at = seq(0, 8, by = 1))), panel = function(x, 
+ ri 
+ apply(reg.subj.df, 2, panel.abline, col = "lightgrey") 
+ panel.lines(x = c(intcpt.dens$y * 100, rep(0, len)), 
+ y = c(intcpt.dens$x, rev(intcpt.densSx))) 
+ panel.lmline(x, y, col = "black", lwd = 2) 
+ }) 
> | 
QU R Graphics: Device 2 (ACTIVE) [s | | | 
450 
400 
œ 
= 
6 350 
© 
œ 
2 
D 
2 300 
[ra 
250 
200 
0 1 r 2 3 4 5 6 7 8 
Days 


Faisons la régression linéaire mixte maintenant avec la fonction Imer( ) du package Imed: 
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| R RGui (64-bit) - [R Console] — O 


| ŒR File Edit View Misc Packages Windows Help mis 


> Imerfit <- I1mer(Reaction + Days + (Days | Subject), sleepstudy) 
> summary(lmerfit ) 
Linear mixed model fit by REML ['IlmerMod'] 
Formula: Reaction + Days + (Days | Subject) 
Data: sleepstudy 


REML criterion at convergence: 1744 
Scaled residuals: 

Min 1Q Median 3Q Max 
3.954 -0.463 0.023 0.463 5.179 


Random effects: 


Groups Name Variance Std.Dev. Corr 
Subject (Intercept) 611.9 24.74 

Days 35.1 5-92 0.07 
Residual 654.9 25-59 


Number of obs: 180, groups: Subject, 18 


Fixed effects: 
Estimate Std. Error t value 


(Intercept) 251.41 6.82 36.84 
Days 10.47 1:59 6.77 
Correlation of Fixed Effects: 

(Intr) 
Days -0.138 


> | 


Pour ceux qui veulent l'équation du modèle en LaTeX cela est possible avec le package 
equatiomatic et sa fonction extract_eq( ): 


R RGui (64-bit) - [R Console] — O 


GR File Edit View Misc Packages Windows Help - x 


> library("equatiomatic") 
> fit <- lmer(Reaction-Days + (Days|Subject), sleepstudy) 
> extract_ eq(fit, use coefs=TRUE, wrap = TRUE)| 


Nous pouvons faire un graphique de chacune des pentes et abscisses normalisés: 
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le 


KR Console CHENE 

> dotplot(lme4::ranef (lmerfit)) 

$Subject 

QR KR Graphics: Device 2 (ACTIVE) || 151-123 
Subject 
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Faisons un analyse qualitative des résidus: 
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le x 


QR FR Console se | x 
> plot(lmerfit , type = c("p", "smooth"),xlab = "Fitted Values", ylab = "Residuals") 
> qqmath(lmerfit , id = 0.05) 
> 
M R Graphics: Device 2 (ACTIVE ao | © | & 
332 
4 LE 
308 
12 
œ 2 è 
3 © 
_ 90° 
- pe 
© 
N 
5 3 
œ 0 Fe 
D 
= 
BL rs 
[0] ST 
rt 
a 
2 352° FH 
4 308 332 L 
-3 -2 -1 0 L 2 3 
Standard normal quantiles 


Comparons maintenant deux modèles linéaires mixtes différents avec les valeurs observées: 
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Le mx 


MR Console RER ES 
> f#modèle complet mixte 
> Mi <- 1lmer(Reaction - Days + (Days | Subject), sleepstudy) 
> #modèle où les effets aléatoires ont leur abscisse forcée à l'origine 
> M2 <- 1lmer (Reaction - Days + (1 | Subject), sleepstudy) 
> d£f <- chbind(sleepstudy, data.frame(yhat.M1l = predict(M1l), yhat.M2 = predict(M2))) 
> xyplot (Reaction + yhat.M1 + yhat.M2 - Days | Subject, data = df, type = "l", 
+ ylab = "Reaction", layout = c(6, 3), 
+ auto.key = list(text = c("observed", "predicted by M1", "predicted by M2"), 
+ points = FALSE, lines = TRUE)) 
> | 
QR À Graphics: Device 2 (ACTIVE) EN ES 
observed —— 
predicted by M1  ——— 
predicted by M — 
0 2 4 6 8 V2 + 6:45 0 2 4 6 8 
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400 
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On peut faire un test du maximum de vraisemblance entre les deux modèles: 
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| MR RGui (64-bit) - [R Console] — C] 


| ŒR File Edit View Misc Packages Windows Help ex 


EC] 


> ftest du ratio de vraisemblance des deux modèles 
> #pour rappel Mi est plus général que M2 
> anova(Mi, M2) 
refitting model(s) with ML (instead of REML) 
Data: sleepstudy 
Models: 
M2: Reaction - Days + (1 | Subject) 
M1: Reaction + Days + (Days | Subject) 
Df AIC BIC logLik deviance Chisq Chi Df Pr(>Chisq) 


M2 4 1802 1815 —897 1794 
M1 6 1764 1783 —876 1752 42.1 2 7.1e-10 
> | 


On sait que la matrice des variances-covariances est un peu le nerf de la gère des GLMM. 
Voyons comment l'obtenir: 


| R RGui (64-bit) - [R Console] — O 
| File Edit View Misc Packages Windows Help - x 


EGOISCSOIE) \ 


> #on ne peut pas utiliser la fonction vcov de base de R... donc 
> library("merDeriv") 
> vcov(lmerfit ,full=TRUE) 
6 x 6 Matrix of class "dgeMatrix" 
(Intercept) Days cov Subject.(Intercept) cov_ Subject.Days.(Intercept) cov_ Subject.Days residual 


(L,4 46.56 -1.45 0 0 0.0 0.0 
[2,1] -1.45 2.39 0 0 0.0 0.0 
[3,1 0.00 0.00 83357 -2687 105.2 -2058.1 
[4,] 0.00 0.00 -2687 2179 -136.1 325.0 
[5,1] 0.00 0.00 105 -136 218.6 =72:2 
[6,] 0.00 0.00 -2058 325 -72.2 5957.6 


> #et sous forme de matrice de corrélation 
> cov2cor (veov(lmerfit ,full=TRUE)) 
6 x 6 Matrix of class "dpoMatrix" 
(Intercept) Days cov Subject.(Intercept) cov Subject.Days.(Intercept) 


(Intercept) 1.000 -0.138 0.0000 0.0000 

Days —0.138 1.000 0.0000 0.0000 

cov_Subject.(Intercept) 0.000 0.000 1.0000 —0.1994 

cov_Subject.Days.(Intercept) 0.000 0.000 —0.1994 1.0000 

cov_Subject.Days 0.000 0.000 0.0246 20-1972 

residual 0.000 0.000 —-0.0924 0.0902 
cov_Subject.Days residual 

(Intercept) 0.0000 0.0000 

Days 0.0000 0.0000 

cov_Subject.(Intercept) 0.0246 -0.0924 

cov_Subject.Days.(Intercept) —0.1972 0.0902 

cov_Subject.Days 1.0000 -0.0633 

 — -0.0633 1.0000 

> 


Enfin, on peut faire des prédictions pour terminer: 
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R File Edit View Misc Packages Windows Help =] 


> newavg <-— data.frame (Days = 0:15) 


> newavg$Reaction <- predict(lmerfit, re.form = NA, newavg) 
> newavg 

Days Reaction 
1 0 251 
2 1 262 
3 2 272 
1 3 283 
5 = 293 
6 5 304 
+ 6 314 
8 7 325 
9 8 335 
10 9 346 
11 10 356 
12 LT 367 
13 12 STI 
14 13 387 
15 14 398 
16 15 408 
> 


Voilà ce sera tout pour cette petit introduction aux GLMM. 


Equivalence entre le test de Student.et le le test de student de l'effet 
fixe 


Comme mentionné dans le cours théorique et selon l'excellent article de Shravan Vasishth: 


https://vasishth-statistics.blogspot.com/2018/04/a-little-known-fact-paired-t-test-1s.html 


Le test T apparié est équivalent à un modèle mixte linéaire avec interceptions variables! 
Vérifions cela en pratique (après l'avoir démontré dans le cours théorique bien évidemment!): 


On prépare d'abord les données: 
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Sciences.ch 


| MR RGui (64-bit) - [R Console] — 


| R File Edit View Misc Packages Windows Help 


library("MASS") 


#on prépare le vecteur des moyennes et la matrice de corrélation 
fpour générer des fausses valeurs 

samplesize<-12 

mu <-— c(.3, .2) 

rho<-0.5 

stddev<-1 

Sigma <- matrix(stddev, nrow=2, ncol=2) + diag(2) 

Sigma<-Sigma/2 

Sigma 

| [1] [,2] 

EL;:1l 2:09 0-5 

[[2,1] 0.5 1.0 

[> 

[> fles fausses valeurs peuvent maintenant êtres générées 

> randvars <- mvrnorm(n=samplesize, mu=mu, Sigma=Sigma, empirical=TRUE) 
l> randvars 


VVVVVVVVVVY 


[,1] [,2] 
[1,] 1.92646036 0.60982672 
[2,1] O0.91233602 1.31231947 
[3,] -0.21087283 -1.21979567 

| [4,] -0.08736631 0.65196205 
[5,] -2.27170219 -0.88457015 
[6,1] O0.61940205 0.66969743 
[7,1] 0.46837448 -1.71602055 
[8,] -0.27708906 -0.01470128 


[9,] 0.54363685 0.39461893 
[10,] 0.52349980 0.15015169 
[11,] 0.63130127 1.47434611 
[12,] 0.82201956 0.97216524 

[> 


|> n<-samplesize 

> xl<-randvars{,1] 
|> x2<-randvars(,2] 
>| 


Exécutons maintenant un test apparié de Student: 


R RGui (64-bit) - [R Console] L 


ŒR File Edit View Misc Packages Windows Help 


> t.test(xl,x2,paired=TRUE) 
Paired t-test 


data: xl and x2 
df = 11, p-value = 0.7356 

alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval: 

-0.5353697 0.7353697 

sample estimates: 
mean of the differences 

0,1 


>| 
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Comaprons donc la t-valeur à celle obtenu en faisaint une analyse par modèles linéaires 
mixtes: 


MR FGui (64-bit 


R File Edit View Misc Packages Windows Help 


Sas E “| 


ñ 
> library("lme4") 
> (dat<-data.frame(y=c(xl,x2),cond=factor (rep(letters{l1:2],each=n)),subj=factor (rep(li:n,2)))) 
y cond subi 
1.92646036 a 1 
0.91233602 
-0.21087283 
-0.08736631 
—2.27170219 
0.61940205 
0.46837448 
-0.27708906 
0.54363685 
0.52349980 
0.63130127 
0.82201956 
0.60982672 
1.31231947 
-1.21979567 
0.65196205 
-0.88457015 
0.66969743 
-1.71602055 
-0.01470128 
0.39461893 
0.15015169 
1.47434611 
0.97216524 
contrasts (dat$cond)<-contr.sum(2)/2 
contrasts (datS$cond) 
[,1] 
0.5 
-0.5 
summary (m<-lmer (y-cond+(l|{subj),dat)) 
Linear mixed model fit by REML ['lmerMod'] 
Formula: y - cond + (1 | subi) 
Data: dat 


wo © -Jj oO O1 0 


œ 0 0 © 0 OÙ OÙ OÙ OÙ OÙ OÙ OÙ D PO & D PO D D D & D 


REML criterion at convergence: 64.2 


Scaled residuals: 
Min 1Q Median 30 Max 
-1.9134 -0.3114 0.1039 0.3397 1.3402 


Random effects: 
Groups Name Variance Std.Dev. 
sub; (Intercept) 0.5 0.7071 
Residual 0.5 0.7071 
Number of obs: 24, groups: subj, 12 


Fixed effects: 

Estimate Std. Error t value 
(Intercept) 0.2500 0.2500 1.000 
condl 0.1000 0.2887 


Correlation of Fixed Effects: 
(Intr) 
cohdl 0.000 


On retrouve donc bien la même t-valeur! 
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Exemple 276.: Régression en composantes principales 
R 3.4.2 


Cette régression pour venir à bout de la colinéarité, utilise les composantes principales issues 
d'une ACP plutôt que les variables brutes du jeu de données. 


Pour cela on va travailler avec le jeu de données suivant: 


R 4-bit) - [R 


R File Edit View Misc Packages Windows Help lex 


> data(vehicles,package="plsdepot") 
> str(vehicles) 


"data.frame': 30 obs. of 16 variables: 

$ diesel : int 0 0 O0 O0 O0 O0 O O O O ... 

$ turbo : ant. O0 0 0 0 E 0 0 0 0 À :.: 

$ two.doors : int 1 0 1 0 1 0 1 0 O O ... 

$ hatchback : int 1 0 O O0 1 1 1 O0 O O ... 

$ wheel.base : num 94.5 105.8 101.2 94.5 93.7 ... 

$ length s num, 171 193 177.159 157 ::: 

$S width : num 65.5 71.4 64.8 63.6 63.8 63.8 64 65.2 61.8 69.6 ... 

$ height s num 52:44 595:7 54:3 52, 50:56 50:6 52:6 954.1 53:55 52.8 :-:. 

$ curb.weight: int 2823 2844 2395 1909 2128 1967 1956 2304 2337 4066 ... 
$ eng.size : int 152 136 108 90 98 90 92 110 111 258 

$ horsepower : int 154 110 101 70 102 68 76 86 78 176 

$ peak.rpm : int 5000 5500 5800 5400 5500 5500 6000 5800 4800 4750 ... 
$ price : int 16500 17710 16430 6575 7957 6229 7129 8845 6785 35550 
$ symbol : Ant L 1 2 0° 1 L 1.0 0 0 :…. 

$ city.mpg : 106 19 19 23.38 24.31 30 27 24 15 

$ highway.mpg: int 26 25 29 43 30 38 34 33 29 19 ... 


V 


R propose, plusieurs fonctions pour réaliser une ACP, dont l'une d'elle preomp( ) offre les 
arguments comme center et scale pour centrer et réduire les prédicteurs ce qui est obligatoire 
pour mettre ces derniers à la même échelle : 
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| R RGui (64-bit) - [R Console] Û « | 
GR File Edit View Misc Packages Windows Help IX 


> ACP<-prcomp(data.matrix(vehicles[,-13]), 
+ scale-=TRUE, center=TRUE) 
> summary (ACP) 
Importance of components: 
pC1 pPC2 PC3 pC4 PCS PC6 pc7 
Standard deviation 2.7088 1.7385 1.18090 0.95326 0.85081 0.68018 0.63435 
Proportion of Variance 0.4892 0.2015 0.09297 0.06058 0.04826 0.03084 0.02683 
Cumulative Proportion 0.4892 0.6906 0.78361 0.84419 0.89245 0.92330 0.95012 
PCB pC9 PC10 pC11 pPC12 PC13 pC14 
Standard deviation 0.52882 0.43413 0.33680 0.31055 0.18198 0.140388 0.1094 
Proportion of Variance 0.01864 0.01256 0.00756 0.00643 0.00221 0.00131 0.0008 
Cumulative Proportion 0.96877 0.98133 0.98889 0.99532 0.99753 0.99884 0.9996 
PC15 
Standard deviation 0.07337 
Proportion of Variance 0.00036 
PT Ses Proportion 1.00000 
» 


On obtient en suite une liste de 15 composantes, donc de mêmes nombres que les variables de 
bases mais dont chacune est une combinaison linéaire des variables de bases. On peut afficher 
le poids de chaque variable pour toutes les composantes comme ceci : 


K 
Ne) 
Ÿ 
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R RGui (64-bit) - [R Console] — | 


GR File Edit View Misc Packages Windows Help |" ,\X 


> fles poids de chaque variables dans les composantes 
> library("dplyr") 
> ACP $>% print(digits=2) 
Standard deviations (1, .., p=15): 
[1] 2.709 1.738 1.181 0.953 0.851 0.680 0.634 0.529 0.434 0.337 0.311 0.182 
[13] 0.140 0.109 0.073 


Rotation (n x k) = (15 x 15): 
PC1 pC2 PC3 PC4 PCS PC6 PC7 PC8 PC9 


diesel 0.14 0.3912 0.3457 0.217 -0.1293 -0.310 0.378 -0.037 0.558 
turbo 0.20 0.1267 0.4687 -0.384 0.3320 -0.423 0.023 -0.250 -0.324 
two.doors —0.14 -0.2770 0.5117 0.355 0.2072 -0.027 -0.115 0.548 -0.046 
hatchback —0.17 -0.2238 0.4948 -0.371 -0.0501 0.536 -0.074 -0.106 0.294 
wheel .base 0.34 0.1167 0.0860 -0.044 0.0974 0.351 0.123 0.060 -0.132 
length 0.35 0.0353 -0.1073 0.171 0.0429 0.183 -0.049 -0.107 -0.081 
width 0.33 -0.0045 0.0601 0.031 0.1506 0.378 0.373 -0.145 -0.171 
height 0.24 0.2361 -0.0426 0.339 0.5216 0.115 -0.374 0.119 0.119 
curb.weight 0.35 -0.0895 0.0693 0.051 -0.1631 0.073 0.122 0.103 0.083 
eng.size 0.29 -0.2402 0.0043 0.119 -0.4196 -0.033 0.199 0.246 -0.033 
horsepower 0.22 -0.4172 0.0595 -0.022 -0.0488 -0.280 0.048 0.104 -0.315 
peak.rpm —0.16 -0.3213 -0.2844 -0.105 0.5567 -0.050 0.582 0.116 0.239 
symbol —0.19 -0.2893 0.1651 0.587 0.0053 0.018 0.084 -0.654 -0.097 
city.mpg —0.26 0.3630 0.1080 0.061 -0.0723 0.142 0.262 0.197 -0.288 
highway.mpg -0.30 0.2738 0.0411 0.132 -0.0357 0.123 0.267 0.112 -0.414 
PC10 PC11 pCc12 PC13 PC14 PC15 
diesel —0.1458 0.041 -0.133 0.168 0.0147 -0.1486 
turbo 0.1566 -0.105 0.053 -0.282 -0.0207 0.0096 
two.doors 0.1958 0.321 -0.094 -0.045 -0.0298 0.0469 


hatchback —0.2199 -0.263 -0.095 -0.050 -0.0549 -0.1157 
wheel .base 0.5254 -0.112 0.072 0.513 0.2723 -0.2513 


length 0.1228 -0.006 -0.670 -0.206 -0.4839 -0.1912 
width —-0.3691 0.566 0.230 -0.112 0.0065 0.0994 
height —0.3279 -0.372 0.230 -0.090 0.0685 -0.0576 
curb.weight 0.0880 -0.300 -0.122 -0.059 0.1163 0.8154 
eng.size 0.0648 -0.248 0.341 -0.481 0.0242 -0.3861 
horsepower -0.4965 -0.186 -0.138 0.510 -0.0811 -0.1070 
peak.rpm 0.1017 -0.189 -0.056 -0.070 -0.0582 -0.0320 
symbol 0.1383 -0.163 0.123 0.045 0.0079 0.0255 
city.mpg —0.0021 -0.245 0.275 0.141 -0.6298 0.1298 
+ Mis =0.2116 -0:188 -0.397 -0:197 0:-5115 -0.-0740 
> 


Ainsi les nouvelles variables Z s'obtiennent par le produit des points W (qu'on peut extraire de 
$rotation), à la matrice X des prédicteurs centrés et réduits : 


Soit Z — X! X, la matrice de covariance des prédicteurs X et W, 


respectivement À, les vecteurs propres et valeurs prores de Y : 

de telle sorte que : WTEW = À 

Alors les nouvelles variables Z s’obtiennent comme suit : 
Z=W'Xx 


Mais tout l'art de l'ACP est justement de considérer seulement un nombre p de composantes 
qu'on juge suffisant selon la proportion d'information 1% qu'elles expliquent : 
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106 = ATX + + 
M +++ Am 

Par exemple il est possible de projeter les données dans un espace réduit à deux dimensions en 

considérant les deux premières composantes(Z; et Z,) comme principales : 

> # installation de ggbiplot 

> # devtools::install github("vqv/ggbiplot") 

> library(ggbiplot) 

> # projection graphique des points dans un espace p = 2 

> ggbiplot(ACP, obs.scale = 1, 

+ var.scale = 1, circle = TRUE) + 

- theme _bw(}) + 

+ theme(panel.background = element _rect(fill = "gray97")) 

> 


On obtient le graphique suivant communément appelé biplot avec la fonction ggbiplot() du 
package ggbiplot : 
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PC1 (48.9% explained var.) 


En se basant sur la formule de 1% plus haut, R a estimé que la première composante explique 
48.9% de la variance et la seconde composante principale 20.1%, soit un cumul de 69% de la 
variance ou de l'information. Pour obtenir ces résultats numériques on utilise la summary( ) 
sur le résultat de la fonction prcomp ) : 


R Statistical Software 1758/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


> summary(ACP) 
Importance of components%s : 
PCI PC2 PC3 PC4 
Standard deviation 2.7088 1.7385 1.189090 0.95326 
Proportion of Variance @.4892 0.2015 0.809297 0.806058 
Cumulative Proportion @.4892 @0.6906 0.78361 0.844119 
PCS5 PC6 PC7 PC8 
Standard deviation 0.85081 0.68018 0.63435 0.52882 
Proportion of Variance 0.804826 0.803084 0.802683 0.01864 
Cumulative Proportion @.89245 0.923306 0.95012 0.96877 
PC9 PC18 PC11 PC12 
Standard deviation 0.43413 0.33680 0.310055 0.18198 
Proportion of Variance 0.801256 6.080756 0.080643 0.080221 
Cumulative Proportion 0.98133 0.98889 0.99532 0.99753 
PC13  PC14 PC15 
Standard deviation 8.148038 @.1094 0.07337 
Proportion of Variance 0.080131 0.0008 0.00036 
Cumulative Proportion @.99884 0.9996 1.800008 
>; 


Manuellement, les proportions sont obtenues en rapportant la variance de chaque composante 
sur la variance totale des composantes : 


> # la variance expliquée par chaque composante 
> ACP$sdev" 2 
[1] 7.337439966 3.022254899 1.394515436 0.908695829 
[5] 8.723883012 0.462642165 0.402394650 0.279650089 
[9] 8.188465318 0.113436032 0.096440195 0.033118235 
[13] 0.019705897 0.011975460 0.005382818 
> # proportion expliquée par chaque composante (%) 
> ACP$sdev * 2 / sum(ACP$sdev * 2) 
[1] 8.4891626644 0.2014836599 0.0929676957 0.0605797219 
[5] 0.0482588675 0.0308428110 0.0268263100 0.0186433393 
[9] 8.0125643545 6.0075624021 0.0064293463 0.0022078823 
[13] 0.0013137265 0.0007983640 0.0003588545 
> # afficher sous format pour centage 
> # la porportion expliquée cumulée (%) 
> cumsum(ACP$sdev * 2) / sum(ACP$sdev * 2) 
[1] 8.4891627 0.6906463 0.7836140 0.8441937 0.8924526 
[6] 8.9232954 0.9501217 0.9687651 0.9813294 0.9888918 
[11] 0.9953212 0.9975291 0.9988428 0.9996411 1.0000008 
> 


Alors combien de composantes peut-on qualifier de principales ? souvent en pratique on 
s'aide d'un graphique qui retrace les proportions des variances expliquées en fonction des 
composantes : 
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> ggplot(data = data.frame(CP = 1:15, 
+ proportions, stringsAsFactors = F), 
aes(x = CP, y = proportions)) + 
geom_bar(stat = "“identity"}) + 
geom_ line(color = "red3") + 
geom point(}) + 
scale x continuous(name = “Composantes principales", 
breaks = 1:15) + 
theme _bw(}) + 
theme(panel.background = element _rect(fill = "gray97")) 


VO + + + + + + + 


Du code ci-dessus, on obtient le graphique suivant dénommé screeplot : 
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Pour répondre à la question posée plus haut, on sélectionne conventionnellement les p 
composantes pour lesquelles la courbe en rouge présente un point d'inflexion (c'est plus un 
point de rupture avec la tendance originale) là où la courbe forme une sorte de coude ici on 
peut considérer. 


Ici, on pourrait se contenter des deux premières composantes soit une variance expliquée 
cumulée de 69.0% pour PCI et PC2. Donc on est passé d'un espace m = 15 à un espace p =2 
avec une perte contrôler d'informations de 21.64% (en termes de variance expliquée). Les 
nouvelles variables ou Z sont obtenues avec la fonction predict( ): 
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> predict(ACP)[, 1:2] #>% 

+ psych::headTail(digits = 4) 
PCI PC2 

1 0.080688 -2.6559 

2 2.530904 -0.799 

3 -0.5991 -1.355 

4 -2.9106 1.4945 


27 1.3769 -0.7402 
28 2.1967 0.3292 
29 3.5418 -0.425 
30 3.5252 1.858 


° Régression sur composantes principales 


Maintenant que l'on sait ce qu'est une ACP, on peut réaliser une régression sur les 
composantes principales avec la fonction per( ) du package pls. Cette fonction propose 
plusieurs techniques de validation de modèle à travers l'argument validation, on va utiliser 
celle vue plus haut la méthode de validation croisée : 


> library(pls) 
> reg_acp <- pcr(log(price) = ., 


+ data = vehicles, 
+ scale = TRUE, 
+ validation = "CV") 


> # sommaire 
> summary(reg_acp) 
Data: X dimension: 30 15 
Y dimension: 30 1 
Fit method: svdpc 
Number of components considered: 15 


VALIDATION: RMSEP 
Cross-validated using 10 random segments. 
(Intercept) 1 comps 2 comps 3 comps 


CV 8.566 0@.3203 8.258 0@.2626 
adjCVv 8.566 @.3195 6.255 0:2577 

A comps 5 comps 6 comps 7 comps 8 comps 
CV 8.2775 @.2901 @.2820 0.2456 @.2457 


adjCV @.2736 0.2872 @.2792 8.2352 8.2352 
9 comps 18 comps 11 comps 12 comps 
CV 8.1754 8.1813 0.1754 8.192090 
adjCV 6.1708 8.1762 0.1712 8.1871 
13 comps 14 comps 15 comps 
CV 8.2182 0.2323 8.2325 
adjCV @.2117 @.2247 8.2251 
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Combinée à la fonction summary( ) on extrait les résultats de la validation croisée (10 
partitionnements du jeu de données et la mesure d'erreur par la racine carrée de moyennes 
quadratique des erreurs de prédiction qu'on peut extraire avec la fonction RMSEP )) ci- 
dessus et également on obtient le résultat de la variance expliquée comme ceci : 


TRAINING: % variance explained 

1 comps 2 comps 3 comps 4 comps 
X 48.92 69.06 78.36 84.42 
log(price) 70.31 85.74 85.77 87.82 

5 comps 6 comps 7 comps 8 comps 
X 89.25 92.33 95.01 96.88 
log(price) 87.90 91-21 96.09 96.25 

9 comps 18 comps 11 comps 12 comps 


X 98.13 98.89 99.53 99.75 

log(price) 96.25 96.43 96.57 96.57 
13 comps 14 comps 15 comps 

X 99.88 99.96 186.08 

log(price) 96.91 96.98 97.01 

> 


Pour déterminer le meilleur nombre composant on peut utiliser plusieurs critères d'évaluation 
notamment R2( ) et MSEP( ) ou RMSEP ) qui désignent respectivement le R? et l'erreur 
quadratique de prédiction ( le R de RMSEP veut dire tout simplement qu'on prend la racine 
carrée de MSEP : 

NO 
® 
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> # extraire les différentes 

> # mesures de performance du CV 

> data.frame( 

+ MSEP = MSEP(reg_acp)$val["CV",,], 

+ R2 = R2(reg_acp)$val["CV",,], 

+ RMSEP = RMSEP(reg_acp)$val["CV",,], 

+ ncomp = 0:15) -> out 

> # extrait 

> out %>% psych::headTail() 

> # graphique des différents mesures de performance du CV 
MSEP R2 RMSEP ncomp 


(Intercept) 0.32 -0.07 0.57 (2) 
1 comps 0.1 0.67 0.31 1 
2 comps 8.06 8.8 @.25 p | 
3 comps 8.06 0.79 0.25 3 


12 comps 8.03 0.9 0.17 12 
13 comps 8.03 0.89 0.18 13 
14 comps 8.05 0.85 0.21 14 
15 comps 0.08 0.73 0.28 15 
> tidyr::gather(out, variables, valeurs, - ncomp) %>% 


+ ggplot(., aes(x = ncomp, y = valeurs)) + 

- geom_ line() + geom point() + 

_ facet_wrap(-variables, ncol = 2, scales = "free") + 
- theme _bw(}) + scale x continuous(breaks = 8:15) 


On obtient le graphique suivant 
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01234567 8 9 101112131415 01234567 8 9 101112131415 


[USE | 
NL 


01234567 8 9 101112131415 
ncomp 


Extraire le nombre de composantes principales les plus intéressantes selon les différents 
critères : 


> # meilleure p pour R2 
> out %>% filter(R2 == max(R2)) 
MSEP R2 RMSEP ncomp 
1 @8.02663294 0.9110266 0.163196 11 
> # meilleure p pour MSEP 
> out %>% filter(MSEP == min(MSEP)) 
MSEP R2 RMSEP ncomp 
1 0.02663294 0.9110266 8.163196 11 
> # meilleure p pour RMSEP 
> out %>% filter(RMSEP == min(RMSEP)) 
MSEP R2 RMSEP ncomp 
1 0.02663294 0.9110266 0.163196 1 
> 


Finalement on peut utiliser predict( ) pour réaliser des prédictions pour les 11 composantes 
principales et comparés le résultat de MSE avec ceux des autres modèles : 
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> # prédiction sur les 11 composantes 

> fitted pre <- predict(reg_acp, ncomp = 11) 

> # calul de la MSE = SSE/n regression sur CP 

> mean((log(vehicles$price) - fitted_ prc) * 2) 
[1] 0.01826775 

> # calcul de la MSE = SSE/n regression lasso 

> mean((log(vehicles$price) - fitted_ lasso) * 2) 
[1] @.81217866 

> # calcul de la MSE = SSE/n regression ridge 

> mean((log(vehicles$price) - fitted) * 2) 

[1] 0.03131274 

> # calcul de la MSE = SSE/n regression ordinaire 
> mean((log(vehicles$price) - fitted(reg 1m)) * 2) 
[1] 0.008963656 

> 
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Exemple 277.: Régression (linéaire) par moindres carrés 


partiels (régression linéaire PLS univariée: PLS1) 
R 3.0.2 


Le but va être ici de vérifier si nous obtenons ou pas les résultats des calculs vus dans le cours 
théorique lors de la lecture du l'ouvrage de M. Tenenhaus?”° sur la régression PLS univariée 
(PLS1), c'est-à-dire la régression sur des variables explicatives corrélées avec une unique 
variable à expliquer. 


Nous utiliserons les mêmes données que les calculs effectués à la main et que dans le cours 
Minitab: 


ACER 


Fichier Edition Format Affichage 2 


Dist_ Directe; Reformat;:Naptha Thermique: Naptha Catalytique;Polymere; Alkylat: Essence _Naturelle:Réponse 
0.00:0.23;0.00;0.00:0.00;0.74;0.03;98.70 
0.00:0.10:0.00;0.00:0.12;0.74;0.04;97 80 
0.00:0.00:0.00;0.10:0.12;0.74;0.04;96.60 
0.00:0.49:0.00;0.00:0.12;0.37;0.02;92.00 
0.00:0.00:0.00:0.62,0.12:0.18;0.08;86.6 
0.00:0.62,0.00;0.00:0.00;0.37;0.01 ;91.20 
0.17:0.27:0.10;0.38:0.00;0.00;0.08;81 .90 
0.17:0.19:0.10;0.38;0.02;0.06;0.08;83.10 
0.17:0.21:0.10;0.38:0.00;0.06;0.08;82.40 
0.17:0.15:0.10;0.38:0.02;0.10;0.08;83.20 
0.21,0.36:,0.12;0.25:0.00;0.00;0.06;81 .40 
0.00:0.00:0.00;0.55;0.00;0.37;0.08;88.10 


#Michel Tenenhaus, Régression PLS, Édition Technip, ISBN 2-7108-0735-1, Pages 75-83 
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Nous utilisons ensuite la fonction plsreg1() du package plsdepot qui comme nous pouvons 


le voir ci-dessous nous laisse accès à un certain nombre d'information pertinentes: 


Re, RGui (64-bit} - [R. 
FR Fichier Edition Voir Misc Packages Fenêtres Aide 


&] 


> library(iplsdepot) 
> mydata<-read.csv("C:/tmp/PLS.csv",header=T,sep=";") 

> pls=plsregiimydatal,1:7],mydatal[, 8, drop = FALSE],comps=2) 
> pls 


PLS Regression 1 


$x.scores X-scores (T-components) 
$x.loads X-loadings 
$y.scores Y-scores (U-components) 
$y.loads Y-loadings 
$cor.xyt score correlations 
$fraw.uwgs raw weights 
$mod.wgs modified weights 
$std.coefs standard coefficients 
$reg.coefs regular coefficients 
$R2 R-squared 
$R2Xy explained variance of X-y by T 
$y.pred y-predicted 
$fresid residuals 
$T2 T2 hotelling 

Q2 cross validation 


Nous allons demander à voir celles qui correspondent aux calculs faits à la main dans le cours 


théorique et par Minitab: 


RGui (64-bit} - [ 


> pls$freg.coefs 
Intercept Dist Directe 
92.342205 -12.563555 
Reformat Naptha Thermique 
-6.831158 -21.413996 
Naptha Catalytique Polymere 
-6.395196 3.677573 
Alkylat Essence Naturelle 
8.978730 —-30.667042 


pls$R2 
ti t2 
-92359397 0.05274916 


| 
È 


Tout correspond bien! 
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Exemple 278.: Modélisation par équations structurelles (SEM) 
R 3.1.1 


Il faut considérer cet exercice comme un brouillon à prendre avec des pincettes. Il existe 
effectivement de nombreuses méthodes numériques et plusieurs packages pour résoudre les 
SEM. 


Le but ici va être de comparer les résultats des packages sem et lavaan par rapport au solveur 
Microsoft Excel en se basant sur le modèle de Klein qui pour rappel est: 


Co = Mo + Yu + ob + BW" +W£)+&, 


1,= V0 + Yanb +708 + BoK, + 
We = V0 + 314, + BiX, + BoX, 1 +Ey 


X,=C,+1 +G, 
R=X,-T -W? 
K, Ke, 


D'abord nous chargeons les données où la majorité des variables sont présentes: 
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Gui (64-bit} - [ 
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library(sem) 

data(Klein) 

Klein 
Year 
1920 
1921 
1922 
1923 
1924 
1925 
1926 
1927 
1928 
1929 
1930 
1931 
1932 
1933 
1934 
1935 
1936 
1937 
19385 
1939 
1940 
1941 


Y 
« 


LOJnnmn ON H 
in © © -J -J 2 k © o © 0 ND © -J on © D) H 10 10 -J © Q 


HHHH 
© NO h © 


H 
ne] 

UE 1 1 

© Oo © HA On © + Un ii © ik ON 


VO UORHQGORHNBOHONMDMHON WU JH 


HHH 
Join 

l 
ND N Ha 


l 
Ha 
I Oo O1 Bb D 5 Bb © ,B On On Bb bb + © CG © © © © D 


© + où © © (0 & © -J (0 D © Oh N © © © On 0 N (0 & Q 


C 
.8 
.9 
.0 
.2 
.6 
.6 
.1 
.2 
.3 
.8 
.0 
.9 
.6 
.5 
.7 
.3 
.7 
.7 
.5 
.6 
.0 
.7 


nn HO nmOSN OS -J H OO oh Bb BE (0 & JT 
SONO LEURS UNE 
ND IJIOOhHVJJnmeD Jin more 
IJINL0LOJR JR ENOUNMBOORNR BR A 0 x 
© © -J -J a -J on on O1 On Bb HE HE CO CO CO © ON ND NO N 
DnbbiouNmeon JON JO I1VIERT 


H (0 © -J o © -J o O1 © -J -J 2 4 Oo -J On © B © -J © 


CRE 


H 
Les] 
H 


> Klein$P.lag <- ciNi, Klein$P[-length{P)i]}) 
> Klein$X.lag <- c(NA, Klein$X{-length(P)]l) 
> | 


Nous résolvons maintenant la première équation structurelle en utilisant la fonction tsis() du 
package sem: 
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> summaryitslsiC -P + P.lag + I(Wp + Wg), 
+ instruments=-1 + G + T + Ug + IlYear - 1931) + K.lag + P.lag + X.lag, 
+ data=Klein)) 


2SLS Estimates 
Model Formula: C - P + P.lag + IiWp + Wa) 
Instruments: 1 + G + T + Wg + I(Year - 1931) + K.lag + P.lag + X.lag 
Residuals: 

Min. ist Qu. Median Mean 3rd Qu. Max. 
-1.8930 -0.6163 -0.2459 O.0000 O0.8854 2.0030 

Estimate Std. Error t value Pr(i>it|) 

{Intercept) 16.55475577 1.46797870 11.277725 2.5869e-09 ‘t* 
P 0.01730221 0.13120458 0.13187 0.896634 
P.lag 0.21623404 0.11922168 1.81371 0.087413 
IiWp + Wg) 0.81018270 0.04473506 18.11069 1.5050e-12 tt* 
Signif. codes: O0 ‘tt+ 0.001 ‘ff’ 0.01 ‘*° 0.085 *.’ 0.1 * * 1 


Residual standard error: 1.1356586 on 17 degrees of freedom 


> | 


«< 


La deuxième: 
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> summaryi(itslsil -P + P.lag + K.lag, 
+ instruments=-1 + G + T + Ug + IlYear - 1931) + K.lag + P.lag + X.lag, 
+ data=Klein)) 


2SLS Estimates 
Model Formula: I - P + P.lag + K.lag 
Instruments: 1 + G + T + WUg + I(Year - 1931) + K.lag + P.lag + X.lag 
Residuals: 

Min. ist Qu. Median Mean 3rd Qu. Max. 
-3.2910 -0.8069 0.1423 O0O.0000 O0.8601 1.7960 

Estimate Std. Error value Pri>lt|) 

(Intercept]) 20.27820896 .38324891 .-41590 0.0270705 
P 0.15022182 0.19253359 .78024 0.4459798 
P.lag 0.61594358 0.18092585 .40440,0.0033755 
K.lag -0.15778764 0.04015207 -3.929750.0010797 


Dimit. codes: OÙ “#55 D.D01 **#° O.01 ‘#9 0,.DS *.° DL * ® T 


Residual standard error: 1.3071491 on 17 degrees of freedom 


> | 


«< 


et enfin la troisième: 
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> summaryitsls (Up -X + X.lag + IiYear - 1931), 
+ instruments=-1 + G + T + Ug + IlYear - 1931) + K.lag + P.lag + X.lag, 
+ data=Klein)) 


2SLS Estimates 
Model Formula: Up + X + X.lag + IiYear - 1931) 
Instruments: 1 + G + T + WUg + LI(Year - 1931) + K.lag + P.lag + X.lag 
Residuals: 

Min. ist Qu. Median Mean 3rd Qu. Max. 
-1.2940 -0.4734 0.0145 O0O.0000 0.4487 1.1960 

Estimate Std. Error t value Pri>lt|) 

(Intercept}) 1.50029689 1.27568637 1.176607 0.25577411 
X 0.43885907 0.03960266 11.08155 3.3679e-09 
X.lag 0.14667382 0.04316395 3.396806 0.00342209 
IiYear - 1931) 0.13039569 0.03238839 4.02600 0.00087642 
Signif. codes: O0 ‘##+” 0.001 ‘*** 0.01 DO 4° D: 


Residual standard error: 0.7671553 on 17 degrees of freedom 


> | 


«< 


Nous mettons les valeurs d'intérêt les unes à côté des autres: 


Estimate Estimate Estimate 
{Intercept) 16.55475577 (Intercept) 20.27820896 (Intercept} 1.50029689 
P 0.01730221 P 0.15022162 x 0.43885907 
P.lag 0.21623404 P.lag 0.61594358  X.lag 0.14667382 
I(Wp + Wg) 0.61018270 K.lag -0.15778764 I(Year - 1931) 0.13039569 


Maintenant procédons de même avec la fonction sem( ) du package lavaan qui est bien plus 
complet en paramètres que le package sem: 
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RGui (64-bit) - [F 
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library(lavaan) 
model <= ! 
pas de variables latentes à définir 
fonctions de régression 
+1+P + P.lag + Lip + Wg) 
+1+P + P.lag + K.lag 
VWp-1+X + X.lag + I(Year - 1931)D 


# pas de corrélation des résidus 
' 


fit <- sem(model, data=Klein) 


> 
> 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
> 
> 


Ce qui donne: 


R Statistical Software 1773/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Gui (64-bit) - [ 
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> summary(fit, fit.measures=TRUE) 
lavaan (0.5-18) converged normally after 85 iterations 


Used 
Number of observations 21 


Estimator ML 
Minimum Function Test Statistic 

Degrees of freedom 12 
P-value (Chi-square) 


Model test haseline model: 
Minimum Function Test Statistic 
Degrees of freedom 
P-value 


User model versus baseline model: 


Comparative Fit Index (CFI) 
Tucker-Lewis Index (TLI) 


Loglikelihood and Information Criteria: 


Loglikelihood user model (HO) 
Loglikelihood unrestricted model (Hi) 


Number of free parameters 

Likaike (AIC) 

Bayesian (BIC) 

Sample-size adjusted Bayesian (BIC) 


et pour la suite: 
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Aide 


Root Mean Square Error of Approximation: 


RMSEZ 
90 Percent Confidence Interval 
P-value RMSEL <= 0.05 

Standardized Root Mean Square Residual: 
SRMR 


Parameter estimates: 


Information 
Standard Errors 


Estimate Z-value 


Regressions: 


0.568 
0.759 
2.424 


0.360 
0.433 
-0.164 
0.434 
0.153 
0.134 


Covariances: 


< 


et enfin: 
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6.175 
7.854 
23.971 


4,207 
4.604 
7.971 


14.988 
4.584 
4.784 


Expected 
Standard 


P(>121) 


Sciences.ch 


1775/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


RG u (64-01 -R 
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Covariances: 
C ++ 
BE 


Soit pour résumer les paramètres qui nous intéressent: 


© 
Estimate N 
Regressions: 
C + 
P 0.568 
P.lag 0.759 
Wc {(Wp) 2.424 
I - 
P 0.360 
P.lag 0.433 
K.lag -0.164 
Wp — Intercepts: 
_ 0.434 Û 19.567 
X.lag 0.153 1 20.626 
Year 0.134 Wp -257.265 
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Nous pouvons donc constater des différences considérables entre les deux méthodes dont 
voici un résumé et une comparaison avec MS Excel: 


Coefficient sem lavaan Solveur XL 
Yo 16.55475577 19.567 15.1386 
Yi 0.01730221 0.568 0.052837 
Yo 0.21623404 0.759 0.258205 
Ba 0.08108270 2.424 0.811929 
720 20.27820896 20.626 -4,10789 
Ya 0.15022183 0.380 0.580019 
Yn 0.61593458 0.433 0.222549 
Bo -0.15778764 -0.164 -0.0406 
V0 1.50029689 -257.265 4.801374 
Ya 0.43885907 0.434 0.140841 
Ps 0.14557382 0.153 0.531118 
Ba 0.13039569 0.134 -0.00441 
a 30827.9981 9208909.048 63.2049 


RO 


Ÿ 

RS Vas 
Je pense que cela se passe de tout commentairé. Il serait intéressant de comparer avec un 
logiciel payant (je le ferai quand j'en aurai un sous la main). 
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Exemple 279.: Régression Bootstrap 
R 3.5.1 


Sciences.ch 


Voir la page 1975. 


W 


R Statistical Software 


1778/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Exemple 280.: Régression Jacknife 
R 3.5.1 


Voir la page 1981. 


W 
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Exemple 281.: Modélisation Dose-Réponse 
R 3.63 


Ce qui suit est entièrement inspiré du blog de Claire Della Vedova: 


https://statistique-et-logiciel-r.com/dose-reponse/ 


Il s'agit d'appliquer les techniques habituelles de régressions à des modèles particuliers connus 
dans la recherche médicale et biologique. 


Nous allons ici utiliser le package dre (Dose-Response Curves) auquel un livre entier est 
dédié (nous mentionnerons le livre à la fin de cet exemple) et un jeu de donnés fournit avec, 
nommé ryegrass, qui sont des données issues d’une étude visant à étudier l’action conjointe 
des acides phénoliques sur l’inhibition de la croissance des racines de la plante Lolium 
perenne. La variable conc est la concentration d’acide férulique en [mM] (millimolar), 6 
niveaux sont testés. La variable rootl est la longueur des racines de la plante, mesurée en 
[cm]: 


R 
R File Edit View Misc Packages Windows Help - EX 


ÉSOSEESIEIE 


> library("drc") 
Loading required package: MASS 


"drc' has been loaded. 

Please cite R and ‘'drc' if used for a publication, 

for references type 'citation()' and 'citation('drc')'. 

Attaching package: ‘drc'’ 

The following objects are masked from ‘package:stats': 
gaussian, getlnitial 


> ryegrass 


rootl conc 
1 7.5800000 0.00 
2 868.0000000 0.00 
3 8.3285714 0.00 
4 7.2500000 0.00 
5 7.3750000 0.00 
6 7.9625000 0.00 
7 8-3555556 0.94 
8 6.9142857 0.94 
9 7.7500000 0.94 
10 6.8714286 1.8 
11 6.4500000 1.88 
12 5:9222222 1-88 
13-1:9250000 3-75 
14 2.8857143 3.75 
15,4:2333333 3.75 
16 1.1875000 7.50 
17 0:9571429 7:50 
18 1.0571429 7.50 
19 0.6875000 15.00 
20 0.5250000 15.00 
21 0.8250000 15.00 
22 0.2500000 30.00 
23 0.2200000 30.00 

0 


24 0.4400000 30.00 
> plot (ryegrassS$conc, ryegrass$rootl,lwd=2,col=3) 
> | 
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Avec le graphique correspondant: 


r 


MR Graphics: Device 2 (ACTIVE) EEE 
Ce) 
o 
8 
© 
& 
no 
& 
A ST 
) 
rs 
ON 
o 
0 5 10 15 20 25 30 
ryegrass$conc 


Ensuite rappelons les modèles courants: 


d + LE —— 
Log-logistique model: "+ 
& A 
: \ 
(d A c) 3 4 -| b 
D — RS 
uit [1+ exp(b(log(x) — log(e))] ë 7 
Ë 3 t\ 
iptreseenerenes Le, 
7 —+ 
conc €=EC50 
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Cancérologie 


My, Mireses-sesnayger.e 

dd C :proportionnel ay 
tx de croiss au pt 

4 d'inflexion 


Gompertz model 


f(x) = Asym x exp(—(m/ c)xexp(—c x x)) 


m: proportionnel au tx de croiss 
initial 


Mikaélis-Menten model 


Vin x x 


K+x 


f(x)= 


Vitesse 
ï 


& 
1 


Redsesesz 


Ÿ 
Allons-y pour l'ajustement du modèle log-logistique à 4 paramètres: 
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r 


M R Console EEE 


> ryegrass.1l14 <- drm(rootl-conc, data=ryegrass, fct=LLl.4()) 
> summary (ryegrass.1l1l4) 


Model fitted: Log-logistic (EDS50 as parameter) (4 parms) 
Parameter estimates: 


Estimate Std. Error t-value p-value 


b:(Intercept) 2.98222 0.46506 6.4125 2.960e-06 
c:(Intercept) 0.48141 0.21219 2.2688 0.03451 
d:(Intercept) 7.79296 0.18857 41.3272 < 2.2e-16 
e:(Intercept) 3.05795 0.18573 16.4644 4.268e-13 


Residual standard error: 


0.5196256 (20 degrees of freedom) 
> plot (ryegrass.114,type="all",col=3,lwd=2) 


> | 
MR R Graphics: Device 2 (ACTIVE EN RCR ESS 
8 
6 
8 
8 4 
2 
0 
0 1 10 
conc 


Évaluatons la normalité des résidus: 


R Statistical Software 1783/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


El 


QR R Console o | © | & 


> library("car") 

Loading required package: carData 

> car::qqPlot(residuals(ryegrass.11l4)) 
[1] 15 13 

> shapiro.test(residuals(ryegrass.ll4)) 


Shapiro-Wilk normality test 


data: residuals (ryegrass.ll4) 
W = 0.98232, p-value = 0.9345 


residuals(ryegrass.l4) 
0.0 0.5 1.0 


-0.5 


-1.0 


-2 -1 0 1 2 


norm quantiles 


C'est a posteriori bon signe. Maintenant évaluatons l'homogénéité des résidus: 
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à 


[€ 

Q R Console So | D | ZX 
> plot(fitted(ryegrass.114), (residuals(ryegrass.1ll14,type="standardised"))) 
> | 
MR R Graphics: Device 2 (ACTIVE os | © | X 
© 

a 

D NN 

œ 

D 

l'es 

œ 

o *<— 
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EF 
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CN] 1! 
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ü 

E 

om 

vn 

2 

2 4 6 8 
fitted(ryegrass.Il4) 
—— à S 
L’homogénéité semble plutôt rejetée. QŸ 


Les tests de Levene et de Bartlett peuvent également être employés. L'hypothèse nulle de ces 
tests spécifie l'homogénéité des résidus, alors que l'hypothèse alternative spécifie la non- 
homogénéité: 


| HR RGui (64-bit) - [R Console] LI 


.@ File Edit View Misc Packages Windows Help -# x! 
ET 


> car::leveneTest (residuals (ryegrass.ll4),as.factor(ryegrassS$conc)) 
|Levene's Test for Homogeneity of Variance (center = median) 
Df F value Pr(>F) 
group 6 1.9266 0.1344 
| 17 
> bartlett.test (residuals(ryegrass.1ll4),as.factor (ryegrassS$conc)) 


Bartlett test of homogeneity of variances 


data: residuals(ryegrass.ll4) and as.factor (ryegrassS$conc) 
Bartlett's K-squared = 13.216, df = 6, p-value = 0.03973 


“|| 
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Les résultats de ces tests sont contradictoires. Au final, nous pouvons retenir la présence d’un 
défaut d’homogénéité des résidus. 


Utilisons alors la transformation de Box-Cox: 


MR Console os | ba 


> ryegrass.114BC<-boxcox (ryegrass.1ll4) 
Warning messages: 

1: In sgrt(diag(varMat)) : NaNs produced 
2: In sgrt(diag(varMat)) : NaNs produced 
3: In sgrt(diag(varMat)) : NaNs produced 
4: In sqrt(diag(varMat)) : NaNs produced 
> summary (ryegrass.114BC) 


Model fitted: Log-logistic (EDS0 as parameter) (4 parms) 
Parameter estimates: 


Estimate Std. Error t-value p-value 
: (Intercept) 2.61839 -.39151 6.6880 1.649e-06 
: (Intercept) 0.39083 .10429 3.7474 0.001269 
: (Intercept) 7.86633 -.29558 26.6136 < 2.2e-16 
: (Intercept) 3.01662 -21005 14.3612 5.354e-12 


Den 
0Goo 


Residual standard error: 
0.2962958 (20 degrees of freedom) 
Non-normality/heterogeneity adjustment through optimal Box-Cox transformation 


Estimated lambda: 0.5 
Confidence interval for lambda: [0.269,0.949] 


> qqPlot (residuals(ryegrass.114BC)) 


6 e S 
> 

GR Graphics: Device 2 (ACTIVE) OEIES 
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norm quantiles 


Et le modèle donne: 
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FE 


Sciences.ch 


MR R Console 


> plot (ryegrass.1l4BC, type="all",col=3,lwd=2) 
> | 


rootl 


conc 


Donc la normalit'e des résides semble toujours ok. Maintenant vérifions leur homogénéité: 
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E 


MR Console Lex) 


> plot(fitted(ryegrass.1l14BC), (residuals (ryegrass.ll4BC,type="standardised"))) 
> bartlett.test (residuals (ryegrass.114BC),as.factor (ryegrassSconc)) 


Bartlett test of homogeneity of variances 


data: residuals(ryegrass.1l4BC) and as.factor (ryegrass$conc) 
Bartlett's K-squared = 9.186898, df = 6, p-value = 0.1632 


> leveneTest (residuals (ryegrass.1l4),as.factor(ryegrass$conc)) 
Levene's Test for Homogeneity of Variance (center = median) 
D£f F value Pr(>F) 
group 6 1.9266 0.1344 
17 
> | 


R R Graphics: Device 2 (ACTIVE) RES] 


4 


ü 


2 - 6 8 


{residuals(ryegrass.il4BC, type = "standardised")) 


fitted(ryegrass.II4BC) 


Maintenant c'est Ok! 


Faisons maintenant un test d'ajustement de Fisher (lack-of-fit) : 


MR RGui (64-bit) - [R Console] _ 


GR File Edit View Misc Packages Windows Help lex 
ElAel 


> modelFit (ryegrass.1ll4BC) 
Lack-of-fit test 


ModelD£f RSS Df F value p value 
| ANOVA 17 1.4292 
| DRC model 20 1.7558 3 1.2949 0.3084 


> 
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C'est bon signe! 
Pour conclure faisons un peu de prédictions. 


D'abord faisons des estimations de la dose correspondant à une réponse (longueur de racine) 
donnée: 


M RGui (64-bit) - [R Console] _ O 


R File Edit View Misc Packages Windows Help el. RE 


> ED(ryegrass.114BC,c(10,25,50),interval="delta") 


Estimated effective doses 


Estimate Std. Error Lower Upper 


|[e:1:10 1.30341 0.21405 0.85690 1.74992 
e:1:25 1.98290 0.21698 1.530299 2.43550 
e:1:50 3.01662 0.21005 2.57846 3.45478 
> | 


Objectivement je suis surpris par la lecture de ce résultat. Car plus la dose est grande, 
plus la longueur des racines est petite normalement. Il faut que je creuse le sujet pour 
voir si quelque chose m'a échappé ou pas. 


Et pour terminer l'estimation de la réponse correspondant à une dose donnée: 


R RGui (64-bit) - [R Console] = 0 


GR File Edit View Misc Packages Windows Help IE: 


> predict (ryegrass.114BC,data.frame(c(1,5,10)),se.fit-=T,interval="confidence") 


Prediction SE Lower Upper 
[1,] 7.4731410 0.24975785 0 0 
[2,1] 1.9629818 0.21928881 (e) 0 
[3,1] 0.7015609 0.09606095 0 0 
> 


R Statistical Software 1789/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


16. Interpolations 


Les techniques d'interpolation sont contrairement aux techniques de régression des outils 
mathématiques permettant d'ajuster au mois un courbe selon plusieurs critères empiriques 
(comme pour les régressions) mais dont le but n'est pas ensuite de pouvoir faire des 
projections (extrapolations) en avant et en arrière. 


Exemple 282.: Interpolation par polynômes de Lagrange 
R 3.6.2 


Nous avons introduit et démontré dans le cours théorique, l'origine des polynômes de Taylor, 
Lagrange, Newton et Hermite. Voyons comment avec le package polynom et sa fonction 
poly.calc( ) faire la même interpolation de Lagrange que celle calculée à la main dans le cours 
théorique: 


| GR File Edit View Misc Packages Windows Help 


zx. <— ei-1, 0, 1; 2) 
y <- c(1.937, 1.000, 1.349, -0.995) 
dat <- data.frame(cbind(x, y)) 


library ("polynom") | 
library ("ggplot2") 

poly.calc(x, y) 

+ 0.3691667*x + 0.643*x°2 —- 0.6631667*x"3 


£ <- function(x) !{ 
return(1 + 0.36916%*x + 0.643*x°"2 - 0.66316*x"3) 
} | 


ggplot (dat, aes(x=x, y=y)) + 
geom_ point (size=S, col='blue') + 
stat_function(fun = f, size=1.25, alpha=0.4) 


VHHVV VV EM VNVUNVNNV NV NV 


——— 


Ce qui donne graphiquement: 
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Nous retrouvons les résultats identiques que ceux dans le cours théorique. 
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Exemple 283.: Interpolation par splines (basis + natural 


splines) 
R 3.02 


Les cas les plus courants d'interpolation sont les splines qui sont utilisées pour les courbes de 
taux en finance. Voyons donc un exemple de cela. 
Pour l'exemple nous prenons les données de la banque fédérale américaine: 


http://www.federalreserve.gov/datadownload/Choose.aspx?rel=H.15 


téléchargeable en fichier *.csv: 


Fichier Edition Format Affichage 2 


"Senes Descrption","Market vield on US. Treasury securities at 1-montt 
ment basis" "Market yield on US. Treasury securities at 30-year constat | 
"Unit","Percent: Per _Year","Percent: Per Year" "Percent: Per Yea"/"P 
"Multiplier: " Foi Les mn, “qu Aa lip ni ni" "1", uju ni" UD ni" 

"Currency: "n "Né" ,"N4", "N£", "NA" ,"N4", "NA", "NA" ,"N4", "NA", "HN. 
"Unique Identifier: ","H15/H15/RIFLGFCMO1_N.B","H15/H15/RIFLGFCI 
"Time Period", "RIFLGFCMO1_N.B","RIFLGFCMO03_N.B","RIFLGFCMOé 
1962-01-02,,,3.22,,3.70,3.88,, 4.06, 

1962-01-03,,,3.24,,3.70,3.87,,4.03, 

1962-01-04,,,,3.24,,3.69,3.86,,3.99, 

1962-01-05,,,,3.26,,3.71,3.89,,4.02,, 

1962-01-08,,,,3.31,,3.71,3.91,4.03,, 

1962-01-09,.,,3.32,,3.74,3.93,405,, 

1962-01-10,,,3.33,,3.75,3.94,.4.07,, 

1962-01-11,,,,3.33,,3.77,3.94, 4.08, 

1962-01-12,,,3.30,,3.76,3.95,,4.08,, 

1962-01-15,,,3.32,,3.79,3.96,,4.10, 

1962-01-16,,,3.30,,3.81,3.98,,4.13, 

1962-01-17,,,,3.30,,3.81,3.97,,4.12, 

1962-01-18,,,,3.27,,3.79,3.96,,4.11,, 

1962-01-19,,,,3.27,,3.78,3.95,4.11, 

1962-01-22,,,,3.25,,3.76,3.93,409, 

1962-01-23,,,,3.25,,3.77,3.94,4.11,, 

1962-01-24,,,3.24,,3.76,3.93,,4.10, 

1962-01-25,,,3.27,,3.77,3.94,4.11, 

1962-01-26,,,3.28,,3.80,3.97,4.11, 

1962-01-29.,,3.28,,3.80,3.98,,4.12, 

1962-01-30,,,,3.28,,3.80,3.98,,4.11,, 


Nous avons alors avec beaucoup d'astuce d'abord en prenant la dernière date: 
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> mydata<-read.csv{("C:/FRB H15.csv",header=T,sep=",") 
> mydata<-tail (mydata, 1) 
> mydata 
Series.Description 
13672 2014-05-21 
Market.vyield.on.U.S..Treasury.securities.at.l.month...constant.maturity..quoted.on.investment.basis 
13672 0.04 
Market.yield.on.U.S..Treasury.securities.at.3.month...constant.maturity..quoted.on.investment.basis 
13672 0.04 
Market.vyield.on.U.5..Treasury.securities.at.6.month...constant.maturity..quoted.on.investment.basis 
13672 0.06 
Market.vyield.on.U.S..Treasury.securities.at.l.year...constant.maturity..quoted.on.investment.basis 
13672 0.09 
Market.vield.on.U.5..Treasury.securities.at.2.vear...constant.maturity..quoted.on.investment.basis 
13672 0-37 
Market.vyield.on.U.S..Treasury.securities.at.3.vyear...constant.maturity..quoted.on.investment.basis 
13672 0.79 
Market.vield.on.U.S..Treasury.securities.at.5.vear...constant.maturity..quoted.on.investment.basis 
13672 1,55 
Market.vield.on.U.5..Treasury.securities.at.7.vear...constant.maturity..quoted.on.investment.basis 
13672 209 
Market.vyield.on.U.S..Treasury.securities.at.10.vear...constant.maturity..quoted.on.investment.basis 
13672 2.54 
Market.vyield.on.U.5..Treasury.securities.at.20.vear...constant.maturity..quoted.on.investment.basis 
13672 3-13 


« 


On simplifie un peu l'affichage: 


mydata<-mydata[,-1] #on élimine la ligne de titre 
label.term<-c("imMn","3M", "OM, "1ym m2yn m3 yen noyer m7ye MiOY" "20Y","30Y") 
colnames (mydeta)<-label.term 
mydata 
1" 3M 6H LT 2Y 3T SY FT 1097 20T 307 
< 4 0.04 0.04 0.06 0.09 0.37 0.79 1.55 2.08 2.54 3.13 3.42 
> 


ù 


Et nous allons sur la dernière ligne droite en utilisant les commandes bs() (b-splines) ou ns) 
(natural splines) qui sont différents modèles de splines disponibles dans le package splines: 
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R & Console NES 


P 2 


> library(splines) 

> v<-as.numeric(as.character (t (mydata) j) 
> x<-c(1,3,6,12,24,36,60,84,120,240,360) 
> ri<-lmiy-bs(ix,df=3)) 

> r2<-lmiy-ns(ix,df£f=3)) 

> plotiy-x) 

> lines(predict(ri)-x,col='red', lud=3) 

> lines (predict(r2)-x,col='green!,lud=3) 
> 


Figure 255 Graph avec interpolation par splines 


Il n'est pas possible (et cela n'a pas de sens mathématiquement parlant à ma connaissance) de 
faire des projections (extrapolations) avec des interpolations par splines au-delà du domaine 
de définition d'origine. 
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N-splines (natural), B-splines (basis), RC-splines (restricted cubic) 


Sinon voici un exemple plus court comparant trois types de splines différents (notez que les 
splines RC ne sont pas gérées par Im() d'où le fait qu'on doive utiliser la fonction ols() pour 
ces dernières: 


Re RGui (64-bit R Console] 


4 File Edit View Misc Packages Windows Help | EU LR 


library("splines") #pour les n-spline et b-spline 
library("rms") #pour les rc-spline 

x <— c(0.2, 0.23, 0.26, 0.29, 0.33, 0.46, 0.53 ) 
Y <— c(0.211, 0.2026, 0.2034, 0.2167, 0.2177, 0.19225, 0.182) 
fit _ 1m <- 1m(y - x) 

fit ns <- 1m(y - ns(x,3)) 

fit_bs <- I1m(y - bs(x,3)) 

fit _rcs <- ols(y - rcs(x, 3)) 


plot (y-x) 

lines (predict (fit lm)-x,lwd=3) 

lines (predict (fit ns)-x,col="green", lwd=3) 
lines (predict (fit bs)-x,col="blue",lwd=3) 
lines (predict (fit rcs)-x,col="red",lwd=3) 


VVNVVNVNVNNVNVNNVNNVNNNVNNNVNV 


TE 
8 


Ce qui donne graphiquement: 


G n 


QG À Graph e TIVE Ss|g|x 


0.185 0.190 0.195 0.200 0.205 0.210 0.215 


Figure 256 Graph interpolations n-splines, b-splines, rc-splines 
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et notons que le package rms a une fonction pour obtenir l'expression analytique de la spline 
de façon dactylographiée ou en LaTeX: 


Mrie Edé Ven Mur Packages W 

CASE) 
Function(fit_rcs) 

(x = NA) (0.17576983+0.12777701* x-42 


ndows Help 


.738608*pmax(x-0.26,0)*3+74,792914#pmax(x-0.29,0}*3-32.054106*pmax(x-0.33,0)*3 ) 
ent: Üx000000000b634da0> 
> latex(fit rcs } 
\[f\rm Elf\em y)}}) = X\beta, [\rm \ \ where} \\ \] 
\bsgin{sqnarray*) 
\lefteqn{X\nat{\beta}=}\\ 
5 6 0.1767698 \\ 
& & + 0.127777 
\enditegnarray“} 
and \((Cx) [+)=x\) 3€ \ix > O\}, 0 otherwise\\ 


(Nam x)-42.730E1((\zm x)-0.26}) _(+}"(13)+74.79291 ({\rm x)-0.23) _ (+)"(39-32.05411((\rm xh-0.33)_ (+)"{34 \\ 


W 
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Exemple 284.: Interpolation locale par pondération (LOESS) 
R 3.0.2 


Bon ici nous n'allons pas trop insister car c'est de l'ingénierie numérique et comme nous 
l'avons vue dans le cours théorique de Méthodes Numériques où nous avons implémenté le 
code VBA du NIST dans Microsoft Excel 1l existe de nombreux algorithmes LOESS 
(LOcally Weighted regrESSion) différents qui donnent des résultats sensiblement différents. 


Nous allons donc ici juste nous concentrer sur la mise en application de la méthode et le 
résultat visuel sans le commenter. 


Les données unidimensionnelles seront: 


SJ RegressionLineaireUnivariee.csv - Notepad ue (n] X 


File Edit Format View Help 
Mois;Ventes 

3;4 

6,9 

7:12 

8:15 

9;17 

108,16 


11,17 
12,18 
15:18 


Ensuite viennent les commandes: 
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€ 


R & Console [S2|g|x| 
> libraryi(ggplotz2) 

> setwd{("C:/") 

> mydata<-read.csv("RegressionLineaireUnivariee.csv",header=T,sep=":") 

> ggplot (mydata,aes(x=Mois,vy=Ventes)])+geom point ()+stat smooth(imethod=loess, level=0.95) 

> | 


in 
D 
rs 
Les 
D 
> 


Mois 
Figure 257 Graph interpolation LOESS with confidence interval (ggplot) 


Comme nous allons le montrer maintenant, ce modèle ne permet (du moins à ma 
connaissance) pas d'extrapoler mais uniquement d'interpoler: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 
£ 


> ventes.lo<-loess (Ventes-Mois, mydata) 

> ventes.loffitted 

[1] 3.979455 9.288714 12.401458 15.077344 16.458592 16.541408 17.025920 17.656949 18.024158 
> predict (ventes.lo, data.frame(Mois = seq(1l, 20, 1j), se = TRUE)ffit 


1 2 3 4 5 6 É 8 9 
Ni Ni 3.979455 5.323149 7.112823 9.268714 12.401458 15.077344 16.458592 
10 11 12 13 14 15 16 17 18 
16.541408 17.025920 17.656949 18.002930 18.150027 18.024156 Ni Ni Ni 
19 20 
Ni 
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Ou un autre cas dont nous avons longuement discuté dans le cours théorique en considérant 
les données suivantes: 


v 


library(ggplot2) 
mydata<-read.csv("c:/tmp/SmoothLinePlot.csv",header=T,sep=";") 
mydata 
Year Value 

2001 20 

2001 98 

2001 98 

2001 20 

2001 92 

2002 

2002 

2002 

2002 

2002 

2003 

2003 

2003 

2003 

2003 

2004 

2004 

2004 

2004 

2004 

2005 

2005 

2005 

2005 

2005 

2006 

2006 

2006 

2006 

2006 


VV 


FH 10 © -J O OU 45 & NN 


hp 
D b © 


Et en utilisant la fonction qplot( ) : 


> qplot(Year, Value, data = mydata, geom = "smooth", method="loess", xlab = "Year", ylab = "Values", xlim = c(2000, 2007))+ 
+ scale _ y continuous (breaks = seq(0, 160, by = 20), limits = c(0, 160))+ 


+ theme _bw()+ geom point ()+ stat _summary(fun.y="mean", colour="red", geom="point") 


Ce qui donne: 
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160 


120 
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Exemple 285.: Interpolation Multivariate Adaptive Regression 


Splines (MARS) 
R 3.12 


Voyons comment effectuer une interpolation MARS avec la fonction earth( ) du package 
earth: 


R R Console ER ES 


> library(earth) R 

> earth.mod <- earth(Ventes - ., data=mydata) 
> plotmo(earth.mod) 

> | 


Ventes  earth(Ventes-. data=mydata) 


Mois 


Nous avons alors pour résumé: 
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R RGui (64-bit) - [R Console] — O x 
R File Edit View Misc Packages Windows Help -# x 


> summary (earth.mod) 
Call: earth(formula=Ventes-., data=mydata) 


coefficients 
(Intercept) 15.1288795 
h(8-Mois) -2.3677012 W 
h(Mois-8) 0.5165702 


Selected 3 of 4 terms, and 1 of 1 predictors 

Termination condition: GRSq -Inf at 4 terms 

Importance: Mois 

Number of terms at each degree of interaction: 1 2 (additive model) 
“: 3.492175 RSS 6.208311 GRSq 0.8650367 RSq 0.9662592 

> 


Si on veut les valeurs interpolées nous utilisons la fonction predict(}) du package: 


R RGui (64-bit) - [R Console] — (= X 
R File Edit View Misc Packages Windows Help F1 x 


> predict (earth.mod) 

Ventes 

[1,] 3.290373 

[2,1] 10.393477 

[3,1] 12.761178 NS 

[4,] 15.128880 

[5,] 15.645450 

[6,] 16.162020 

[7,] 16.678590 

[8,1] 17.195160 

[9,] 18.744871 


Nous pouvons aussi choisir les données interpolées voulues ou même extrapolées toujours 
avec la même fonction. .….: 
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R RGui (64-bit) - [R Console] — O X 
KR File Edit View Misc Packages Windows Help 


BROSSE 


> mydata 
Mois Ventes 
3 4 
9 
12 
15 
17 
10 16 
11 17 
12 18 
15 18 
predict (earth.mod) 
Ventes 
[1,] 3.290373 
(2,] 10.393477 
[3,1] 12.761178 
[4,] 15.128880 
[5,] 15.645450 
[6,] 16.162020 
[7,1] 16.678590 
[8,] 17.195160 
[9,] 18.744871 
> predict (earth.mod,c(3,7,20)) 
Ventes 
[1,1] 3.290373 
[2,1] 12.761178 
{3,] 21.327722 
> 


V 10 CD -} On On :B (D NN) ++ 
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17. Sondages 


Pour étudier les sondages, nous partons du fichier suivant ayant principalement des variables 
catégorielles: 


Edition Format Affichage 2 


customer; SurveyQuestionOl SurreyQuestion02;SurreyQuestionN3:SurreyQuestiond;SurreyQuestion05 
68038, 4 few times a year, Several times a week Several times a month;é few times a year, 4 few times a year 

68039; About once a month; few times a year: Never or almost never Never or almost never; Several times a week 
68040 ;,About once a month;Never or almost never, few times a year. Never or atmost never; 4 few times a year 
68041 ;Several times a month, few times a year, About once a month.é few times a year Several times a week 
68042; About once a month;4 few times a year, About once a month;Never or almost never; Several times a month 
68043; 4 few times a year. Never or almost never Never or almost never, Never or almost never, few times a year 
68044; Several times a month; Never or almost never, 4 few times a year, 4 few times a year, About once a month 
68045; About once a month;Never or almost never, few times a year Never or almost never; few times a year 
68046;,4bout once a month;äbout once a month;äbout once a month;£bout once a month;£bout once a month 
68047 Never or almost never; About once a month;Several times a month;Never or almost never, Never or almost never 
6804 ;Several times a week Several times a week; £ few times a year Never or almost never; About once a month 
68049; About once a month;äbout once a month; few times a year Never or almost never, #bout once a month 
68050; few times a year Several times a week: à few times a year Never or almost never Never or almost never 
68051;4bout once a month;Several times a month;Several times a month, few times a year, Several times a month 
68052;Several times a week: 4 few times a year, About once a month;:Never or almost never; Several times a week 
68053; Never or almost never, few times a year Several times a week Never or almost never Never or almost never 
68054; About once a month;äbout once a month;Several times a week; 4 few times a year, Several times a month 
68055,About once a month,4 few times a year, Several times a month;Never or almost never Never or almost never 
68056; 4 few times a year Several times a month, Several times a week: À few times a year. Never or almost never 
68057,4 few times a year, À few times a year, About once a month; About once a month;Several times a month 
68058;4bout once a month; Never or almost never; Several times a month; äbout once a month;Several times a month 
68059; Several times a week Never or almost never, few times a year, ébout once a month;Several times a week 
68060; Several times a week; 4 few times a year, À few times a year, About once a month;Several times a week 

68061, Several times a month;é few times a year Several times a month, About once a month;Several times a month 
68062;4 few times a year Never or almost never, 4 few times a year, About once a month;Never or almost never 
68063;,Several times a month;é few times a year, About once a month; Never or almost never; À few times a year 
68064; 4 few times a year. Never or almost never, 4bout once a month, Never or almost never; Several times a month 
68065; About once a month;Never or almost never: Never or almost never: Never or almost never; Several times a month 
68066; Several times a month;Several times a month,Several times a month,4 few times a year, Several times a week 
68067,About once a month;4 few times a year, About once a month;Never or almost never; Several times a month 


« 


Avec le package likert et la fonction likert( ) nous obtenons: 


RGuï (64-b) IR 
R Fichier Edition Voir Misc Packages Fenêtres Aide 


> mydata<-read.csv("C:/tmp/Survey.csv",header=TRUE,sep=";")] 
> dimimydata) 
[1] 66690 6 

library(likert) 

mydata<-likert (mydatal[,-1]) 

mydata 


Item À few times a year dhout once a month Never or almost never Several times a month Several times à week 
SurveyQuestion01 20.03231 21.33091 10.154585 31.02166 17.430535 
SurveyQuestion02 25.68500 15.783685 36.74596 14.51694 7.268416 
SurveyQuestion03 24.736829 19.61739 1709551 22.29721 16.311601 
SurveyQuestion04 30.57142 19.55493 30.85323 13.497311 5.547302 
SurveyQuestion0s5 18.51270 15.726885 18.758107 23.685563 23.123723 
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S1 on représente graphiquement les réponses par question dans un diagramme croisée en 
pourcentages, nous obtenons: 


sureyQuestionO1 


SurveyQuestionQ5 


Survey Question03 


Survey Question02 


surveyQuestionO4 


Percentage 


nse BH: few times a year. About once a month Never or almost neverbn Several times a mo 


Figure 258 Graph de sondage Liekert à barre verticales groupées 


Non-centré, c'est peut-être plus intuitif..…., nous avons alors: 
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> plot (mydata,centered=FALSE,wrap=30) 
> 


surreyQuestiong1 
sureyQuestionO05 
SurveyQuestion03 
SurveyQuestionO2 


SureyQuestionO4 


Percentage 


nse BH: few times a year About once a month Never or almost never Several times a mo 


Figure 259 Graph de sondage Liekert à barre verticales groupées normalisées 


Nous pouvons afficher les réponses sous formes de diagrammes densité: 
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> plot (mydata,type="density") 
> 


À few About Never or  Several several 
times a once a almost times a times a 
year) month (2) never(3) month (4) week (5) 


Figure 260 Graph de sondage Liekert avec fonction de densité 


Ou sinon on peut afficher les réponses sous la forme d'une matrice de carte chaleur: 
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> plot (mydata,type="heat") 
>| 


SureyQuestionO5 3.17 (14) 


SurveyQuestionO4 244 (1.2) 


Percent 
100 


SurveyQuestion03 2.86 (14) 


SurveyQuestionO2 262 (12) 


SurveyQuestionD1 3.04 (14) 


Mean (SD) A few times a year About once a month Never or almost never Several times a month Several times a week 


Ou encore: 


> plot (mydata,type="density", facet=FALSE) 
>| 


HN 4 


Item 

—| SurveyQuestionO1 
— SurveyQuestion02 
— SurveyQuestion03 
— SurveyQuestionO4 
“| SurveyQuestion0S 


À few About Never or Several Several 
times a once à almost times a times a 
vear {1j  month(2) never(3) month (4) week (5) 
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18. Fiabilité/Survie 


Exemple 286.: Analyse de données censurées selon modèle non 


paramétrique de Kaplan-Meier 
R 3.0.2 


Le but ici va être à nouveau de vérifier si nous obtenons bien les mêmes résultats que ceux 
calculés à la main dans le cours théorique lorsque nous avons étudié la démonstration de 
l'estimateur de survie de Kaplan-Meier. 


Nous partons du tableau vu en cours mais adapté aux exigences de Minitab et R (il n'est 
vraiment pas aisé de deviner que c'est sous cette forme que les choses doivent être 
représentées): 


Fichier Edition Format Affichage 


Rémission;Censuré 


Ensuite, en utilisant le package Survival, nous utilisons la commande survfit() avec Surv() 
de la manière suivante: 
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R RGui (64-bit) - [R Console] - CO 


R File Edit View Misc Packages Windows Help EX 


mydata<-read.csv("c:/tmp/KaplanMeier.csv",header=T,sep=";") 
library("survival") 

fle modèle est très simple puisque nous n'avons aucune covariable (...) 
fit<-survfit (Surv(mydata$Rémission,mydata$Censuré)-1) 
plot(fit,col=c(4),xlab="semaines",vylab="Probabilité de survie") 

grid() 

legend("bottomleft",col=c{"blue"),lty=1,legend=c("6-mercaptopurine (6-MP)")) 


VUVNNNN OV 


le -1 signifiant qu'il n'y a pas de facteur explicatif particulier supplémentaires (comme l'âge, 
le sexe ou autre). 


Ce qui donne graphiquement (je n'ai pas trouvé comment désactiver les deux intervalles de 
confiance sachant que nous n'en avons pas fait la démonstration mathématique dans le cours 
théorique): 


= _———_—.\ 
MR R Graphics: Device 2 (ACTIVE NE 
a 
Le) 
Le] 
2 
È © 
n o 
Lo] 
TD 
5 
3 + 
o (=) 
| 
[el 
| 
S —— 6-mercaptopurine (6-MP) 
0 5 10 15 20 25 30 35 
semaines 


Figure 261 Graph de survie de Kaplan-Meier 
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Ou avec la fonction ggsurvplot() du package survminer: 


le 


BR Console OCIES 


La 


library ("survminer") 
ggsurvplot (fit,data=-mydata) 


V 


REC De EE 


Strata + AI 


1.007 


0.75: 


0.50 


Survival probability 


0.25: 


0.00 7 


T T T T 


0 10 20 30 
Time 


à comparer avec Minitab (on appréciera donc dans R l'indication des données censurées qui 
sont a priori absentes dans Minitab): 
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Diagramme de survie non paramétrique pour Rémission 


Diagramme de survie pour Rémission 
Méthode de Kaplan-Meier 
Colonne de troncage dans Censuré 


Tableau des statistiques 
Moyenne  23,2874 
Médiane 23 
EIQ + 


Pourcentage 


20 
Rémission 


Sinon nous pouvons avoir aussi le graphique des évènements cumulés: 


R: RES 
> library("survminer") 
> ggsurvplot(fit,data=-mydata, fun="event") 
>| 
Strata + All 

06 
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Ou le graphique du hasard cumulé: 


gsurvplot (fit, data=mydata, fun="cumhaz") 
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Ou encore: 
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1 


MR R Console sex] 
> ggsurvplot(fit,data-mydata,conf.int=TRUE, 
+ fun="pct",risk.table-TRUE, size=i,linetype="strata", 
+ legend="bottom") 
bn 
UR KR Graphics: Device 2 (ACTIVE Lau [e [x | 
100 
a 
D 75 
Z 
5 
Lio] 
He] 
Oo 50 
[en 
© 
Ps 
Ê 25 
[4] 
0 
0 10 20 30 
Time 
Number at risk 
© 
£S AI 21 15 11 8 5 4 1 
[4] 
. 10 15 20 25 30 35 
Time 
Strata + All 


Bon les graphiques c'est bien joli mais nous voulons des chiffres! Nous écrivons alors: 
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R Fichier Edition Voir Misc Packages Fenêtres Aide 


Bel] 


> summary(fit) 
Call: survfit (formula = Survimydata$Rémission, mydatafCensuré) - 1) 


time n.risk n.event survival std.err lower 95% CI upper 95% CI 
21 3 0.857 0.0764 .720 1.000 

17 .- 5807 .-0869 653 .996 

15 .753 .-0963 .586 .968 

12 . 690 .1068 .510 -.935 

41 .627 -1141 -.439 .896 

7 .536 .1282 .337 .858 

6 . 448 .1346 .249 .-807 


et nous retrouvons tous les chiffres calculés à la main dans le cours théorique (excepté pour 
les deux dernières colonnes puisque nous n'avons pas démontré mathématiquement comme 
obtenir l'intervalle de confiance). 


Et en écrivant simplement: 


KR Fichier Edition Voir Misc Packages Fenêtres Aide 


> ic 
Call: survfit (formula = Survimydataf$Rémission, mydata$Censuré) - 


records n.max n.start events median 0.9SLCL O.SSUCL 
21 21 21 9 29 16 Ni 


> | 


Nous retrouvons la médiane visible dans le coin du graphique de Minitab. 


Pour ceux qui veulent apprendre à faire des des courbes de Kaplan-Meier magnifiques et 
animées avec annotations et pauses pendant l'animation, nous vous conseillons de consulter le 
code suivant: 


https://2ithub.com/mattkumar/tte_animations/blob/main/tte_animation.R 


de Matthew Kumar (Senior Computational Scientist at Bayer Pharmaceuticals). 
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Kaplan Meier Plot 


EN 
o 


Analysis 2: The final analysis was 
conducted on June 29, 2021. Both 
Treatment À and B Groups showed a 


Oo 
wo 


survival benefit relative to the Control 
Group 


urvival Probability 


S 


The log-rank p-value was 0.004 


: + 
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© Treatment A @ Treatment B @ Control 


@Mattkumar__ 


QC 
Index de concordance de Harrell  $ 
On ne peut pas reprendre 1c1 l'exemple fait dans le cours théorique qui était exprès tout petit 
pour faire le calcul à la main. Nous allons donc reprendre les données de l'exemple précédent 
pour calculer l'index de concordance (exemple qui est malheureusement un peut trop gros 
pour faire les calculs à la main dans un temps raisonnable dans le cours théorique). 


Pour cela nous allons utiliser la fonction cindex( ) du package dynpred: 


$Stotal 


[1] 112 


Scindex 
[ET 0:35 
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Vue la valeur du C index, notre modèle ne fait donc pas mieux que le hasard (pile ou face). 
Donc le modèle n'est pas utile dans son état actuel! 


W 
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Exemple 287.: A justement de Weïibull pour données censurées 
à droite 
R 3.1.1 & R 2.12.2 


Nous allons ici vérifier si nous retrouvons les résultats des calculs faits dans Microsoft Excel 
suit à la démonstration faite dans le cours de Statistique théorique. 


Nous partons donc des mêmes données que celles pour l'analyse de Kaplan-Meier puisque ce 
sont celles que nous avons aussi utilisées pour le calcul dans Microsoft Excel après avoir fait 
le calcul à la main de l'estimateur de maximum de vraisemblance de la loi de Weibull à deux 
paramètres avec données censurées à droite: 


Fichier Edition Format Affichage 


Rémission;Censuré 
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Nous utilisons à nouveau le package survival avec la fonction survreg( ) . Puisque cette 
dernière renvoie une paramétrisation peu connue dans le cadre de la survie nous allons devoir 
les transformer: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


mydata<-read.csv("C:/tmp/KaplanMeier.csv",header=T,sep=";:") 


> 
> library(survival) 
> fit<-survreg(Survimydataf$Rémission,mydataf$Censuré)-1,dist="weibull") 
> Et 
Call: 
survreg{(formula = Survimydata$Rémission, mydata$Censuré) + 1, 

dist = "weibull") 


Coefficients: 
{Intercept) 
3.519429 


Scale= 0.7366973 


Loglikimodel)= -41.7 Loglik(intercept only)j= -41.7 
n= 21 
> alpha<-1/fit$scale NS 
> alpha 
C1] 1:353735 
> beta<-exp(coefi(fit)) 
> beta 
({Intercept}) 
33.76515 
> | 


Donc pour le paramètre de forme nous obtenons 1.35 (à comparer avec Microsoft Excel où 
nous avions obtenu 1.18 et Minitab où nous avions obtenu 2.50) et pour le paramètre d'échelle 
33.76 (à comparer avec Microsoft Excel où nous avions obtenu 27.16 et Minitab où nous 
avions obtenu 26.02). 
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Maintenant pour obtenir au moins le graphique d'ajustement comme le font au minimal les 
logiciels commerciaux et sans passer son temps à recréer la roue avec un script 1l va falloir 
d'abord télécharger la version 2.12.2 de R disponible sur cette page: 


http://cran.r-project.org/bin/windows/base/old/ 
et ensuite télécharger en local le package weibulltoolkit disponible ici: 


http://www.foxgo.net/10/post/2011/10/weibull-toolkit-for-r.html 


Une fois l'installation de R 2.12.2 effectuée ainsi que celle du fichier Zip: 


Fr RGuï - [R Console] 


R Fichier Edition Voir Misc | Packages Fenêtres äide 

Charger le package. 
pe 
Choisir le site miroir de CRAN... 


Copyright (C) 2011 TH Choisir les entrepôts. M uti 
ISBN 3-900051-07-0 Installer le(s) package(s).… 
Platform: i366-pc-mir Mettre à jourles packages... 


Installer lefs) Ppghage(s) depuis des Fichiers zip... 


R est un logiciel li 
Vous pouvez le redistribuer sous certaines conditions. 
Tapez 'licensei(j' ou 'licencelj' pour plus de détails. 


Une fois l'installation faite, nous pouvons utiliser sans autre le package: 


CO 


Ft RGuïi - [R Console] AE] EX 
R Fichier Edition Voir Misc Packages Fenêtres Aide -|5{x| 


SIA] 


El 


> library{iweibulltoolkit) 
> data<-Suryitime=c(6,6,6,6,7,9,10,10,11,15,16,17,19,20,22,23,25,32,32,34,35), 
+ event=t(1,1,1,0,1;:0,1,0,0,1;,1.0,0,0,1;1;:0;0,0,0,D)) 
> dataplot<-plot.wbidata,col="blue",is.plot.legend=FALSE) 
Message d'avis : F 
In plot.wb(idata, col = "blue", is.plot.legend = FALSE) 
Pot Monte Carlo pivotal CE only work for uncensored data. 
> 


Ici) 


Ce qui donnera: 
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 RGui - [R Graphics: Device 2 (ACTIVE)] 


R Fichier Historique Redimensionnement Fenêtres -15/x! 
1 
Weibull Plot 
0.1 05 1 5 10 50 100 500 1000 


Unreliability [%] 


0.1 0.5 1 5 10 50 100 500 1000 


R 


Time To Failure 


Figure 262 Graph de Weïbull d'analyse de survie pour données censurées 


En enlevant le paramètre is.plot.legend=FALSE nous obtenons une légende un peu 
envahissante: 


? RGui - [R Graphics: Device 2 (ACTIYE)] 


IR Fichier Historique Redimensionnement Fenêtres -15/x| 
Weibull Plot 
0.1 05 1 5 10 50 100 500 1000 


(Time To Failure ; Unreliability [36]) 
curve (MRR, X on YŸ) 

beta (shape slope) = 1.978 

eta (scale) = 22.8 

n (fail| cens.) = 21 (9112) 
r#21CCC*2 = NA | 0.8515NA 


R = 1000 
Conf. level = 90 [%] 


Unreliability [9] 


B10=2.736 | 7.308 | 12.52 
B5=1.44915079]9838 
B1 = 0.3283| 2.228 | 5.897 


0.1 0.5 1 5 10 50 100 500 1000 


Time To Failure 
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Ou sinon avec l'ensemble des packages abrem suivants qui ne nécessitent pas de télécharger 
une vieille version de R: 


abremPivatals_0.2.8.zip 
debias_0.1.9zip 

LU pivotals_0.1.10zip 

Lh abrem_0.1.17zip 


Et en les installant à ce jour (début 2015) aussi manuellement, nous avons: 


> library(abrem) 
> AppBCData<-data.frame( time=c(6, 1040: 11:19:16: 17,;19,20,22:23,29;:38,38:94:3591; 
+ SventAecil,1l;:1:0,1;0;1,0,0;,1;:1,:0; :0,0;:D0;:60)1 
> FigC.1<-ibrem(AppBCData, pch=2) 
> FigC.i<-abrem.fit (FigC.i, col="blue") 
> FigC.1<-abrem.confiFigC.i, col="darkgreen") 
Message d'avis : 
In FUN(X[[1L]], ...) 
calculateSingleConf: Currently, MC Pivotal bounds for ne + censored data 
are still experimental and probably too optimistic. 
> plot(FigC.i, xlim=c{i1,500), vlim=c(.01,.90), 
+ NES C-1 with added Beta Binomial Bounds'",legend.text.size=0.6) 
> 


Figure C-1 with added Beta Binomial Bounds 
1 5 10 50 100 500 


&  ranks = median 

n (fail | cens.)= 21 (@ 1 12) 
weibull2p Gr, xony) 

beta = 1.978 

eta = 228 

r2 | CCC*2 = 0.8007 | 0.8423 (BAD) 
pr = 4.64 (5=10000) 


Unreliability [3] 


— Bdives, type = ‘mcopivotals" 
CL= 90 [#], $ = 10000 
B10 = 4.038 | 7.308 | 10.46 
B5 = 2.17 | 5.079 | 8.148 
B1=0.5198 | 2.228 | 4.876 


10 50 100 


Time To Failure 
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Exemple 288.: Régression à modèle de hasard proportionnel 


de Cox 
R 3.02 


Nous allons reprendre ici exactement le même exemple à hasard proportionnel non stratifié 
dépendant du temps que celui fait dans le cours théorique après la démonstration 
mathématique (pénible) des notions fondamentales de ce modèle... 


Nous allons pour cela utiliser la commande coxph(}) du package survival: 


KR Fichier Edition Voir Misc Packages Fenêtres Aide 


library(survival) 
test<-list (start=c(0,0,0,0), 
stop=c(6,98,189,374), 
event=ci(1,1,1,1), 
BMI=c(31.4,21.5,27.1,22.7)) 
summary (coxph(Survistart,stop,event)-BMI,test)) 
Call: 
coxphiformula = Survistart, stop, event) + BMI, data = test) 


n= 4, number of events= 4 


coef expicoef) se(coef) z Pr(>lz|l) 
BMI 0.2227 1.2495 0.2161 1.031 0.303 


expicoef) expi-coef) lower .95 upper .95 
BMI 1.249 0.8003 0.8181 1.908 


Concordance= 0.667 (se = 0.245 
Rsquare= 0.263 (max possible= 
Likelihood ratio test= 1.22 on 
Wald test = 1.06 on 
Score (logrank) test 1.24 on 


> | 


Nous retrouvons donc le même résultat qu'à la main (et qu'avec MedCalc!) pour le coefficient. 
Pour le reste, cela sort à ce jour du contenu du cours théorique! 


Les statistiques du rapport de vraisemblance, de Wald et du score chi carré au bas de la sortie 
sont des tests asymptotiquement équivalents de l'hypothèse nulle omnibus que tous les f sont 
nuls. Nous voyons ici que nous ne pouvons pas rejeter cette hypothèse... 


Et au niveau graphique: 
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> model<-coxph(Surv(start,stop,event)-BMI,test) 

> plot (survfit (model) ,col=c(4),1ty=1,xlab="weeks",ylab="survival", main="Cox Model") 
> grid) 

> na ("bottomleft",col=c(4),1lty=1,legend=c{("deaths")) 

> 


Cox Model 


u 
! 
—<. 
+ 
n 
n 
n 
n 
n 
n 
n 
u 
n 
n 
n 
! 
u 
n 
H 
— 
% 
n 
: 
n 
n 
n 
n 
n 
n 
n 
n 
n 
! 
n 
n 
H 
— 
* 
n 
n 
n 
n 
n 
n 
n 
n 
: 
n 
n 
! 
n 
n 
H 
—_ 
* 
n 
n 
n 
n 
n 
n 
n 
n 
n 
n 
n 
! 
ï 
n 
nl 
_ 
* 
n 
: 
n 
n 
n 
n 
n 
n 
: 
n 
: 


Figure 263 Graphique de survie de Cox 
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Exemple 289.: Comparaisons des courbes de Survie de 
Kaplan-Meier, Cox, Aalens, paramètriques (exponentiel et 


Weibull) et par forêts aléatoires 
R 3.0.2 


L'exemple qui suit est repris et traduit de l'article suivant de Anri Smith (2020-04-03): 


https://rstudio-pubs- 
static.s3.amazonaws.com/611640 351fb7c7d8fd4ae6bf6dc27dbb2f1fb7.html 


Nous allons reprendre les mêmes données que dans le cours théorique: 


R 
R File Edit View Misc Packages Windows Help 
> mydata<-read.csv("c:/tmp/KaplanMeier Groups.csv",header=T,sep=";") 
> mydata 

Rémission Censuré Groupe 
1 6 1 6-MP 
2 6 1 6-MP 
3 6 1 6-MP 
4 6 [9] 6-MP 
5 7 0 6-MP 
6 g (e] 6-MP 
Y 10 L 6-MP 
8 10 (e] 6-MP 
9 11 (e] 6-MP 
10 13 1 6-MP 
LE 16 1 6-MP 
12 17 (e] 6-MP 
13 19 (e] 6-MP 
14 20 (e] 6-MP 
15 22 1 6-MP 
16 23 1 6-MP 
17 25 (e] 6-MP 
18 32 (e] 6-MP 
19 32 [9] 6-MP 
20 34 (e] 6-MP 
21 35 (e] 6-MP 
22 1 1 Placebo 
23 1 1 Placebo 
24 2 1 Placebo 
25 2 1 Placebo 
26 3 1 Placebo 
27 4 1 Placebo | 
28 4 1 Placebo 
29 5 1 Placebo 
30 5 1 Placebo 
31 8 1 Placebo 
32 8 1 Placebo 
33 8 1 Placebo 
34 8 1 Placebo 
35 8 1 Placebo 
36 11 1 Placebo 
37 11 1 Placebo 
38 12 1 Placebo 
39 12 1 Placebo 
40 15 1 Placebo 
41 17 1 Placebo 
42 22 1 Placebo 
43 23 1 Placebo 
>| 
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Modèle de Kaplan-Meier 


Faisons d'abord une analyse de Kaplan-Meier traditionnelle: 


FE 


QR R Console s | |Xx 


> library("survival") 
> Surv(mydata$Rémission, mydata$Censuré) 

[1] 6 6 6 6+ 7 S+ 10 10+ 11+ 13 16 17+ 19+ 20+ 22 23 25+ 32+ 32+ 
[20] 34+ 35+ 1 1 2 2 3 4 4 5 5 8 8 8 8 8 1L 11 12 
[39] 12 15 17 22 23 


> 

> mykm <- survfit (Surv(Rémission, Censuré) - Groupe, data = mydata) 

> plot (mykm, mark.time = TRUE) 

> 

MR FR Grapt Device 2 (ACTIVE ([Ss |E = | 
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Ou avec la fonction autoplot( ) du package ggfortify: 
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> library("ggfortify") 
> autoplot (mykm) 


Exécutons un test de log-rank: 


2 = EOn 5) _, n(,1) 


VE 


avec la fonction survdiff( ): 
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R RGui (64-bit) - [R Console] — 


GR File Edit View Misc Packages Windows Help IE 


EC) 


> library("ggfortify") 
> autoplot (mykm) 
> survdiff(Surv(mydata$Rémission, mydata$Censuré) - Groupe, data = mydata) 
Cal1: 
survdiff (formula = Surv(mydata$Rémission, mydata$Censuré) - Groupe, 
data = mydata) 


N Observed Expected (O-E)"2/E (O-E)"2/V 
Groupe=6-MP 21 9 19.5 5.67 TE 
Groupe=Placebo 22 22 11,5 9.64 17,1 


Chisq= 17.1 on 1 degrees of freedom, p= 4e-05 
>| 


Modèle à hasards proportionnels de Cox 


Faisons maintenant l'analyse sur les mêmes données mais avec le modèle à hasard 
proportionnel de Cox: 


| MR RGui (64-bit) - [R Console] — 


MR File Edit View Misc Packages Windows Help - SX 


EBSOSCE 


| > (cox<-coxph(Surv(Rémission, Censuré) - Groupe, data = mydata)) 
l'CAIL: 
| coxph(formula = Surv(Rémission, Censuré) - Groupe, data = mydata) 


| coef exp(coef) se(coef) Z p 
| GroupePlacebo 1.5821 4.8649 0.4103 3.856 0.000115 


Likelihood ratio test=16.9 on 1 df, p=3.933e-05 

|n= 43, number of events= 31 

| > summary (COX) 

Call: 

| coxph(formula = Surv(Rémission, Censuré) - Groupe, data = mydata) 


n= 43, number of events= 31 


coef exp(coef) se(coef) z Pr(>1zl) 
| GroupePlacebo 1.5821 4.8649 0.4103 3.856 0.000115 


exp(coef) exp(-coef) lower .95 upper .95 
GroupePlacebo 4.865 0.2056 2.177 10.87 


Concordance= 0.689 (se = 0.041 ) 

Likelihood ratio test= 16.9 on 1 df, p=4e-05 
| Wald test = 14.87 on 1 df, p=le-04 
Score (logrank) test = 17.64 on 1 df, p=3e-05 


>| 
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Là aussi on peut faire un graphique: 


> autoplot (survfit (cox)) 
>| 


Modèle de régressaion de Aalen 


Maintenant voyons avec la méthode de régression de Aalen que nous n'avons pas étudié dans 
le cours théorique avec la fonction aareg( ): 
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à 


— — 
MR Console 
> (aalen <- aareg(Surv(Rémission, Censuré) - Groupe, data = mydata)) ä 
Cali: 
aareg(formula = Surv(Rémission, Censuré) - Groupe, data = mydata) 

n= 43 
17 out of 17 unique event times used 
slope coef se(coef) z p 
Intercept 0.040 0.0186 0.0062 3.00 0.002700 
GroupePlacebo 0.179 0.0543 0.0156 3.48 0.000506 
Chisq=12.09 on 1 df, p=0.000506; test weights=aalen 
> autoplot (aalen) 
> | 
MR Graphics: Device 2 (ACTIVE) 
GroupePlacebo Intercept 
4: 10- 
variable 
—— GroupePlacebo 
= iIntercept 
05- 
2- 
0- 00- 
! : : : 1: : : 1: : ! 
0 5 10 15 20 0 5 10 15 20 


Modèle paramétrique exponentiels et Weibull 


Toujours sur les mêmes données faisonss une analyse avec les modèles paramétriques vus 
dans le cours théorique avec la fonction flexsurvreg( ) du package flexsurv: 
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MR RGui (64-bit) - [R Console] _ 


| File Edit View Misc Packages Windows Help -# x 


SIA 


> library("flexsurv") 

| > (weib_ mod<- flexsurvreg(Surv(Rémission, Censuré) - Groupe, data = mydata, dist = "weibull")) 
| Call: 

| flexsurvreg(formula = Surv(Rémission, Censuré) - Groupe, data = mydata, 

dist = "weibull") 


Estimates: 
| data mean est L935% U935% se exp(est) L95$ US35% 
| shape Na 1.391 1.048 1.847 0.201 NA Na Na 
| scale NZ 33.384 20.585 54.141 8.236 Na Na Na 
GroupePlacebo 0.512 —-1.261 -1.853 -0.669 0.302 0.283 0.157 0.512 


ÎN = 43, Events: 31, Censored: 12 
Total time at risk: 549 
Log-likelihood = -109.3629, d£f = 3 

| AIC = 224.7257 


> (exp_ mod <- flexsurvreg(Surv(Rémission, Censuré) - Groupe, data = mydata, dist = "exp")) 
Call: 

flexsurvreg(formula = Surv(Rémission, Censuré) - Groupe, data = mydata, 

| dist = "exp") 


Estimates: 

| data mean est L95% U95% se exp(est) L95% U95#% 

| rate NA 0.02507 0.01304 0.04818 0.00836 Na NA NA 
GroupePlacebo 0.51163 1.53012 0.75459 2.30564 0.39568 4.61871 2.12674 10.03062 


N = 43, Events: 31, Censored: 12 
Total time at risk: 549 
Log-likelihood = -111.6065, d£f = 2 
AIC = 227.213 


>| 


Et graphiquement en superposant les deux: 
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L 


| 
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‘Lie se (x) 
> plot(weib mod) 
> lines(exp mod, col="blue") 
> | 

| 
GR KR Graphics: Device 2 (ACTIVE) (se |x | 


15 20 25 30 35 


Arbres de Survies 


Nous entraînons d'abord le modèle avec la fonction ranger() du package ranger: 
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MR RGui (64-bit) - [R Console] — O 


GR File Edit View Misc Packages Windows Help _ EX 


> library("ranger") 

> (streefit<-ranger (Surv(Rémission, Censuré) - Groupe, data = mydata, 
+ importance = "permutation", splitrule = "extratrees", seed = 43)) 
Ranger result 


Call: 
ranger (Surv(Rémission, Censuré) - Groupe, data = mydata, importance = "permutation", $ 


Type: Survival 
Number of trees: 500 

Sample size: 43 

Number of independent variables: 1 

Mtry: L 

Target node size: 3 

Variable importance mode: permutation 
Splitrule: extratrees 
Number of unique death times: 24 

Number of random splits: 1 

C0B prediction error (1-C): 0.488 

> | 

< > 


Et nous pouvons faire un graphique des temps de décès médians: 
QQ 
NS 

oO 

Ÿ 
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FE 


à! 


QR R Console [se |x| 
> fcalcul du temps de survie médian 
> death times <- streefit$unique.death.times 
> surv prob <- data.frame(streefit$survival) 
> med prob <-sapply(surv prob,median) 
> 
> #fplot de l'arbre de régression de survie médian 
> plot (death times, med prob,type = "s", ylim = c(0,1), col = "red", lwd = 2, bty = "n", 
- ylab = "Survival Probability", xlab = "Temps en semaines", 
+ main = "Survival Tree Model\nAverage Survival Curve") 
>| 
QU R Graphics: Device 2 (ACTIVE | os | © | & 
Survival Tree Model 
Average Survival Curve 

a 
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Comparaisons KM, Cox et RF 


Tout est dans le titre! 


ME Console 


mykml <- survfit (Surv(Rémission, Censuré) - 1, data = mydata) 
mykmi <- survfit (Surv(Rémission, Censuré) - 1, data = mydata) 
kmdf <- data.frame (mykmlS$time, mykml$surv, KM = rep{"KM", 24)) 
names (kmdf) <- c("Temps en Semaines","Probabilité de Survie","Modèle") 


VVVYV 


coxfit <- survfit (cox) 
coxdf <- data.frame(coxfit$time,coxfitSsurv,COX = rep("COX", 24)) 
names (coxdf) <- c("Temps en Semaines","Probabilité de Survie","Modèle") 


rfdf <- data.frame (death _times,med prob,RF = rep("REF", 24)) 
names (rfdf) <- c("Temps en Semaines","Probabilité de Survie", '"Modèle") 


plotdf <= rbind(kmdf,coxdf,rfdf) 


p <- ggplot (plotdf, aes(x = plotdf{,1] , y = plotdf{,2] , color = plotdff,3])) 

p + geom step(size = 2) + labs(x = "Temps en Semaines", y = "Probabilité de Survie", 
color = "", title = "Comparison Piot of\n3 Main Survival Models") + 
theme (plot.title = element text (hjust = O.5)) 


VEN VVY VV YVNVN VV 


QU R Graphics: Device 2 (ACTIVE) 


Comparison Plot of 
3 Main Survival Models 
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19. Plans d'expérience 


Le but ici va être de voir dans quelle mesure nous pouvons reproduire dans R les plans 
d'expérience vu dans le cours théorique et comparer les résultats au logiciel Minitab que nous 
avons utilisé dans le cours de Génie Industriel. 


Remarque: À ce jour (début 2014), R est très loin des possibilités des logiciels comme JMP 
ou Minitab pour les plans d'expérience mais rien ne dit que dans quelques années... 


Exemples 290.: Générer un plan factoriel complet (sans 


package) 
R 3.0.2 


Nous allons ici générer un plan d'expérience complet pour pouvoir prendre nos mesures avec 
la fonction expand.grid( ) : 


ra 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


monplan<-expand.grid(tapis=c("ville","route") ,pression=segq(1.5,2.5,0.5) ,vitesse=c(40,50)) 
monplan 

tapis pression vitesse 

ville LS 

route 
ville 


route 
ville 
route 
ville 
route 
ville 
10 route 
11 ville 
12 route 
> 


© -J o O1 B © NH 


Le] 
D D D D Oh hi D ON ND D 
nunOoOoOoOoununnnoOCun 


Ensuite, n'oubliez pas que vous pouvez éditer directement les données dans R avec la 
commande edit(monplan). Ce sera tout pour le besoin le plus élémentaire imaginable.… 
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Exemples 291.: Constructions de plans d'expériences 
R 3.0.2 


Dans cet exercice, le lecteur n'aura pas besoin d'ouvrir de fichiers car le seul objectif 1c1 est de 
vérifier que R propose les plans d'expérience de base que nous avons étudiés dans le cours 
théorique de Génie Industriel sur le même sujet avant de passer à des exemples concrets. 


Concernant le fait d'aller plus loin avec les plans d'expérience, vous avez en gros deux 
alternatives: 


1. Vous installez et chargez le package RemdrPlugin.DoE: 


> library(RemdrPlugin.DoE) 
> | 


Lui À Commande 
Fichier Edition Données Statistiques Graphes Modèles Distributions Outils Aide 


Import 
<Pas de donnees > | J° Editer I €] Visualiser | : 


Export 


ScriptR lR Markdown Create design 
Inspect design Screening design … 


Modify design Regldr {Fractional) Factorial … 
Analyze design === 


--- General 
General Full Factorial Experiments … 
Help on Experimental Design... General orthogonal arrays … 
Help on Using the Design Menu. Pl ----------- D-aptimal 
About RemdrPlugin.DoE Candidate design … 
D-optimal design 


ons Combine ------------------ ettre 
Taguchi inner-outer array 


mms. ( Quantitative ------------- 


Central composite … 
Box-Behnken … 
Space filling latin hypercube … 


Info 2-level designs 

Info general designs 
Info quantitative designs 
Info D-optimal designs 


« | 


Messages 


[1] NOTE: R Commander Version 2.0-4: Thu àäpr 03 11:08:01 2014 
[2] AVIS: La version Windows de R Commander fonctionne mieux sous RGui 
avec l'interface de document unique (SDI): see ?Commander 


« | 
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2. Installer et utiliser le package DoE.base et toute faire en ligne de commande: 
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> library(DoE.hbase) 
> | 


Pour les raisons déjà citées au début de cet e-book, je vais privilégier la deuxième méthode. 
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Plans factoriels 
Plan factoriel complet général 
Nous allons commencer par générer le même plan factoriel complet général que dans le cours 


théorique de Génie Industriel en utilisant donc la commande fac.design() du package 
DoE.base: 


né RGui (64-bit) - [F 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> library(DoE.base) 

> FG <- fac.design(infactors= 3 ,replications= 

+ 1 ,repeat.only= FALSE ,blocks= 1 ,randomize= 
+ TRUE ,seed= 3788 ,nlevels=c( 2,2,3 ), 

+ factor.names=list( â=c(1,2) ,B=c{(1,2),C=ci1,2, 
+ aida 

creating full factorial with 12 runs ... 

> FG 


L 
2 
3 
4 
S 
6 
7 
8 
3 


Ha 
O 
DhHhNNENENEH EH 


HN HN OH HN N EH NH tm 
H H H Hi WU N° N & NON © A 


11 
1222 3 

class=-design, type= full factorial 
> | 


C'est juste mais la sortie est moins pertinente qu'avec Minitab. 
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Analyse conjointe 


Nous avons vu dans le cours théorique que l'analyse conjointe consiste simplement dans le cas 
linéaire à faire un plan d'expérience factoriel complet mais appliqué au domaine du Marketing 
afin de trouver les combinaisons optimales des propriétés d'un produit qui maximise la 
préférence des consommateurs. 


Donc d'abord à partir du package conjoint nous créons rapidement un plan factoriel complet 
des trois propriétés (Marque, Couleur, Prix) qui nous intéressent dans cette étude à l'aide de la 
fonction caFactorialDesign( ) : 


library(conjoint) 
experiment<-expand.grid( 
Marque<-c("A","B","C"), 
Couleur<-c("Rouge","Bleu"), 
Prixc-c{"50","100","150°)) 
design<-caFactorialDesign(data=experiment, type="full") 
colnames (design) <- c("Marque","Couleur","Prix") 
print (design) 

Marque Couleur Prix 

Z Rouge 50 

Rouge 50 
Rouge 50 

Bleu 50 

Bleu 50 

Bleu 50 
Rouge 
Rouge 
Rouge 

Bleu 

Bleu 

Bleu 

Rouge 

Rouge 

Rouge 

Bleu 

Bleu 

Bleu 


VV Y 


L 
2 
3 
£ 
5 
6 
- 
8 
9 


Q We Q WE Q Ù nm Q W » Q W m Q 


Dés lors en associant les préférences à chacune des ces combinaisons nous avons: 
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> Preferences<-c{(5,7,10,8,9,9,5,5,7,5,6,7,0,3,5,2,5,6) 
> model<-caModel (Preferences, design) 
> print (model) 


Call: 
im(formula = frml) 


Residuals: 
Min 1Q Median 3Q Max 
-1.33333 -0.48611 0.08333 0.47222 1.33333 


Coefficients: 

Estimate Std. Error t value Pr(>lt|) 
(Intercept) Herr 0.22222 26.000 6.4e-12 *** 
factor ((xSMarque)1 -1.61111 0.31427 -5.127 0.000251 *** 
factor (xSMarque)2 0.05556 0.31427 0.177 0.862632 
factor (x$Couleur)1 -0.55556 0.22222 -2.500 0.027915 * 
factor (xSPrix)1 2.22222 0.31427 7.071 1.3e-05 *** 
factor (x$SPrix)2 0.05556 0.31427 0.177 0.862632 


Signif. codes: O ‘“#***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 *.’ 0.1 * 
Residual standard error: 0.9428 on 12 degrees of freedom 
Multiple R-squared: 0.9004, Adjusted R-squared: 0.8589 
F-statistic: 21.7 on 5 and 12 DF, p-value: 1.251e-05 


> | 


Il s'agit donc d'une simple régression linéaire (logique) mais dont la forme communiquée peut 
perturber plus d'un non spécialiste: 


1. Certains niveaux de facteurs sont absents et ceux qui ont étudié la théorie savent 
pourquoi et les autres non... 


2. Les valeurs optimales des variables ne sont pas données automatiques 


Nous avons aussi avec la fonction calmportance( ) du même package les importances 
relatives des trois facteurs dans l'ordre d'entrée (même si en amplitude nous somme très loin 
des valeurs obtenues dans le cours théorique 63.02%, 5.76%, 31.22% l'ordre d'importance au 
moins... correspond...): 
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RGui (32h59 [R Console 
M Windows Help 


SÉOBCE 


> calmportance (Preferences,design) 
| [1] 36.08 12.66 51.27 
> 
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Plan factoriel (à deux niveaux) fractionnaire 


Maintenant voyons comment générer un plan fractionnaire (dans le cas présent ce sera un plan 
factoriel fractionnaire comme celui vu en cours) où nous laissons le soin à R de choisir les 
meilleurs générateurs (alias). Nous allons utiliser la commande FrF2() du package FrF2: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


library(FrF2) 
FFD<-FrF2 (nruns= NULL ,nfactors= 3,blocks=1,alias.block.2fis=FALSE, 
ncenter=0,MaxC2=FALSE,resolution=3,replications=1,repeat.only=FALSE, 
randomize=TRUE,seed=21018,factor.names=list (A=c(-1,1),B=c(-1,1),C=ci-1,1))) 
FFD 
1 B C 
-1 1-1 
1 -1 -1 
Z 1 
1 =1 À 
“SE type= FrF2 
> 


« 


Nous voyons déjà dans la fenêtre de sessions que nous avons le même générateur et les 
mêmes alias que ceux vus en cours. 


Avec la commande aliasprint() on peut avoir les alias (qui sont donc les mêmes que Minitab 
et que dans le cours théorique): ® 


R Fichier Edition Voir Misc Packages Fenétres Aide 


> aliasprint (FFD) 
$legend 
[1] = B=B C=C 


$rmain 
[1] à=BC B=iC C=2B 


$£iz 
character (0) 


> | 
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Le package quality Tools permet selon mon opinion d'obtenir un résultat plus propre d'abord 
avec la fonction fdo.frac ) : 


 RGu G2-b)-(RC 
R Fichier Edition Voir Misc Packages Fenêtres Aide 


> fracD=fracDesign(k=3,gen='C=12B!) 
> summary (fracD) 
Information about the factors: 


high 
natie 
unit 
type numeric numeric numeric 


StandOrder RunOrder Block &Z B C y 
3 1 1 -1 1 -1 NA 
2 2 1 —-1 -1 NA 
4 8 À, 1 1:Nà 
1 4 -1 -1 1 NA 


Defining relations: 
ABC Columns: 1 2 3 


Resolution: III 


> | 
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et avec la fonction aliasTable( ) nous pouvons obtenir les alias et avec confounds(}) les 
confusions et nous voyons bien que nous retombons sur les mêmes que dans le cours 
théorique: 


K Fichier Edition Voir Misc Packages Fenêtres Aide 


Bale 


> aliasTable (fracD) 
C AC BC ABC 
Identity O0 O O0 É 
G © ‘# 0 
GB 6 (a) 
ZI ©  &G 0 
> confounds (fracD) 
Defining relations: 
ABC Columns: 1 2 3 


Resolution: ETI 


Alias: Structure: 
is confounded with 
is confounded with 
is confounded with 


> | 
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Plan factoriel (à deux niveaux) de screening (résolution IIT) 


Maintenant voyons le vrai intérêt d'un logiciel pour la base des plans d'expérience. Comme 
nous l'avons mentionné dans le cours de statistique théorique, au-delà de 4 facteurs 1l devient 
pénible de déterminer la matrice d'Hadamard pour les plans fractionnaires et les alias 


optimaux. Alors voyons comment R nous facilite la tâche. 


Nous ferons comme dans le cours théorique et avec Minitab, nous allons prendre 5 facteurs et 
choisir le complet, le résolution V et le résolution IIT (comme le rappelle le schéma suivant de 


Minitab): 


Créer un plan factoriel - Afficher les plans disponibles Sa) 


Plans factoriels disponibles (avec résolution) 


Facteurs 
Esssl 21:35 |:4 | SRG 7 NS 9 "19 )) 22722 "23 | 149 |" 25 
4 
8 


Plans de Plackett-Burman Résolution III disponibles 
Facteurs Essais Facteurs Essais Facteurs Essais 


2-7  12,20,24,28,...,48 20-23 24,28,32,36,...,48 36-39  40,44,48 
8-11  12,20,24,28,..,,48 24-27  28,32,36,40,44,4 40-43 44,4 
12-15  20,24,28,36,...,48 28-31 32,36,40,44,4 44-47 4 
16-19  20,24,28,32,...,48 32-35  36,40,44,48 


Een re 


ou le schéma équivalent donné par l'interface DOE WYSIWYG: 
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You must CLOSE thus window for continuing work with the design dialogue. 


number of runs 


|__| 8] 16] 32] 64] 128] 256] 512] 1024] 2048] 4096 
Dre nn ne only the MA design 


uw 
_ 
£ 
© 
(A 
Le 
5 
nn 
ÿ 
ô 
= 
5 
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Resolution III up to 31 63 127 factors. 
Resolution IV up to 32 64 80 160 factors. 
Resolution V up to number of factors: 
Resolution VI up to nurnber of factors: 
First design is MA up to nurmnber of factors: 

31 63 127 36 29 28 32 


Additional irrégular resolution V designs from general orthogonal arrays menu: 
128 runs {up to 15 factors), 256 runs (up ta 19 factors), 2048 runs (up to 63 factors) 
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ou encore par la fonction fracChoose( ) du package quality Tools: 


R Fichier Historique Redimensionnement Fenêtres 


number of variables K 
3 4 5 6 7 8 9 


number of runs N 


qui lors du clic sur un des cas permet de récupéré le plan dans l'espace de travail R. 


Commençons donc par le plan factoriel complet à 5 facteurs de 2 niveaux: 
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GA R 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> FFG<-fac.design(infactors=5,replications=1i,repeat.only=FALSE,blocks=1,randomize=TRUE,seed= 16206, 
+ nlevels=ci2,2,2,2,2) ,factor.names=list(A=c(1,2),B=ci1,2),C=c(1,2),D=c(1,2) ,E=c(1,2))) 

creating full factorial with 32 runs 

> FFG 
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Il n'y a donc ici évidemment aucun alias: 


Ensuite, nous créons un plan factoriel fractionnaire de résolution V: 
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FFD<-FrF2 (nruns=NULL,nfactors=5,blocks=1,alias.block.2fis=FALSE,ncenter=0,MaxC2=FALSE, 
resolution=5,replications=1i,repeat.only=FALSE,randomize=TRUE,seed=11148, 
factor.names=list (A=c(-1,1) ,B=c(-1,1),C=c(-1,1),D=c{-1,1) ,E=c(-1,1))) 

FFD 


V++v 
1 


h. :l 
HBHHBRHHHHHH A 

! l 

HÉHHHHRHE 


© -J o On Bb © N° H 


0 


-1 
-1 
-1 1 

1 -1 
16 -1 -1 1 -1 
class=-design, type= FrF2 
> aliasprint (FFD) 
$legend 

[1] À=A B=B C=C D=D E=E 


Ce | VU OU 
HHHHHHRHH 


HHHHHH 
in + © D h © 
CR | 
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[121] 


[1] no aliasing among main effects and Zfis 


> | 


« 


L 
Ÿ 
& 
Nous voyons bien les 16 essais comme dans le cours théorique et Minitab par contre les alias 
ne son pas communiqués. 


Maintenant voyons le plan factoriel fractionnaire {4 de résolution II (plan de screening) Il est 
très intéressant de voir comment les alias vont être choisis: 
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SFD<-FrF2 (nruns=NULL,nfactors=5,blocks=1,alias.block.2fis=FALSE,ncenter=0 ,MaxC2=FALSE, 
resolution=3,replications=1i,repeat.only=FALSE,randomize=TRUE,seed=4415, 
factor.names=list (A=c(-1,1) ,B=c(-1,1),C=c{(-1,1),D=c{-1,1) ,E=c(-1,1))) 
SFD 
1 5 €C D E 
1 1-1 -1 1 
1 —1 -1 -1 -1 
1 1 1-1 -1 
1 1-1 1 -1 
1 -1 -1 1 1 
1 -1 1-1 1 
1. ©. “E «Al: À 
8 -1 -1 1 1-1 
class-design, type= FrF2 
> aliasprint (SFD) 
$legend 
[1] À=A B=B C=C D=D E=E 


$main 
[1] à=BD=CE E=AD 


$fiz 
[1] BC=DE BE=CD 


> | 


L 
<Ÿ 
Le tableau et les alias sont conformes à Minitab mais la manière dont ils sont indiqués est très 
vague (contrairement à Minitab) et peut porter à confusion. 
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Plan factoriel de Plackett-Burman 


Maintenant, voyons les plans de Plackett-Burman que nous avons aussi étudié dans le cours 
de statistique théorique. Faisons l'exemple avec le plus petit nombre de facteurs où ces plans 
commencent à être vraiment intéressants comme nous l'avons vu dans le cours. Nous avons 

alors en utilisant la commande pb() du package FrF2: 


KR Fichier Edition Voir Misc Packages Fenétres Aide [-] 


phinruns=12,nfactors=4,randomize=TRUE) 
D 
-1 1 -1 
1 -1 
L © 
1 -1 
-1 -1 
1 
1 
-1 
1 
-1 
LL À 1 -1 
12 1 -1 1 1 
class=design, type= pb 


vY 


1 
2 
3 
4 
5 
6 
d 
8 
9 


Nous observons donc que la fenêtre de session n'affiche pas les alias (ce qui est dommage 
puisque les plans de Plackett-Burman sont des plans à résolution III comme nous l'avons dit 
en cours). Il n'est pas non plus possible de les obtenir avec la command aliasprint( ) . 


Le plan obtenu ci-dessus n'est pas le même qu'avec Minitab et ne correspond donc pas à 
l'algorithme de Plackett-Burman que nous avons vu dans le cours théorique. Donc à creuser. 


Le plan obtenu est lui plutôt surprenant. Nous n'avons que 4 colonnes pour les facteurs de 
base. Certes 1l n'est pas utile d'en avoir plus mais cela aurait été sympathique de pouvoir 
choisir... 
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Plan factoriel de Taguchi 


Maintenant, pour en finir avec la base des plans d'expérience, voyons encore les plans de 
Taguchi. Pour cet exemple, nous allons utiliser le magnifique package qualityTools et la 
commande taguchiDesign() qui y est intégrée. Nous avons alors pour construire le même 
plan de Taguchi que dans le cours théorique et Minitab: 


ne, RGui (64-bit} - [RC 
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library(qualityTools) 
set.seed(1234) 

tdo = taguchiDesign("Ls 2",randomize=TRUE) 
tdo 

StandOrder RunOrder Replicate 
1 
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Voici si jamais la liste des plans de Taguchi tels qu'indiqués dans l'aide de la commande (juste 
pour info et en comparaison à Minitab): 


“L4_2” for three two-level factors 

“L8_ 2” for seven two-level factors 

“L9_3” for four three-level factors 

“L12 2” for 11 two-level factors 

“L16 2” for 16 two-level factors 

“L16 4” for 16 four-level factors 

“L18 2 3” for one two-level and seven three-level factors 
“L25 5” for six five-level factors 

“L27_3” for 13 three-level factors 

“L32 2” for 32 two-level factors 

“L32 2 4” for one two-level factor and nine four-level factors 
“L36 2 3 a” for 11 two-level factors and 12 three-level factors 
“L36 2 3 b” for three two-level factors and 13 three-level factors 
“LS0 2 5” for one two-level factor and eleven five-level factors 
“L8 4 2” for one four-level factor and four two-level factors 
“L16 4 2 a” for one four-level factor and 12 two-level factors 
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“L16 4 2 b” for two four-level factors and nine two-level factors 
“L16 4 2 c” for three four-level factors and six two-level factors 
“L16 4 2 d” for five four-level factors and two two-level factors 
“L18 6 3” for one six-level factors and six three-level factors 


Ce que nous pouvons directement obtenir dans R: 
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> taguchiChoosei{) 


1 L4_2 L8 2 L9 3 L12 2 L16 2 L16_4 


Z L18 2 3 L25 5 L27 3 L32 2 L32 2 4 L36 2 3 a 
3 L36 2 3 b L50 2 5 LS 4 2 L16 4 2 a L16 4 2 b L16 42 c 
4 L16 4 2 d L18 6 3 


Choose a design using e.g. taguchiDesign("L4 2") 
> | 


Donc contrairement à Minitab ce package donne la table de Taguchi complète ce qui est plus 
confortable intellectuellement. Profitons donc p@ùr comparer par rapport à ce que nous avions 
dans le cours théorique en désactivant la randomization: 
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> tdo = taguchiDesign("Ls 2",randomize=FALSE) 

> tdo 

StandOrder RunOrder Replicate 
L L 


A 4 2 
le je 


ZA 4 
Re 


BHNHNN HN EH EH 
E-- 
FM 


HHHHHHHH 
DONNER EH je 
D NH HN NO hH H 
NN A 
DhNRNRN HET 
HN NH HN NN hH 
Dh ND Eh Q 
A A 

La LS 


L 
2 
3 
LE 
5 
6 
v 
8 
> 


C'est donc parfaitement conforme! 
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Maintenant, voyons si nous retrouvons ce plan de Taguchi avec le plan factoriel "classique" 
comme nous l'avons fait dans le cours théorique et Minitab en spécifiant les générateurs. Nous 
écrivons alors avec le package FrF2: 
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FrF2{(nruns=8,nfactors=7,generators=c("BC","AC","AB","ABC") ,randomize=FALSE, 
factor.names=list (ä=c(i-1,+1) ,B=c(-1,+1),C=c(-1,+1),BC=c(-1,+1) ,AC=c(-1,+1), 
AB=cC(-1;#1).ABC=c(-=1,#+1)11 

1 B C EC AC 
-1 -1 -1 


1 -1 -1 
-1 1 -1 
1 1 -1 
-1 -1 1 
1 -1 1 
-1 L 
1 
lass=design, type= FrF2.generators 


VO JJanbo NH 


“ 


Ce qui à part l'ordre, est parfaitement conforme au tableau obtenu dans le cours et où l'écriture 
est beaucoup plus logique et intuitive à mon goût que dans Minitab: 


L 


+|+|+ 


| 


+|+|+ 
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Plan de criblage définitif (definitive screening design) 


Comme pour les autres plans, nous allons d'abord ici juste vérifier que nous arrivons à 
retomber sur plan d'expérience vu dans le cours théorique. Ici le but va être de vérifier si on 
peut effectivement reproduire le plan C(m=12,17=2) vu dans le cours théorique (on va pas tous 
les faire non plus..….). 


Donc toujours avec le package dawr (relatif au livre Design and Analysis of Experiments with 
R) avec la fonction DefScreen( ): 


8 File Edit View Misc Packages Windows Help on 


> library("daewr") 
> DefScreen(m=12, c=0, randomize=FALSE) 
A BC DE FF GG H J K L M 


1 DL =L LL L=L 2 EL L-=12 L 
2 Oo 2, ZE L=1 EL =1 =1 =2 LL 
3 L © ZL 2 LOL OL 1 À -1--1 -1 
È L, Q=L =1 =T =1 =L =1 =L LL 1 T 
5 11 0-1 1 1-1 1 1-1 1 1 
6 1-12 Q LL LE LL 1 LL =1 = 
7 LL SL © Æ =L LL L'=L=L L 
BOL LVL L-QTL LA LT EL LL — 
9 L 1 2, 2, OL LL 2 LL 1; À 
10 =L =1 1 =2, OO À =L 1 = =1=L 1 


11 01 -1 1 -1 1 0 1 1-1 1 -1 1 


Ce qui est bien conforme à ce que nous avons vu dans le cours théorique (à part que le format 
dans le cours théorique était plus. "lisible")! 
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Analyse et comparaison d'un plan d'expérience identique en factoriel complet 


général et factoriel à 2 niveaux 


Avant de passer au gros exercice fait à la main dans le cours théorique et dans Minitab il va 
être utile de commencer par un cas hyper simpliste qui avait consisté à résoudre à la main (et 


aussi dans Minitab) le système suivant: 


an :1+& (401+a3 (1.5) +43 (60)(1.5) = 32700 
ap -1+4(50i+& (1.5) +43(50)(1.5) = 32'680 
an :1+& (401 +43 (3) +3 (40)(3ÿ = 31710 
ap 1+&4 (501 +4 (3 +423(50)(3) = 33220 


Ce qui nous avait donné sous forme matricielle: 


40 15 60||& 32700 
50 15 751] & | |32"680 


40 3 120||a: | |31'710 
50 3 150/|[æ2| [33220 


El El El Li 


La solution déterminée avec la vitesse et pression seule avait donc été de: 


7 =39'"890-155x —4740x; +102%3 
® 
Vérifions cela avec R et comparons deux packages. 


Package FrF2 


D'abord nous construisons le plan factoriel (complet): 


Le 
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> Fd<-FrF2 (nruns=NULL,nfactors=2,blocks=1,alias.block.2fis=-FALSE,ncenter=0, 
+ MaxC2=FALSE,resolution=3,replications=1l,repeat.only=FALS$E,randomize=TRUE, 
+ seed=21950,factor.names=list (Vitesse=c(40,50),Pression=c(1.5,3))) 
full factorial design needed 
creating full factorial with 4 runs ... 
> Fd 

Vitesse Pression 
1 3 
2 1,5 È 
3 | 
4 1.5 
G 
> 2 


lass=design, type= full factorial 
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Nous rajoutons les distances (mesures sans répétitions): 
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> distances<-c(31710,32680,33220,32700) 
> Fd<-add.response (Fd,distances,replace=FALSE) 


> Fd 
Vitesse Pression distances 


40 3 31710 

50 125 32680 

s0û 3 33220 

40 LS 32700 
RC  — type= full factorial 
> 


Et nous lançons l'analyse: 


R Statistical Software 1858/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


ns, RGui (64-bit) - [R 
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> ModeleLineaire<-lmidistances-Pression+Vitesse+Pression:Vitesse,data=Fd) 
> ModeleLineaire 


Call: 
im.default (formula = distances - Pression + Vitesse + Pression:Vitesse, 
data = Fd) 


Coefficients: 
{Intercept]) Pressioni Vitessel Pressionli:Vitessel 
32577.5 -112.5 372.5 382.5 


> summary (ModeleLineaire) 
Call: 
im.default (formula = distances - Pression + Vitesse + Pression:Vitesse, 


data = Fd) 


Residuals: 
ALL 4 residuals are 0: no residual degrees of freedom! 


Coefficients: 


Estimate Std. Error t value Pri>|tl|) 
{Intercept}) 32577.5 Ni Ni Ni 
Pressioni -112. Ni Ni Ni 
Vitessel 272 Ni Ni Ni 
Pressioni:Vitessel 382. Ni Ni Ni 


Residual standard error: NaN on 0 degrees of freedom 
Multiple R-squared: L; idjusted R-squared: 
F-statistic: NaN on 3 and O0 DF, p-value: Ni 


Et nous voyons que bien qu'ayant défini un plan factoriel complet général, les coefficients: 
y 2 32577.5-372.5x +112.5x, +382.5x, 


sont donnés par rapport à un modèle aux variables codées (-1,1). Je n'ai pas trouvé la 
possibilité comme sur Minitab de pouvoir choisir si le modèle final devait être donné en 
variables codées ou non. 


Donc on ne pourra pas comparer le plan factoriel général complet au plan factoriel général au 
plan factoriel complet à 2 niveaux puisque ce deuxième nous est imposé! 
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Package qualityTools 


Nous créons le plan avec la fonction facDesign( ) : 


doe=facDesign(k=2) 
doe 
StandOrder RunOrder Block Z BB y 
3 L 1 -1 1 NA 
2 1 1 -1 NA 
4 3 1 1 1 Ni 
1 4 1 -1 -1 NA 


measures=c(31710,32680,33220,32700) 

response (doe) =data.frame(doe,measures) 

doe 

StandOrder RunOrder Block à B StandOrder RunOrder Block NS B y measures 
3 L de L 4 1 -1 -1 NA 31710 
2 2 1 1 -1 2 2 1 1 -1 Ni 32680 
4 3 L À + 3 L 1 -1 1 Ni 33220 
1 4 1 -1 -1 4 3 1 1 1 Ni 32700 


Ensuite, nous passons d'abord à une analyse quaktative avec les fonctions wirePlot(}) et 
contourPlot( ) : Ÿ 


par imfrow=c(1,2)) 
wirePlotii,B,measures,data=doe,form='measures-i+B+i1fB'}) 


contourPlotii,B,measures,data=doe,form='measures-i+B+i1fB'}) 


| N 


et nous voyons que le fait qu'on ne puisse pas bouger les légendes, changer les axes, tourner 
les graphes est une désavantage majeur par rapport à Minitab: 
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Æ R ics: Device 2 ( EC ÈCE 
Response Surface for measures Filled Contour for measures 
pe 1.0 
M -+32200 Œ -:21600 
M -+232400 — > +31800 
> +32000 
11 >+32600 Œ -:22200 
M >+32800 05 — > +32400 
. > +32600 
M >+33000 M -+32800 
BH -:33200 B -:33000 
> + M -+33200 
E 33400 Œ -:::400 
in 00 
0.5 
1.0 
“1.0 2056 O0 05: 10 
measures —- A+B+A*B À : 


Figure 264 Graph de réponse de surface pour plan d'expérience (DoE) 
L'analyse qualitative est bien évidemment conforme à l'intuition. 


Maintenant voyons ce que nous pouvons obtenir au niveau du modèle linéaire: 
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> fitsi(doe)] =lmimeasures-i+B+1*B,data=doe) 
> fits(doe) 
fmeasures 


Call: 
im(formula = measures - À + B + À * B, data = doe) 


Coefficients: 
{Intercept}) 
325775 


> | 


« 
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Nous obtenons le même résultat qu'avant ce qui est plutôt rassurant! 


Nous pouvons demander à la fonction steepAscent() du package quality Tools de chercher 
le maxima même en dehors des limites codées mais évidemment au vu du modèle ci-dessus il 
est évident que le maxima est à l'infini en vitesse et à une pression qui tend vers zéro. 
comme quoi 1l faut toujours se méfier des modèles en dehors de leur domaine de définition: 
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> steepäscent (factors=c{'2','B'),response='measures! ,data=doe,steps=20) 
Steepest iscent for doe 


Run Delta 1.coded B.coded i.real B.real 
À (a) 0.0 .0000 0.0 0O.0000 
.0604 .2 -0.0604 
.1208 .4 -0.1208 
.1812 .6 -0.1812 
.2416 .8 -0.2416 
.-3020 .0 -0.3020 
.3624 .2 -0.3624 
.4228 .4 -0.4228 
.4832 .6 -0.4832 
.5436 .8 -0.5436 
. 6040 .0 -0.6040 
. 6644 .2 —0.6644 

.4 

.6 

.8 

.0 

se 

.4 

.6 

‘E 

.0 
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© © -J a O1 & © ND 
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H 
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. 7248 -0.7248 
. 7852 -0.76852 
.6456 -0.5456 
-9060 -0.5060 
.9664 -0.9664 
.0268 -1.0268 
.-0872 -1.0872 
.1477 -1.1477 
.2081 -1.20681 
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Plans de surfaces (quadratiques) 


Plans composites centrés 


Bon nous n'avons rien démontré dans le cours théorique par rapport à ce type de plans dont la 
construction est relativement très beaucoup empirique et faut aussi d'avoir une démonstration 
mathématique pédagogique et élégante sous la main. 


Nous allons comme dans le cours Minitab considérer les plans CC comme des black box avec 
des valeurs en entrées et en sortie dont nous connaissons les hypothèses d'utilisation. 


Voyons d'abord ce que nous pouvons obtenir avec la fonction rsmChoose() du package 
quality Tools: 
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> libraryiqualityTools) 
> rsmChoose() 


Choose a response surface design by clicking into the appropriate field 
Waiting for your selection: 


Nous avons alors: 
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number of factors K 
2 3 4 5 5 6 6 7 7 


number of blocks 


A comparer avec Minitab.…..: 


Créer un plan de surface de réponse - Afficher les plans disponibles | X | 


Plans de surface de réponse disponibles (avec nombre d'essais) 


Plan 


Composite centré (complet) 


E e non divisé en blo | 


RE 
Composite centré (1/4) 


| ; non divisé en blo | 
Composite centré (1/8) on quise-en bio 
non divisé en blo | 
nes on divisé en blo 


divisé en blocs 


151.77 | 46 54 62 130 170 
En ie Eu LE 130 170 
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Analyse d'un plan composite centré 


Le but va être ici de construire et d'analyse le même plan composite face centré qu'avec 
Minitab. 


Pour cela nous commençons par utiliser la fonction rsmDesign(}) avec les paramètres ad hoc 
pour retomber sur le même plan que dans le cours Minitab: 


DE RGui (64-bit) - [RC 


> library(iqualityTools) 
> doe<-rsmDesign(k=3,cce=0,cs=6,alpha=i) 
> doe 

StandOrd RunOrder Block 
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ou dans l'ordre en utilisant la commande randomize( ) : 
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> doe<-rsmDesign(k=3,cce=0,cs=6,alpha=1i) 
> doe<-randomize (doe,so=TRUE) 
> doe 
StandOrd RunOrder Avock à B C y 
L 1 1 -1 -1 -1 Nà 
1 -1 -1 NA 
-1 Ni 
1 Ni 
-1 Ni 
1 Ni 
-1 Ni 
Ni 
Ni 
Ni 
Ni 
Ni 
Ni 
Ni 
Ni 
Ni 
Ni 
Ni 
Ni 
Ni 


1 
2 
3 
5 
6 
7 
8 
9 
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Nous pouvons déjà mettre maintenant les noms des facteurs et leurs niveaux réels en utilisant 


les commandes names( ) , highs() et lows ) : 


> names (doe)=c{'idditif','Temps','Temperature!) 
> highs (doe)=c(70,60,180) 

> lows(deoj=c{(0,20, 100) 

> | 
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Maintenant, nous importons les valeurs mesurées des deux réponses d'intérêt qui sont les 
mêmes valeurs que dans le cours Minitab. 


| DOESurface.csv 


| Fichier Edition Format Affichage 


Taux, 4 dhesion 
68;3 
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Pour cela, nous utilisons la fonction read.csv() comme à l'habitude mais particulièrement la 
fonction response() du package qualityTools: 


Gui {64-bit 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> mydata<-read.csv{("C:/tmp/DOESurface.csv",header=T,sep=";"] 
> response (doe) <-mydata 
> doe 
StandOrd RunOrder Block 2 BB C Taux idhesion 
L L 1 -1 -1 68 3 
1 -i 51 40 
-1 81 10 
1 65 48 
-1 40 37 
1 FE 21 
-1 50 40 
90 39 
68 24 
75 44 
80 38 
92 41 
75 31 
77 44 
87 41 
87 41 
82 37 
82 37 
82 37 
82 on 


© © -J a O & © D 
© © -J on On © ND 
© © -J on On © © 


H H 
kH © 

H 

O 

H 

[en] 
O0C000000HRHO 


H HHHH 

-] in © © 
HHHHHHHH 
© © -J o nn © D 
HHHHHHHH 
0 © -J o On © © 


L 
1 
1 
1 
1 
1 
1 
L 
1 
11 14 1 
1 
1 
1 
1 
1 
1 
1 
1 
1 


l 
O000000000FrHH 
| 
O00000HHOOOOHHH 


LS 
[es] 
[as] 
[es] 


Ensuite, nous pouvons faire une régression quadratique classique: 


> 1ml'Taux-A+B+C+AtB+A*C+B*C+I(22)+I(B2)+I(C*2)',data=doe) 


Call: 
lmiformula = "Taux-A+B+C+AtB+AtC+B#C+I(A"2)+I(B*2)+1(C*2)", data = doe) 


Coefficients: 
{Intercept) À E (se ItA*2) IiB*2) LtC*2) 
83.836 4.900 6.400 -0.800 -12.591 1.909 -8.091 
L1:E A:C Da 
0.750 13.500 -0.250 
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Là nous pouvons déjà constater qu'il est très dommageable que ce package utilise les unités 
codées pour faire la régression plutôt que les unités réelles. donc perte de temps en 
perspective par rapport à Minitab pour exploiter cette régression et aussi pour faire une 
comparaison directe avec Minitab. 


Ensuite vient la partie graphique où nous pouvons constater que les résultats sont très 
similaires à Minitab (difficile de dire s'ils sont parfaitement identiques). 


Nous commençons avec les facteurs Taux et la Température: 


#5 
KR à Console s|e|x 


> wirePlot(d,C,Taux,form='Taux-A+B+C+21#B+A#%C+B#C+I(2"2)+I(B"2)+1(C*2)',data-doe,theta=30) 
> | 


L 


Taux- A +B+C+A°B + ACO}B*C + I(A12) + 1(B12) + 
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> contourPlot(ä,C,Taux,form=!Taux-A+B+C+1fB+2#5C+B*C+I(2"2)+1(B"2)+1(1C*2)',data=doe) 
> | ——_———————————_——————— 
PEN FE aie - 


Filled Contour for Taux 


D 
FA 
ae | 
el 
fu 
= 
D 
© 
E 
D 
+ 
O 


A: Additif 
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Nous poursuivons avec les facteurs Temps et Température: 


R R Console EEE 


+ 


> contourPlot(B,C,Taux,form='Taux-A+B+C+1#B+A#C+B#C+I(2"2)+I1(B*2)+1(C"2)',data=doe) 
> | - 


R R Graphics: Device 2 (ACTIVE) 


LA 


Filled Contour for Taux 


C: Temperature 
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R & Console sex] 
> contourPlot{(i,B, Taux, form=!Taux-A+B+C+1tB+à%C+4+B#C+4I(2"2)+4I(B"2)+1(C*2)!,data=doe) 
> 


ER R Graphics: Device 2 (ACTIVE) 


4 


Filled Contour for Taux 


1.0 


0.5 


0.0 


B: Temps 


-05 


-1.0 
-1.0 -05 0.0 0.5 1.0 


À: Additif 
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Et jetons un coup d'oeil aux courbes de nivaux avec les facteurs Additif et Température: 


R & Console = | © | & 
> contourPlotii,C,Taux,form='Adhesion-A+B+C+AftB+A#C+B#C+I(A*2)+I(B"2)+1(C"2)!,data=$ 


- 


Filled Contour for Taux 


D 
= 
Z 
et 
ui 
= 
D 
à 
= 
d 
F- 
O 


0.0 


À: Additif 
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Maintenant définissons les contraintes de désirabilité pour chacune des réponses et prenons 
les options le plus proches de celles de Minitab à l'aide de la fonction desirability( ) : 


R Fichier Edition Voir Misc Packages Fenêtres Aide [-Is|x] 


> di<-desirabilitvy(Taux,91,100,target=95) 

> d2<-desirability(ädhesion,45,50,target=48) 
> DL 

Target is 95 for Taux 

lower Bound: 91 

higher Bound: 100 


Scale factor is: low = 1, and high = 1 
importance: L D 

> d2 

Target is 48 for idhesion 

lower Bound: 45 

higher EBound: 50 

Scale factor is: low = 1 and high = 1 


importance: 1 


Nous pouvons représenter graphiquement la désirabilité: 


> par(mfrow=c{1,2)) 
> plot (di) 


> plot (d2) 
>| 


4 


R R Graphics: Device 2 (ACTIVE) 


Desirability function for Taux Desirability function for Adhesion 


co co 
[æ) [æ] 
E E 
5 5 
S = È cale =1 
£ a scale = 1 scale = 1 & 2 scale = 1 
o o 
Le) [æ) 
92 94 96 98 100 45 46 47 48 49 50 
Taux Adhesion 


Figure 265 Graph de désirabilité pour plans d'expérience (DoE) 
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Faisons un petit résumé pour contrôler si jusqu'ici tout est bien défini: 


RGui (64-bit} - [R 


> sunmmary(doe) 
Information about the factors: 


E 
low [a] z0 
high 60 
name ddditif Temps Temperature 
unit 
type numeric numeric numeric 


StandOrd RunOrder Block C Taux idhesion 

1 68 3 
QE 40 
81 10 
65 48 
40 37 
75 31 
50 40 
90 39 
68 24 
75 44 
80 38 
92 41 
75 31 
pér: 44 
87 ai 
87 41 
82 37 
82 37 
82 37 
62 37 


© © Jo in & © © H 


À 
2 
3 
4 
5 
6 
7 
8 
9 


© © -J o On  & © 


H 
H © 
H 
[e] 
Fe 
[=] 


HHHHEHH 
-J O UE © N 
HHHHHHH 
D -J o O1 © 
HHHHHHH 
© -J Oo O1 & © D 
(l 
O0OO00000O0O0OHmkO 


Ha H 
La] R 
m H 
Le] Hs 
HHHHHBHHBHBHHBHHBBHRHHH 


1 
O000000MmMhMO0O0O0O0OO0OO0OHhR 
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mn 
Le] 
tn 
Le] 
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Maintenant avec la fonction optimum( ) du package quality Tools nous allons pouvoir 
vérifier si nous retombons sur la même réponse que Minitab: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> optimum(doe,type='optim'}) 


composite (overall) desirability: 0 


À BC DS 


coded © O0 (E] 
real 35 40 140 


Taux idhesion 
Responses 83.8 38.8 
Desirabilities 0.0 0.0 
> | 


et nous pouvons conster que nous en sommes très loin. 


ToDo: Voir si c'est un bug ou une erreur de manipulation de ma part 
SŸ 


® 
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Plans de mélanges 
Plan de mélange centré du simplexe 


Le but va être de vérifier 1c1 (comme à l'habitude) les calculs appliqués relatifs aux 
démonstrations mathématiques faites dans le cours théorique relativement aux plans de 
mélanges avec points aux sommets et comparer aussi accessoirement les résultats obtenus 
avec Minitab. 


Nous allons utiliser la commande mixDesign() du package quality Tools: 


KR Fichier Edition Voir Misc Packages Fenêtres Aide 


> library(qualityTools) 
> mdo<-mixDesign(p=3,n=2,center=FAL$SE, randomize=FALSE) 
> v<-c(11.7,15.3,16.9,9.4,10.5,16.4) 
> response (mdo) <-y 
[ 1] di du 
> mdo 
StandOrder RunOrder Type 


L 1i-blend 
2-blend 
2-blend 
1i-blend 
2-blend 
1i-blend 


La construction du plan de mélange étant faite, faisons-en quelques analyses avec d'abord un 
résumé: 
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À 
low (a) 
high 1 
name 
unit % 


Unique 
Replicates 
Sub Total 


A>= 0B2>= 


1 


> summary (mdo) 
Simplex LATTICE Design 
Information about the factors: 


3 


L 
3 
6 


DC >= 


E 
(a) 
1 


& 


$ 


Information about the 


(a) 


StandOrder RunOrder 


Packages Fenêtres Aide 


type numeric numeric numeric 


Information about the Design Points: 


1i-blend 2-blend 


3 
1 
3 


constraints: 


PseudoComponent 


Proportion _|_ 


+ O1 Bb (0 © Ji 


Ensuite, nous appliquons le classique modèle linéaire généralisé gaussien avec interactions: 
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KR Fichier Edition Voir Misc Packages Fenêtres Aide 


> fit<-lm(iy-A+B+C+A:B+B:C+A:C-1,data=mdo) 
> Lit 


Call: 
lmiformula = y ÀA+B+C+A:B +B:C + A:C - 1, data = mdo) 


Coefficients: 
L E 
Lis 9.4 16. 


> summary(fit) 


Call: 
lmiformula = y AÀA+B+C+A:B +B:C + A:C - 1, data = mdo) 


Residuals: 
ALL 6 residuals are 0: no residual degrees of freedom! 


Coefficients: 
Estimate Std. Error t value Pr(i>|t|) 
1lsr Ni Ni Ni 
9. Ni Ni Ni 
16. Ni Ni Ni 
19. Ni Ni Ni 
-9. Ni Ni Ni 
11. Ni Ni Ni 


Residual standard error: Nal on 0 degrees of freedom 
Multiple R-squared: Le idjusted R-squared: 
F-statistic: NaN on 6 and O0 DF, p-value: Ni 


> | 


Alors nous retrouvons bien les valeurs des coefficients calculés à la main mais chose 
curieuse. R (comme Minitab) n'arrive pas à calculer l'erreur ni les intervalles de confiance et 
la p-value alors que nous avons démontré qu'un tel calcul était possible (et nous l'avons fait!). 
Raison pour laquelle. (encore une fois!) 1l est important de rappeler qu'il faut toujours 
plusieurs progiciels de statistiques pour faire des études sérieuses et un peu plus sûres. 


Faisons maintenant une ANOVA du modèle quadratique complet: 
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r 
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1ESIOIE 


> fit<-lmiy-A+B+C+i:B+1:C+B:C,data=mdo) 
> anoval(fit) 
Analysis of Variance Table 


Response: y 
DÉ Sum Sg Mean Sq F value Pri>F) 
1.3653 1.3653 
24.3360 24.3360 
:B 15.3691 15.3691 
EX 7.2429 7.2429 
B:C 3.8400 3.868400 
Residuals 0  0.0000 
Message d'avis : 
In anova.lmifit) 
les tests F d'ANOVL sur un ajustement pratiquement parfait ne sont pas fiables 


Nous pouvons voir que celle-ci est plus intéressant qu'avec Minitab où nous n'avions qu'un 
résumé objectivement peu exploitable (Minitab faisant la somme des termes linéaires et la 
somme des termes quadratiques dans le tableau de l'ANOVA). 


Finissons par un plot (le rendu est meilleur que Minitab maïs les finitions prennent à ce jour 
plus de temps que dans Minitab) en utilisant respectivement les commandes contourPlot3( ) 
et wirePlot3() du package quality Tools (ce qui: nous permet d'éviter d'expliciter les termes 
d'interactions car 1l les prendra en compte automatique) 
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Sciences.ch 
R R Console 


> contourPlot3(2,B,C,vy,data=mdo,form="quadratic") 


FR R Graphics: Device 2 (ACTIVE) 


Response Surface for y 
A 


Figure 266 Graph de surface de réponse ternaire pour plans d'expérience (DoE) 


et pour la surface de réponse: 
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e 


R R Console =] KE 


> wirePlot3(,B,C,v,data=mdo,form="quadratic",theta=-170) 
> | ( 


Figure 267 Graph de surface de réponse 3D ternaire pour plans d'expérience (DoE) 


Nous avons donc beaucoup moins d'options que dans Minitab mais pour du gratuit c'est quand 
même extraordinaire. 
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20. Ingénierie de la qualité (Six Sigma/SPC) 


Le but de ce chapitre va être de vérifier si nous pouvons nous débarrasser de Minitab en 
utilisant R pour le domaine de l'ingénierie de la qualité et l'application de la méthode Six 
Sigma dans la maîtrise statistique des processus (SPC: Statistical Process Control). 


La majorité de ce chapitre (si ce n'est la totalité en réalité) se satellise autour du package qec. 


Exemple 292.: Rendement Global Combiné et DPU/DPMO 
R 3.1.0 


Nous avons étudié dans le cours de génie industriel la notion de rendement global combiné et 
de DPU/DPMO dans le cadre de processus auxquels nous appliquons l'approche Six Sigma. 


Voyons ce que le package SixSigma nous propose avec la commande ss.ca.yield() dans le 
cas d'un procédé de fabrication où sur un total de 1915 unités produites nous avons à la 
respectivement aux trois premières étapes du processus 3, 5 et 12 éléments défectueux et nous 
avons à chaque étape respectivement réinjecté 1, 2 et 4 éléments retouchés (corrigé): 


KR Fichier Edition Voir Misc Packages Fenêtres Aide 


> libraryi(SixSigma) 
> ss.ca.vieldici3,5,12),ct1,2,41,1915) 

Yielda FTŸ RTY DPEU DPMO 
L ‘ss 0.9859008 0.9859563 20 10443.86 
> 


KR Fichier Edition Voir Misc Packages Fenétres 


> (1915-3-5-12)/1915 
[1] 0.9895561 
> | 


tout est ok, c'est logique. c'est trivial! 
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Contrôlons la deuxième valeur qui est le taux d'efficacité avec retouches (FTY: First Time 
Yield): 


RGui (64-bit) - [R 
R Fichier Edition Voir Misc Packages Fenêtres 


> (1915-(3+1)-(5+2)-(12+4))/1915 


[1] 0.9859008 
> | 


C'est conforme aussi, logique et trivial! 


Voyons comment le package SixSigma calcule la troisième valeur qui est le rendement global 
combiné (RTY: Rolled Troughput Yield): 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> ((1915-3-1)/1915) *((1915-5-2)/1915) * ((1915-12-4) /1915) 
[1] 0.9859563 
> | 


La définition utilisée n'est donc pas commune... puisqu'à chaque étape il reprend la quantité 
initiale. Dommage... (du moins à ma connaissance). 


Bon pour le DPU c'est simple: 


RGui (64-bit) - [RC 
KR Fichier Edition Voir Misc Packages Fenêtres 


> 3+5+12 


[1] 20 
> | 
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Mais là encore. la définition prise par le package SixSigma n'est pas forcément des plus 
judicieuses puisque normalement le DPU est le ratio du nombre total d'éléments défectueux 
sur le nombre total d'unité de production observées... 


Et pour le DPMO: 


KR Fichier Edition Voir Misc Packages Fenétres Aide FE IE x 


> 20/1915*1E6 


[1] 10443.86 
> | 


Là aussi la définition utilisée est discutable. 


Raison pour laquelle il est toujours important de rappeler dans les rapports la définition 
utilisée dans votre entreprise! 


Voir par exemple (outre le support du cours théorique), le site suivant pour un définition assez 
courante: 
NO 


http:/www.isixsiemaom/dictionary/dpo/ 
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Exemple 293.: Fonction de coût de perte de qualité de Taguchi 
R 3.1.0 


Nous allons vérifier 1c1 que nous retrouvons donc les mêmes valeurs que celles calculées à la 
main dans le cours théorique de Génie Industriel. 
Rappelons le contexte: 


Dans un projet, une tâche de 4 jours a une marge totale de 2 jours. Si nous sortons de cette 
marge, le projet va prendre du retard pour un coût de 1200.-/jour. 


Quel est le coût réel associé à 1, 2 et 3 jours de retard selon le modèle de Taguch1? 


Dès lors, en utilisant la commande ss.lf( ) du package SixSigma, nous obtenons: 


FR Fichier Edition Voir Misc Packages Fenétres Aide 


> library(SixSiqma) 


> 88.1lf(c(5,6,7),2,4,1200) 
[1] 600 2400 5400 
> | 


Soit exactement les mêmes valeurs que celles calculées à la main! 


Maintenant voyons un cas de calcul avec la situation vue dans le cours théorique, appelée "le 
nominal est le meilleur. 


Nous importons d'abord les données: 
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R Fichier Edition Voir Misc Packages Fenêtres Aide 


> mydata<-read.csv("C:/tmp/PerteTaguchi.csv",header=T,sep=";:") 
> headimydata) 
Diamètre 
10.4042 
10.2584 


9.9478 


10.267858 
10.1144 
9.9830 
lengthimydata$Diamètre) 
EL] 50 
> | 


Ensuite, nous utilisons la commande ss.lfa() du package SixSigma ce qui nous donne la 
sortie suivante dans un premier temps: 


> s8.lfaimydata,'"Diamètre",lfa.Delta=0.5,1fa.YO=10,l1fa.LO=0.001,l1fa.size=100000, 
+ lfa.sub="10rmm. bhouchons",lfa.output="both") 

$lfa.k 

[1] 0.004 


$lfa.lf 
expression(bold(L == 0.004 %.% (Y - 10)*2)) 


$lfa.nMSD 
[1] 0.03372065 


$lfa.avLoss 
[1] 0.0001348826 


$lfa.Loss 
[1] 13.488226 


> | 


Ce qui correspond bien aux calculs faits à la main dans le cours théorique. Nous avons aussi 
automatiquement le graphique suivant donné par R qui correspond aussi à ce qui a été vu dans 
le cours théorique: 
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Loss Function Analysis 


Data 
CTQ: Diamètre 


Yo= 10 
À=05 
Ly= 0.001 
Size = 1e+05 


0.000650 - 


Cost of Poor Quality 


Mean= 10.0308 
kK= 0.004 
MSD = 0.0337 
Av.Loss = 1e-04 
Loss = 134883 


0.00025 - ; 


| I LL | 
9.50 9.75 10.00 10.25 10.50 
Observed Value 


L=0.004.(Y- 10) 


10mm. bouchons 


Figure 268 Graph fonction de perte de Taguchi 
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Sciences.ch 


Exemple 294.: Analyse de capabilité de données non-groupées 


R 3.6.2 


Voyons si nous pouvons reproduire ici les calculs de capabilité fait à la main dans le cours 
théorique et avec Minitab à l'aidre de R et encore une fois du package SixSigma et sa fonction 


ss.study.ca( ): 


E 


MR R Console 


> library("SixSigma") 
> mesures <- c(0.45,0.40,0.35,0.35,0.30,0.30, 
+ 0:25:0:25;:0:25,0:-20,0:20,0:20;0:29,;, 
+ 0:.15:0:15;:0:15,0;:1;:0:1;:0.1;:0.05,0:05; 
+ 0,-0.05,-0.05,-0.1) 


> ss.study.ca(mesures, LSL = -0.2, USL 0.1, 
+ Target = 0, 
+ alpha = 0.05, 
+ f.su = "Minitab Comparison") 
” 
QU R Graphics: Device 2 (ACTIVE) sex] 
Six Sigma Capability Analysis Study 
Density Lines Legend 


Density ST 
— — — Theoretical Dens. ST 


Specifications 
LSL: -0.2 
J Target: 0 
USL: 0.1 
- Short Term Process Long Term 
! 1 0 0 
-0.25 0.00 0.25 0.50 | Mean: 0.1740 Mean: 
É SD: 0.1437 SD: 
Check Normality n: 26 n:0 
ja Zs: 0.51 Zs: -2.01 
J | Shapiro-Wilk Test DPMO: 978045.5 
.. p-value: 0.9192 
- LL 1 
. Short Term Indices Long Term 
- …… 
= Lilliefors (K-S) Test Cp: 0.3479 Pp: 
_ pwvalue: 0.848 CI: [0.3,0.4] CE 
] Ch: -0.1717 P x: 
. CI: [-0.0,-0.3] CE 
Le. ‘ Normality accepted when p-value > 0.05 
Minitab Comparison 
Ce qui est bien conforme! 
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Exemple 295.: Analyse SixPack de données groupées (+ 


analyse capabilités + intervalles de confiance des capabilités) 
R 3.02 


Encore une fois, nous allons contrôler que nous obtenons les mêmes données que celles 
calculées manuellement dans le cours théorique, ainsi qu'avec Microsoft Excel et Minitab. 


La fonction que nous allons utiliser 1c1 n'est plus disponible depuis la version 2.2 du package 
qec (on se demande bien sous la pression de qui...). Il faut donc décompresser le fichier: 


L_| qcc_2.0.tar.gz 
que je vous mets à disposition pendant le cours et téléchargeable ici: 
http://cran.r-project.org/src/contrib/Archive/qcec/ 


y prendre les fichiers suivants: 
4, capability.R 


[ei qce.R 
+) utilities.R 


Nous travaillerons avec les mêmes données brutes, c'est-à-dire: 


a 


Echantillon, Mesure; Temps 
1:-2:1 
| 1:-4:2 
|1:-1:3 
1:0;4 

| 1,4:5 
1:0:6 
1:3:7 
1:0:8 
15159 

| E1:10 
2:0:;1 
2:-3:2 
2:0:3 
2:-2:4 
219 
2:-2:6 
2:0;7 
2;1:8 
2:-1:9 
2:2:10 
3;-1;1 
3:02 
3:-3:3 
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Ensuite, nous utilisons les commandes qec.groups() pour préparer les données: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


source("C:/qcc.R") 

source("C:/capability.R") 

source("C:/utilities.R") 
mydata<-read.csv{("C:/SixSigma.csv",header=T,sep=";:") 
mydata<-qece.groups (mydata$Mesure,mydata$Echantillon) 
mydata 


C1] [21 (,3] [,4] [,S] [,6] [,7] [,8] [,9] [,10] 
—2 —4 —1 (a) 4 (e) 1 —1 
—3 —2 L = 2 

0 EL = 3 L 

1 A (e) 4 (e] 

—1 (a) 2 n (e] 


Ensuite, nous sommes obligés de choisir au moins une carte de contrôle pour l'analyse six 
pack. Nous prendrons alors une carte X-barre en utilisant la commande qec( ) : 


0 


> obj<-qeei(it (imydata) ,type="xbar") 
> summary(obj) 


Call: 
qeceidata = timydata), type = "xbar') 


xbar chart for t(imydata) 


Summary Of group statistics: 
Min. ist Qu. Median Mean 3rd Qu. Max. 
-1.80 -0.50 0.30 G,.12 1.00 1.60 


Group sample size: 5 

Number of groups: 10 

Center of group statistics: O.12 
Standard deviation: 1.676698 


Control limits: 

LCL UCL 
-2.129527 2.369527 
> | 
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avec le graphique associé: 


R R Graphics: Device 2 (ACTIVE) +=] S.] (m3 | 


xbar Chart 
for t(mydata) 


Group summary statistics 


Group 
Number of groups = 10 
Center = 0.12 ECL =-2129527 Number beyond limits NS 
StdDev = 1.676698 UCE= 7369527 Number violating runs = 0 


Figure 269 Graph carte de contrôle xbar 


KC 
Donc à part l'esthétique qui est relativement médiocre mais améliorable en changeant le code 
source, nous retrouvons exactement les mêmes résultats que ceux calculés dans le cours 
théorique et dans Minitab excepté pour le LCL et l'UCL où il y a une différence de quelques 
pourcents. 


Et c'est maintenant que vient la commande qui a disparue dans les nouvelles versions du 
package. Nous allons donc utiliser la commande process.capability( ) : 
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> process.capability(obj,spec.limits=c(-7,7) ,target=0) 


Process Capability Analysis 


Call: 
process.capability{iobject = obj, spec.limits = c(-7, 7), target = 0) 


Number of obs = 50 Target = 
Center = 0.12 LSL = 
StdbDev 1.676698 USL 


Capability indices: 


Value 2.5% 97.5$ 
Cp 1.392 1.117 1.666 
Cp_l 1.415 1.168 1.663 
Cp_u 1.368 1.128 1.608 
Cp_k 1.368 1.082 1.654 
Cpm 1.365 1.116 1.660 


Exp<LSL 0% Obs<LSL 0% 
Exp>USL 0% Obs>USL 0% 
> | 


avec le graphique: a 
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Process Capability Analysis 
for t(mydata) 


-5 ( ë 
Number of obs = 50 Target = 0 Cp =1.39 Exp<LSL 0% 
Center = 0.12 LSL =-7 Cp_1 = 142 Exp>USL 0% 
StdDev = 1.676698 USL = 7 Cp _u=1.37 Obs<LSL 0% 
Cp k=137 Obs>USL 0% 
Cpm =139K 


Figure 270 Graph d'agà yse de capabilité 
NI 


Là aussi les résultats ne sont pas tout à fait les mêmes que ceux calculés dans le cours 
théorique et que ceux calculés à la main mais il y a toutefois un avantage très intéressant avec 
R: nous avons les intervalles de confiance pour tous les indicateurs de capabilité :-) 


Et avec la commande process.capability.sixpack() qui a aussi disparue dans les dernières 
versions du package qee, nous avons: 


> process.capability.sixpackiobi,spec.limits=c(-7,7) ,target=0) 
> | 


« 


Avec le graphique associé (la encore on est loin derrière la qualité esthétique de Minitab où de 
la pertinence des informations que donne ce dernier sur le graphe SixPack: 
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R Fichier Historique Redimensionnement Fenêtres -_|#|x 


& xbar Chart Process Capability Analysis 

& for t(mvdata) 2 mvdata 

CS GRR UCL D 

= ai] Feu rumme es ns e : 

£ © - * - 

5 Cl à Fe a | " : 

2 M RMS EUEE RAIN ROUE" | or re Donna DE RE 
& (l 2 $) 4 5 6 7 8 9 10 5 0 5 


2 
D uw 
É=] D 
5 © 3 
> Lui 
E + CLS 
E 2 
1] [3 
10 L 
= a 
e 
Oo 
Group Theoretical Quantiles 
Run chart Capability plot 
«y T T 
© o o c È o E o 
D Se ee Rod co Poe “Ace Sea er EN ne EU 76608 
É à à É o & à É à Ê ardt = Process tolerance 
FT + e s P KIT Specification limits 
T T T T T M = 1. 
2 4 6 8 10 
-20 -15 -10 -5 0 fs 
Group 


Figure 271 Graph d'analyse Six Pack 


Maintenant, voyons ce que nous obtenons avec la fonction per( ) du package quality Tools: 
IC 
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> library(qualityTools) 
> mydata<-read.csv("C:/tmp/SixSiqma.csv",header=T,sep=";:"] 
> per imydata$ Mesure, 'normal',1lsl=-7,us1l=7) 


Anderson Darling Test for normal distribution 


data: mydata$Mesure 
0.9002, mean = 0.120, sd = 1.803, p-value = 0.02001 
alternative hypothesis: true distribution is not equal to normal 


Message d'avis 
In .myADTesti(x, distribution) : sample size is grefçer than 40 
> | 


et avec le graphique et les indicateurs correspondants (dont nous voyons que ces derniers ne 
respectent pas la notation d'usage. d'où l'importance de suivre les normes pour ne pas se 
mélanger les pinceaux): 
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Process Capability using normal distribution for mydatafMesure 


USL=7 


Cpku = 1.27 
ChkL = 1.32 


o 
m 
ao 
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o 
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LE 
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ao 
re] 
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ao 
ae 
a 
ao 


Figure 272 Graph d'Analyse de capabilité 


À comparer avec le graphique obtenu avec Minitab et les données calculées à la main dans le 
cours théorique ! 


Sinon avec le package SixSigma et la fonction ss.study.ca( ) (il semblerait — a priori... - 
que cette fonction ait un problème car il faut inverser les indicateurs courst et longs 
termes sur le graphique“): 


30 Si un lecteur ou un de nos étudiants / apprenants sait comment corriger ce problème sans aller dans le code du 
package ou arrive à identifier notre erreur, qu'il n'hésite pas à se manifester! 
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MR RGui (64-bit) - [R Console] — C] 


GR File Edit View Misc Packages Windows Help #, x 


> (unstacked<-unstack(mydatal,-1],form-Mesure-Temps)) 
X1 X2 X3 X4 X5 X6 xX7 X8 X9 X10 
-2 -4 -1 0 4 0 3 O0 1 -1 


0 -3 0-2 1 -2 O0 1 -1 & 
=, 0 =3 =1 0 OIL 3 L 
1 1-2 2 2 0 1 0 4 0 
SLELES GO 3.5. 2: À 0 


moyenne ST<-mean (mydata$Mesure) 
ecarttype ST<-sqgrt (sum(apply(unstacked, 2, var))/length(unstacked)) 


rnorm exact <- function(n,mean,sd) { mean+sd*scale(rnormi(n)) } 
r <- rnorm exact (5,moyenne ST,ecarttype ST) 


ss.study.ca(xST-mydata$Mesure, xLT=r, LSL = -7, USL = +7, 
Target = 0, alpha = 0.05, f.su = "“Minitab Comparison") 


VEVNVVVV VV OV UE © D FH 


Et le graphique correspondant: 


E mn 


MR Graphics: Device 2 (ACTIVE) s | D | & 


Six Sigma Capability Analysis Study 


Density Lines Legend 


Density ST 
— — — Theoretical Dens. ST 
Density LT 
noce Theoretical Density LT 


Specifications 
LSL: -7 
Target: 0 
USL:7 


Short Term Process Long Term 


8 8! Mean: 0.1200 Mean: 0.1200 
SD: 1.8029 SD: 1.5843 
n: 50 m5 
; Es Z:: 3.82 Z;: 2.84 
Shapiro-Wilk Test DPMO: 22372 
Te p-value: 0.109 
= L 1 
— Short Term Indices Long Term 
l SRE Lilliefors (K-S) Test Cp: 1.2942 Ph: 1.4728 
—— p-value: 0.001373 CE[10,15] CE 1[0.5,2.5] 
: AT Cp: 1-2720 Pi: 
CET] Ck[1.0,1.5] CH: [0.4,2.5] 


‘Normality accepted when p-value > 0.05 


Minitab Comparison 
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Outre la position a priori erronée des indicateurs, ce graphique nous donne des résultats qui 
sont beaucoup plus conformes à ce que nous avions obtenu avec Minitab et et les données 
calculées à la main dans le cours théorique ! 
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Exemple 296.: Constantes de Hartley et autres constantes des 


cartes de contrôle 
R 3.1.0 


Lors de notre étude des statistiques de rangs nous avons démontré qu'une constante émergeait 
qui dépendant du nombre de rangs et qui nous était indispensable pour construite un certain 
nombre de cartes de contrôle. 


Plutôt que de faire référence à des tables, le package SixSigma contient une commande 
ss.cc.getd2() qui nous permet de récuperer la valeur de la constante de Hartley pour un 
certain nombre de rangs (taille d'échantillon). Nous allons vérifier ici dans un premier temps 
que nous obtenons bien les valeurs obtenues dans le cours théorique pour la première 


constante de Harley d, ; 


zx RGui (64-bit} - [R Co 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> ss.cc.getd2 (1) 
Erreur dans ss.cc.getd2{(1) : Invalid sample size 
> ss.cc.getd2 (2) 
d2 
1.128379 
> ss.cc.getd2 (3) 
dz 
. 692569 
> ss.cc.getd2 (4) 
d2 
.058751 
ss.cc.getd2 (5) 
dz2 
.325929 
ss.cc.getd2 (6) 
dz 
.534413 
> ss.cc.getd2 (7) 
d2 
.704357 
ss.cc.getd2 (6) 
d2 
.847201 
ss.cc.getd2 (9) 
dz 
.970026 
ss.cc.getd2 (10) 
d2 
-.077505 
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De même pour la deuxième constante de Harley d, avec la commande ss.cc.getd3( ) : 


=: RGui (64-bit} - [R 
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Erreur dans ss.cc.getd3 (0) 


> ss.cc.getd3 (1) 


Erreur dans ss.cc.getd3 (1) 


> ss.cc.getd3 (2) 
d3 

0.8525025 

> ss.cc.getd3 (3) 
d3 

0.588368 

> ss.cc.getd3 (4) 
a3 

0.5798082 

> ss.cc.getd3 (5) 
da3 

0.5640819 

> ss.cc.getd3 (6) 
a3 

0.5480397 

> ss.cc.getd3 (7) 
a3 

0.8332053 

> ss.cc.getd3 (8) 
a3 

0.8198311 

> ss.cc.getd3 (9) 
da3 

0.5078343 

> ss.cc.getd3 (10) 
da3 

0.7970507 


>| 
R 


4 


Invalid sample 


Invalid sample 


De même pour la constante C, dont nous avons démontré l'origine dans le cours théorique de 
Génie Industriel: 


R Statistical Software 


1900/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


| R Fichier Edition Voir Misc Packages Fenétres Aide 
[E 


> ss.cc.getc4(0) 

Erreur dans ss.cc.getc4(0) : Invalid sample size 

> ss.cc.getc4i{(1) 

Erreur dans ss.cc.getc4(1) : Invalid sample size 

> ss.cc.getc4(2) 
ca 

0.7976846 

> ss.cc.getc41(3) 
ca 

0.6862269 

> ss.cc.getc4(4) 
c4 

0.,9213177 

> ss.cc.getc4(5s) 
c4 

0.9399856 

> ss.cc.getc4(6) 
c4 

0.9515329 

> ss.cc.getc4(7) 
c4 

0.9593688 

> ss.cc.getc4(68) 
ca 

0.9650305 

> ss.cc.getc4(6) 
c4 

0.9650305 

> | 
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Exemple 297.: Carte de contrôle par attributs p (proportion) 
R 3.0.2 


Dans le cadre de contrôle de lots nous avons obtenus les mesures suivantes: 
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[a] 


> library(qee) 
> mydata<-read.csv("C:/CCP.csv",header=T,sep=";")] 
> mydata 
IDLot TailleLot NonConformes 

50 
sû 
50 
50 
50 
50 
50 
50 
50 
50 
50 
sû 
50 
50 
50 
50 
50 
50 
50 
50 
50 
50 


© -J on O1 & © ND mm 


1 
2 
3 
4 
5 
6 
fa 
5 


DOONhHOONEN NH H © Bb © D ND O1 N° H 


Et nous utilisons encore une fois la commande qec( ) : 
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R R Console 


> library(qee) 
> obj<-qcce(mydata$NonConformes,sizes-mydatafTailleLot,type="p") 


p Chart 
for mydata$NonConformes 


Group summary statistics 
0.00 004 008 0.12 


4 6, ES Go En À 11 


Group 


Number of groups = 22 
Center = 0.04181818 LCL =0 Number beyond limits = 0 
StdDev = 02001735 UCL = 01267446 Number violating runs = 1 


Figure 273 Graphique Carte de contrôle P 
NO 
# N . . 
Nous obtenons donc les mêmes valeurs et la nfême carte que dans le cours de statistique 
théorique et Microsoft Excel ainsi que Minitab. 


Cependant avec un plus: R détecte les anomalies de séquences sous la dénomination Number 
violating runs. Sympa!!! 
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Exemple 298.: Carte de contrôle par attributs de type np 


(fréquences) 
R 3.0.2 


Dans le cadre de contrôle de lots nous avons obtenus les mesures suivantes: 
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> libraryiqec) 
> mydata<-read.csv("C:/CCNP.csv",header=T,sep=";:") 
> mydata 
IDLot TailleLot NonConformes 

50 
50 
50 
50 
50 
50 
50 
50 
50 
50 
50 
50 
50 
50 
50 
50 
50 
50 
50 
50 
50 
50 


L 
2 
3 
4 
S 
6 
7 
8 
9 


© © -J ao ii & © D H 


— HHHHEHH 
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D OON OUEN EE NN EE FH CO Bb CO NO NN O1 D 


to 
to 


Et nous utilisons encore une fois la commande qec( ) : 
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ff 
R & Console Sex) 


> libraryi(qee) 
> obj<-qcce(mydata$NonConformes,sizes-mydatafTailleLot,type="np") 


np Chart 
for mydata$NonConformes 


O 
=, € 
0 
©  L 
+ 
on 
Er Si 
ro] 
EU 
= 
RL 
fa 
== 2 
Oo 
res 
| 


IPS SET 50 11 15 15 1 19. 71 


Group 
Number of groups = 22 
Center = 2.090909 LCL =0 Number beyond limits = 0 
StdDev = 141544 UCL=6.33723 Number violating runs = 1 


Figure 274 Graph Carte de contrôle NP 
S 
Nous obtenons donc les mêmes valeurs et la nfême carte que dans le cours de statistique 
théorique et Microsoft Excel ainsi que Minitab. 


Cependant avec un plus: R détecte les anomalies de séquences sous la dénomination Number 
violating runs. 
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Exemple 299.: Carte de contrôle par attributs de type c 
R 3.0.2 


Dans le cadre de contrôle de lots nous avons obtenu les mesures suivantes: 
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> libraryiqec) 
> mydata<-read.csv("C:/CCC.csv",header=T,sep=";") 
> mydata 

IDLot NonConformes 


donne nmE 


1 
2 
5 
2 
2 
3 
4 
3 
1 
1 
2 
1 
2 
1 
2 
3 
3 
1 
2 
(el 
3 
2 


Et nous utilisons encore une fois la commande qec( ) : 
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> obj<-qcce(mydata$fNonConformes,type="c") 
> 


Group summary statistics 


SSI CSN 11 13 1 17 19 21 


Group 
Number of groups = 22 
Center = 2.090909 LCL = 0 Number beyond limits = 0 
StdDev = 1445998 UCL = 6428902 Number violating runs = 1 


Figure 275 Graph Carte de contrôle C 
NO 
# N . . 
Nous obtenons donc les mêmes valeurs et la nfême carte que dans le cours de statistique 
théorique et Microsoft Excel ainsi que Minitab. 


Cependant avec un plus: R détecte les anomalies de séquences sous la dénomination Number 
violating runs. 
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Exemple 300.: Carte de contrôle par attributs de type u 
R 3.0.2 


Dans le cadre de contrôle de lots nous avons obtenu les mesures suivantes: 
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> libraryiqec) 
> mydata<-read.csv("C:/CCU.csv",header=T,sep=";") 
> mydata 

IDLot TailleLot NonConformes 
1000 10 
1000 20 
1000 50 
1000 20 
1000 20 
1000 30 
1000 40 
1000 30 
1000 10 
1000 10 
1000 20 
1000 10 
1000 20 
1000 10 
1000 20 
1000 
1000 
1000 
1000 
1000 
1000 
1000 


À 
2 
3 
re 
5 
6 
7 
8 
9 


On D 
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Et nous utilisons encore une fois la commande qec( ) : 
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ff 
R à Console se (x) 


> library(qec) 
> obj<-qec(mydatafNonConformes,sizes=-mydatafTailleLot,type="u") 


u Chart 
for mydata$NonConformes 


un 
© 
— 
un 
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ll 
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ü 
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Lu 
= 
= 
= 
(ro) 
Q 
5 
[e) 
= 
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RPM NE RG {lt 
Group 
Number of groups = 22 


Center = 0.02090909 LCL =0007191153 Number beyond limits = 3 
StdDev = 4572646 UCL = 0.03462703 Number violating runs = 1 


Figure 276 Graph Carte de contrôle U 
N 
À Ÿ Le 
Nous obtenons donc les mêmes valeurs et la mème carte que dans le cours de statistique 
théorique et Microsoft Excel ainsi que Minitab. 


Cependant avec un plus: R détecte les anomalies de séquences sous la dénomination Number 
violating runs. 


R Statistical Software 1909/3133 


Vincent ISOZ, Daname KOLANI 


Sciences.ch 


Exemple 301.: Carte de contrôle par mesures X barre-S 


simple 
R 3.0.2 


Dans le cadre de contrôle d'une production sous contrôle statistique nous avons obtenu les 


mesures suivantes (chaque ligne est pour rappel une journée de mesures): 


RGui (64-bit) - [F 
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> libraryiqec) 


> mydata<-read.csv("C:/CCXBarreS.csv",header=T,sep=";")] 


> mydata<-mydatal[,-1] 


> mydata 
Echi 
9.9943 10. 
9.9721 9. 
9.978868 10. 
10.0658 10. 
10.0136 9. 
9.9495 10. 
9.9144 10. 
9.9748 9. 
10.0063 10. 


10.0840 9. 
9.9436 10. 
10.0074 9. 
10.0069 10. 
9.9836 10. 
10.0317 10. 
9.9756 9. 


9.9818 
.-0168 
.9857 
.9878 
-0657 
.9564 
-0611 
. 9054 
.9768 


Ech2 
0196 
9643 
0213 
0800 
9791 
0057 
0321 
9962 
0749 
9619 
0638 
9817 
0282 
0630 
0485 
9174 


.58962 
.-0043 
.- 0503 
.9841 
.-9838 
.-0154 
.9443 
.9049 
.9954 


Ech3 
9.932 
9.9426 
9.9407 
9.9514 
9.9449 
9.9715 

10.0361 
10.0369 
9.9971 
10.0063 
9.9617 
9.9753 
10.0385 
9.9824 
9.9659 
9.9076 
9.9614 
10.0029 
10.038681 
9.9496 
9.9636 
9.9690 
9.9899 
9.9870 
9.9196 


Ech4 
10.0088 
9.9712 
10.0696 
9.9958 
9.9403 
10.038688 
10.0253 
10.1500 
9.9760 
10.0364 
10.013868 
10.0541 
JET 
9.9909 
10.0675 
9.9909 
9.9612 
9.9549 
9.986811 
9.9754 
9.9779 
9.9999 
9.9833 
10.058680 
9.9341 


Echs5 
9.968685 
10.0259 
10.0161 
10.033868 
9.9424 
10.0019 
10.0109 
9.9996 
9.9934 
9.9907 
9.9672 
9.986845 
10.0323 
9.9664 
10.0047 
10.0180 
9.9694 
10.0199 
9.9603 
9.9532 
10.0423 
10.0146 
9.9947 
9.9156 
9.9162 


Et nous utilisons encore une fois la commande qcc ) : 


9 
10 
10 
10 

9 

9 

9 

9 

9 

9 

9 

9 

9 
10 
10 

5 

9 

9 

9 
10 


Eché6 
«9544 
0177 
-0709 
.-0422 
.9421 
-9616 
.9935 
.9741 
.9555 
.9762 
.9591 
.9107 
-9560 
-0575 
-0277 
.9979 
.9349 
-9691 
.9123 
-0576 
-0547 
-0145 
.- 0033 
.9782 
-0721 
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> obj<-qec(mydata,type="xbar") 
> 


« 


xbar Chart 
for mydata 
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TANT 75 
Group 
Number of groups = 25 


Center = 9.993285 LCL = 9.940515 Number beyond limits = 0 
StdDey = 0.04308603 UCL = 10.04605 Number violating runs = 0 


Figure 277 Carte de contrôle Xbar-S 


Nous obtenons donc les mêmes valeurs et la même carte que dans le cours de statistique 
théorique et Microsoft Excel ainsi que Minitab. 


Cependant avec un plus: R détecte les anomalies de séquences sous la dénomination Number 
violating runs. 
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Courbe d'efficacité 


Nous avons vu dans le cours théorique comment calculer l'erreur de type II d'une carte de 
contrôle de type X-barre. Le but ici est de vérifier que nous retrouvons les mêmes résultats 
sous les mêmes hypothèses. 


Pour cela, nous utilisons la fonction oc.curves() du package qec: 


KR Fichier Edition Voir Misc Packages Fenêtres Aide 


library(iqec) 
mydata<-read.csv("C:/tmp/CCXBarreS.csv",header=T,sep=";") 
mydata<-mydatal,,-1] 


obj<-qcc(mydata,type="xbar") 
oc.curves (obj) 


et nous obtenons alors: 
NC 
TR R Graphics: Device 2 (ACTIVE) Lo 


OC curves for xbar chart 


0.6 O.£ 


Prob. type Il error 
0.1 


O.û 


Pracess shift (std.dev) 


Figure 278 Graph de courbe de caractéristique opérationnelle (OC) 


Ce qui correspond parfaitement aux calculs faits à la main. 


R Statistical Software 1912/3133 


Vincent ISOZ, Daname KOLANI 


Sciences.ch 


Exemple 302.: Carte de contrôle par mesures $S barre-S simple 


R 3.0.2 


Dans le cadre de contrôle d'une production sous contrôle statistique nous avons obtenu les 


mesures suivantes (chaque ligne est pour rappel une journée de mesures): 


RGui (64-bit} - [R 
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> libraryiqec) 


> mydata<-read.csv("C:/CCSBarreS.csv",header=T,sep=";") 


> mydata<-mydatal[,-1] 


> mydata 
Ech1 
9.9943 10. 
9.9721 S. 
9.9788 10. 
10.0658 10. 
10.0136 9. 
9.949585 10. 
9.9144 10. 
9.9748 9. 
10.0063 10. 
10.0840 9. 
9.9436 10. 
10.0074 9. 
10.0069 10. 
9.9836 10. 
10.0317 10. 
9.9756 9. 
9.9818 9. 
10.0168 10. 
9.9857 10. 
9.9878 9. 
10.0657 9. 
9.9564 10. 
10.0611 S. 
9.9054 9. 
9.9768 9. 


Ech2 
0196 
9643 
0213 
0800 
9791 
0057 
0321 
9962 
0749 
9619 
0638 
9817 
0282 
0630 
0485 
9174 
8962 
0043 
0503 
9841 
9838 
0154 
9443 
9049 
9954 


Ech3 
9.9732 
9.9426 
9.9407 
9.9514 
9.9449 
9.9715 

10.0361 
10.0369 
99972 
10.0063 
9.9617 
9.9753 
10.0385 
9.9824 
9.9659 
9.9076 
9.9614 
10.0029 
10.038681 
9.9496 
9.9636 
9.9890 
9.9699 
9.9870 
9.9196 


Ech4 
10.0088 
9.9712 
10.0696 
9.9958 
9.9403 
10.038868 
10.0253 
10.1500 
9.9760 
10.0364 
10.013868 
10.0541 
9.9747 
9.9909 
10.0675 
9.9909 
9.9612 
9.9549 
9.986811 
9.9754 
99779 
9.9999 
9.9833 
10.058680 
9.9341 


Ech5 
9.968685 
10.0259 
10.0161 
10.0338 
9.9424 
10.0019 
10.0109 
9.9996 
9.9934 
9.9907 
9.9672 
9.986845 
10.0323 
9.9664 
10.0047 
10.0180 
9.9694 
10.0199 
9.9603 
9.9532 
10.0423 
10.0146 
9.9947 
9.9156 
9.9162 


Et nous utilisons encore une fois la commande qec ) : 


9 
10 
10 
10 

9 

9 

9 

9 

9 

9 

3 

9 

9 
10 
10 

9 

9 

9 

9 
10 
10 


Eché6 
-.9544 
-0177 
-0709 
.-0422 
.9421 
-9616 
.9935 
.9741 
.9555 
.9762 
.9591 
-.9107 
-9860 
-0575 
-0277 
.9979 
.9349 
.9691 
.9123 
-0576 
.-0547 
-0145 
- 0033 
.9782 
-0721 
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> obj<-qee(mydata,type="5") 
S 


4 


S Chart 
for mydata 


un 
ré) 
= 
u 
4 
nl 
© 
tn 
a 
Lu 
= 
= 
= 
mn 
Q 
5 
[e] 
Les 
(Eÿ 


TND MN OEM TION AT TT 75 
Group 
Number of groups = 25 


Center = 0.04125812 LCL =0.001252729 Number beyond limits = 0 
StdDev = 0.04335963 UCL = 00812635 Number violating runs = 0 


Figure 279 Carte de contrôle Sbar-S 


Nous obtenons donc les mêmes valeurs et la même carte que dans le cours de statistique 
théorique et Microsoft Excel ainsi que Minitab. 


Cependant avec un plus: R détecte les anomalies de séquences sous la dénomination Number 
violating runs. 


Malheureusement il n'est pas possible à ma connaissance de combiner dans une seule fenêtre 
la CC X barre-S et la CC S barre-S et ce même avec la commande par(mfrow=c(2,2)) 
contrairement à Minitab.…. 


Il ne semble pas possible non plus, contrairement à Minitab, d'avoir une abscisse basée sur 
des dates (timbres). 
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Exemple 303.: Carte de contrôle par mesures R barre-R 


simple 
R 3.0.2 


Dans le cadre de contrôle d'une production sous contrôle statistique nous avons obtenu les 


mesures suivantes (chaque ligne est pour rappel une journée de mesures): 


RGui (64-bit) - [F 
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> libraryiqec) 


> mydata<-read.csv("C:/CCRBarreR.csv",header=T,sep=";")] 


> mydata<-mydatal[,-1] 


> mydata 
Echi 
9.9943 10. 
9.9721 9. 
9.978868 10. 
10.0658 10. 
10.0136 9. 
9.9495 10. 
9.9144 10. 
9.9748 9. 
10.0063 10. 


10.0840 9. 
9.9436 10. 
10.0074 9. 
10.0069 10. 
9.9836 10. 
10.0317 10. 
9.9756 9. 


9.9818 
.-0168 
.9857 
.9878 
-0657 
.9564 
-0611 
. 9054 
.9768 


Ech2 
0196 
9643 
0213 
0800 
9791 
0057 
0321 
9962 
0749 
9619 
0638 
9817 
0282 
0630 
0485 
9174 


.58962 
.-0043 
.- 0503 
.9841 
.-9838 
.-0154 
.9443 
.9049 
.9954 


Ech3 
9.9732 
9.9426 
9.9407 
9.9514 
9.9449 
9.9715 

10.0361 
10.0369 
9.9971 
10.0063 
9.9617 
9.9753 
10.0385 
9.986824 
9.9659 
9.9076 
9.9614 
10.0029 
10.038681 
9.9496 
9.9636 
9.9690 
9.9899 
9.9870 
9.9196 


Ech4 
10.0088 
9.9712 
10.0696 
9.9958 
9.9403 
10.038688 
10.0253 
10.1500 
9.9760 
10.0364 
10.013868 
10.0541 
JET 
9.9909 
10.0675 
9.9909 
9.9612 
9.9549 
9.986811 
9.9754 
9.9779 
9.9999 
9.9833 
10.058680 
9.9341 


Ech5 
9.968685 
10.0259 
10.0161 
10.033868 
9.9424 
10.0019 
10.0109 
9.9996 
9.9934 
9.9907 
9.9672 
9.986845 
10.0323 
9.9664 
10.0047 
10.0180 
9.9694 
10.0199 
9.9603 
9.9532 
10.0423 
10.0146 
9.9947 
9.9156 
9.9162 


Et nous utilisons encore une fois la commande qcc ) : 


9 
10 
10 
10 

9 

9 

9 

9 

9 

9 

9 

9 

9 
10 
10 

5 

9 

9 

9 
10 


Eché6 
-.9544 
0177 
-0709 
-0422 
.9421 
-9616 
.9935 
.9741 
.9555 
.9762 
.9591 
-.9107 
-9560 
-0575 
-0277 
.9979 
.9349 
-9691 
.9123 
-0576 
-0547 
-0145 
.- 0033 
.9782 
-0721 
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> library(iqec) 
> obj<-qce(imydata,type="R") 
> 


« b 


R Chart 
for mydata 


UCL 


0.20 


0.15 


Group summary statistics 
0.05 0.10 


LCL 


0.00 


TNT CS NT NOT TT TEMIINIEN TIN SECTE 
Group 
Number of groups = 25 


Center = 0.10918 LCL =0 Number beyond limits = 0 
StdDev = 0.04308603 UCL =0.2187966 Number violating runs = 0 


Figure 280 Carte de contrôle Rbar-R (simple) 


Nous obtenons donc les mêmes valeurs et la même carte que dans le cours de statistique 
théorique et Microsoft Excel ainsi que Minitab. 


Cependant avec un plus: R détecte les anomalies de séquences sous la dénomination Number 
violating runs. 


Malheureusement il n'est pas possible à ma connaissance de combiner dans une seule fenêtre 
la CC X barre-R (n'existe pas à ce jour) et la CCR barre-R et ce même avec la commande 
par(mfrow=c(2,2)) contrairement à Minitab.. 


Il ne semble pas possible non plus, contrairement à Minitab, d'avoir une abscisse basée sur 
des dates (timbres). 
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Exemple 304.: Carte de contrôle EWMA avec échantillons 


R 3.0.2 


Dans le cadre de contrôle d'une production sous contrôle statistique nous avons obtenu les 
mesures suivantes (chaque ligne est pour rappel une journée de mesures): 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


library(qec) 


mydata<-mydatal,-1] 

mydata 
Echi Ech2 Ech3 Ech4 Echs 
.9943 .0196 .9732 -.0088 9.9685 
.9721 .9643 .9426 -.9712 10.0259 
.9788 .-0213 .9407 -0696 10.0161 
.0658 .0800 .9514 .9958 10.0338 
-.0136 .9791 .9449 -.9403 9.9424 
.9495 . 0057 .9715 -0388 10.0019 
.9144 -0321 -.0361 -.0253 10.0109 
.9748 . 9962 -.0369 .1500 9.9996 
.0063 .0749 -.9971 -.9780 9.9934 
.0840 .9619 .0063 .0364 9.9907 
.9436 -.0638 -.9617 .0138 9.9672 
.0074 .9817 .9753 .0541 9.9845 
.0069 .0282 .038 9.9747 10.0323 
.9536 .0630 9.986824 9.909909 9.965854 


VV V 


0 © -J o On & © DH 


Et nous utilisons encore une fois la commande ewma( ) : 


mydata<-read.csv("C:/CCEWMi.csv",header=T,sep=";:") 


Ech6 
9.9544 
10.017 
10.0709 
10.0422 
9.9421 
9.9616 
9.9935 
9.9741 
9.9555 
9.9762 
9,9591 
9.9107 
9.958560 
10.0575 
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> obj<-euma(imydata, lambda=0.6) 
> | 


EWMA Chart 
for mydata 


[ee] 
2 
5 
5 
(1 

œ 

ul 

= 

E 

=] 
(ep) 

Q 

=) 

8 
(O) 


9 10 11 12 13 14 


Number of groups = 14 Smoothing parameter = 0.6 
Center = 9.998932 Control limits at 3*sigma 
StdDev = 0.04315594 No. of points beyond limits = 0 


Figure 281 Carte de contrôle EWMAd 


Nous retrouvons donc quasiment les mêmes valeurs que dans le cours théorique de 
statistiques et que le cours Microsoft Excel et Minitab. Effectivement, nous y avions fait une 
approximation en ce qui concerne les limites de contrôle (indépendantes du temps f) et la 
valeur du point de départ d'où la petite différence. 
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Exemple 305.: Carte de contrôle CUSUM 


R 3.0.2 


Dans le cadre de contrôle d'une production sous contrôle statistique nous avons obtenu les 


mesures suivantes (chaque ligne est pour rappel une journée de mesures): 
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library(qee) 


VV OV 


mydata 
Ech1i 
.9943 
.9721 
.9788 
.0658 
-0136 
.9495 
.9144 
.9748 
.0063 
.0840 
.9436 
. 0074 
.0069 
.9836 
-.0317 
.9756 
.9818 
.0168 
.9857 
.9878 
.0657 
9564 
.0611 
.9054 
.9768 


One D 


H H 
kH © 


bHHH 
in E © © 


H 
-—] 


Et nous utilisons encore une fois la commande cusum( ) : 


Eche 


-0196 
.9643 
-0213 


0800 


-.9791 
-0057 
-0321 
.9962 
.0749 
.9619 
.0638 
.9817 
.0282 
-0630 
.0485 
9174 
.8962 
.-0043 
.0503 
.9841 
.9838 
.0184 
-.9443 
.9049 
-9954 


Hi 
O © 


(0 10 (0 O0 LO LO (0 


Hi 
© © 


mydata<-read.csv("C:/CCCusum.csv",header=T,sep=";:") 
mydata<-mydatal,-1] 


H H 
OO © 


H hH 
© © © 


9, 
9, 
9, 
9, 
9, 
9. 
9, 
9. 
9, 
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RR Console ts || © |) | 


> obj<-cusum(mydata,center=10) 
> | 


cusum Chart 
for mydata 


Cumulative Sum 
Above target 
0 2 4 


-2 


Below target 
4 


Group 
Number of groups = 25 Decision interval (std. err.) = 5 
Center = 10 Shift detection {std. err.j = 1 
StdDey = 0.04308603 No. of points beyond boundaries = 1 


Figure 282 Graph Carte de contrôle CUSUM 


Nous voyons alors plusieurs curiosités. Bien que le forme de la carte CUSUM soit conforme, 
impossible de définir a priori un V-masque et 1l semblerait qu'une deuxième ligne de mesures 
est représentée dans la carte de contrôle (Ligne d'origine inconnue!). Les limites ne sont pas 
non plus conformes à ce que nous avons calculé dans le cours théorique ou même obtenu avec 
Minitab (le package prend le modèle des limites fixes — que Minitab propose aussi — mais cela 
serait toutefois mieux d'avoir le V-masque puisque c'est l'intérêt principal de cette carte selon 
moi). 


La commande ne demande in extenso pas non plus les valeurs de h et & (ou in extenso de K). 


A priori 1l vaudrait mieux mettre cette carte de côté à ce jour... Donc affaire à suivre! 
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Exemple 306.: Carte de contrôle G 


R 3.0.2 


Nous reprenons les mêmes données que dans le cours théorique et que dans le cours Minitab: 


> mydata<-read.csv("C:/tmp/CCG.csv'",header=T,sep=";") 
> mydata 


DO © -J o O1 & © NH 


H H 
kH © 


HHH 
+ & 


15 


Et nous faisons une analyse: 


05. 
.04. 
04. 
05. 
09. 
09. 
10. 
11. 


03 


25. 
06. 
15. 
21. 
07. 
22: 
01. 
05. 
30. 
07. 
06. 
24. 
05. 


03 


06. 
04. 


02 


12 


01. 
01. 
04. 
04. 
06. 
07. 
-08. 
10. 


12 


Dates Jours 


.-2009 
2009 
2009 
2009 
2009 
2009 
2009 
2009 
.2009 
2010 
2010 
2010 
2010 
2010 
2010 
2010 
2010 
-2010 
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> 


qceimydata$Jours[-1], type = "g"] 


List of 11 


$ 


call : language qee(data = mydata$Jours[-1], type = "g") 
type DR 21 45 Us Li 

data.name : chr "mydata$Jours[-1]" 

data s int [1:17, 11 57 22 11 132 6 16 46 9 35 25 

.— attrif, "dimnames'")=List of 2 

statistics: Named int [1:17] 57 22 11 132 6 16 46 9 35 25 
.— attrit, "names")= chr [1:17] rer verger mar eg 

sizes s Ant [Led À L & À LL À À À À 

center : num 39.2 

std.dey : num 368.7 

nsicmas : num 3 

limits : num [Ll,; 1:22] D 155 

.— attrif, "dimnames")=List of 2 

violations:List of 2 

attr{if, "class'")j= chr "qe" 


Message d'avis 
In limits.g(center = 39.2352941176471, std.dev = 38.7320669520828, 


The Geometric distribution is quite skewed, it is better to set confé 
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Group summary statistics 


raphics: Device 2 (ACTIVE) o)| 51 |(553 
g Chart 
R for mydata$Jours[-1] 
D 
= 
D 
Le) 


1 2 3 4 5 6 FF 8 9 10 1 14 16 


Group 
Number of groups = 17 
Center = 3923529 LCL =0 Number beyond limits = 0 
StdDev = 38.73207 UCL = 1554315 Number violating runs = 0 


Figure 283 Graph GS e de contrôle G 
R 


L'allure de la carte est conforme à ce que nous avons fait dans Microsoft Excel et Minitab. 


Nous avons: 


La limite supérieure qui est de loin inférieure à celle de 278.2 donnée par Minitab 
mais elle correspond parfaitement à la valeur calculée à la main dans le cours 
théorique © 

La valeur centrale de 39.23 qui est bien supérieure à celle de 28.3 calculée par Minitab 
mais elle correspond parfaitement à la valeur calculée à la main dans le cours 
théorique © 
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Carte G pour Jours 
Probabilité d'événement = 0.023 


300 
LCS=278,2 


ts 


250 


200 


» 


evenemen 


150 


100 


Nombre entre les 


CL =28,3 
EE EZ—Z———.——.—.——.—.—."—...——.——....."..——.—".—.""—— À 


il 3 5 7 9 Lu 13 15 17 
Observation 


<Ÿ 
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Exemple 307.: Carte de contrôle multivariée T° de Hotelling 


R 3.12 


Nous allons vérifier ici si nous retrouvons les mêmes valeurs que dans le cours théorique et 
que Minitab. Nous partons donc des mêmes données: 


RGui (64-bit) - [R 
KR Fichier Edition Voir Misc Packages Fenêtres Aide 


> mydata<-read.csv{("C:/tmp/HotellingT2.csv",header=T,sep=";:") 
> X=list (Xi=mydatafxi,X2=mydata$x2) 


2 

$x1 
[1] 

[11] 


$x2 
[1] 
[16] 


>| 


115.25 115.91 115.05 116.21 115.90 115.55 114.98 115.25 116.15 115.92 
115.75 114.90 116.01 115.683 115.29 115.63 115.40 115.58 115.72 115.40 


1.04 1.06 1.09 1.05 1.07 1.06 1.05 1.10 1.09 1.05 0.99 1.06 1.05 1.07 
1.04 1.03 1.05 1.06 1.05 


Ensuite, nous lançons une analyse quantitative: 


Fä 


& R Console | 


> q = maqcciX, type = "T2") 
> summary(q) 


Call: 
maqcce(data = X, type = "T2") 


T2.single chart for X 


Summary of group statistics: 
Min. ist Qu. Median Mean 3rd Qu. Max. 
0.009781 0.641700 1.349000 1.900000 2.899000 6.729000 


Number of variables: 2 
Number of groups: 20 
Group sample size: 1 


Center: 
X1 X2 
115.5840 1.058585 


Covariance matrix: 

X1 X2 
X1 0.148298947 -0.0014621053 
X2 -0.001462105 0.0006976316 
151: 0.0001013203 


Control limits: 
LCL UCL 
0 8.285928 


> | N L 


4 b 
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Nous retrouvons la même matrice de variances-covariances, la même limite LCL mais par 
contre la limite UCL diffère considérablement et en plus nous ne savons pas pour quel niveau 
de confiance il est calculé?! 


Qualitativement nous avons: 


Re Graphics: Device 2 (ACTIVE) RCE | | 


T2.single Chart 
for X 


UCL 


Group summary statistics 
4 


123 A SCO ES 11 Ou TS TT TS 


Group 
Number of groups = 20 LCL=0 
Sample size = 1 UCL = 8.285928 
[S| = 0.0001013203 Num. beyond limits = 0 


Figure 284 Graph Carte de contrôle T2 Hotelling 


Ce qui est le même graphique que celui obtenu à la main à part la limite supérieure qui est très 
loin de celle calculée à la main ou de Minitab! 


Pour ceux qui veulent l'ellipse de contrôle correspondant, ils peuvent se rendre à la page 1204. 
Mais au besoin voici une version simplifiée ici même: 
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> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> | 


r=0.5 

library (mnormt)] 

Sermatrix(eil,r,r,1)i:2,:2) 

f=function(x,y) cunormichindix,y) ,varcov=$S) 
vx=seq(-3,3,length=201) N 
vy=seq(-3,3,length=201) 

z=outer (VX,VY, Ê) 

set.seedi{(i) 

X=rmnorm(1500,varcov=$) 
top<-max(cixhistédensity,vhist$density,dnorm(0))) 
image (VX,VY,Z,col=rev(heat.colors(101))) 
contour {(vx,vy,Z,col="blue" ,add=TRUE) 
points(X,cex=0.2) 


Ce qui donne: 


R Statistical Software 


1927/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Exemple 308.: Carte Bland-Altman 
R 3.4.2 


Nous avons mentionné dans le cours théorique, lors de notre étude de la régression de 
Deming, les cartes de Bland-Altman qui sont une version visuelle de qualifier la régression 
orthogonale correspondante. 


Alors voyons comment effectuer un tel graphique avec R avec les données de l'article 
d'origine de Bland et Altman en 1986 en utilisant la fonction bland.altman.plot() du 
package BlandAltmanLeh: 


E 


R e > (© |& | 


> library("BlandAltmanLeh") 

> PEFR1 <- bland.altman.PEFR{,1] 

> PEFR2 <-— bland.altman.PEFR{,3] 

> bland.altman.plot (PEFR1, PEFR2, silent=TRUE, xlim=c(0,800), 
+ xlab="Average PEFR by two meters”", 

+ ylab="Difference in PEFR (large-mini)") 

NULL 

2 


À Graphics: Device 2 (ACTE 515) 


£ e 
= 
F 
oo 
[e)] 
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S 
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o 
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L © 
LE 
Q 
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Exemple 309.: Étude R&R (reproductibilité/répétabilité) pour 


données continues 
R 3.0.2 


Une étude R&R mesure l'erreur de précision en faisant mesurer par exemple une pièce par 
plusieurs fois et par des personnes différentes. 


Étant donné que cette pièce ne change pas de taille, une variation dans les résultats doit 
représenter la répétabilité de la mesure et sa reproductibilité par différentes personnes. 


Cette étude est très simple et basée sur l'ANOVA à deux facteurs avec répétition dont on peut 
déduire les données de l'étude R&R à partir du tableau de l'ANOVA (TAV). Pour plus 
d'exemples, le lecteur pour se référer à la norme ISO/TR 12888:2011. 


Considérons donc les données suivantes qui correspondent à une ANOVA à deux facteurs 
avec répétition (il s'agit des mêmes valeurs numériques que l'exercice de l'ANOVA à deux 
facteurs sans répétition vu plus haut mais détourné). 


Nous reprenons donc les données du cours Minitab pour vérifier la concordance: 
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library(SixSiqgma) 
mydata<-read.csv("C:/EtudeRRContinu.csv",header=T,sep=";")] 
mydata 

Operateurs Pieces Reponses 

Operateur 1 Piece 1 256 

Operateur 1 Piece MCE 
Operateur 1 Piece 246 
Operateur 1 Piece 248 
Operateur 1 Piece 254 
Operateur 1 Piece AL 
Operateur 2 Piece 242 
Operateur 2 Piece 240 
Operateur 2 Piece 238 
10 Operateur 2 Piece 240 
11 Operateur 2 Piece 246 
D 2 Piece 246 
> 


1 
2 
3 
E 
5 
6 
7 
5 
9 


© © D D Oh HO © © D D 


et du package SixSigma!, nous utilisons la commande ss.rr( ) : 


31 Voir aussi la fonction gageRRDesign( ) du package quality Tools 
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> ss.rr{Reponses,Pieces,Operateurs,data=mydata) 
Analysis of Variance Table 


Response: var 

DÉ Sum Sg Mean Sq F value Pri>F) 
part 2 81.5 40.750 10.6304 0.0106619 
appr 1 243.0 243.000 63.3913 0.0002089 
part:appr PA .750 2.5435 0.1584954 
Repeatability 6 -833 


Gage RER 


VarComp $Contrib 
Total Gage RER .- 666667 .49 


Repeatability -.833333 .18 
Reproducibility 833333 .32 
appr .-875000 .78 
part:appr -.958333 .54 
Part-To-Part . 750000 .51 
Total Variation -.416667 .00 


StdDey 5.15*5D $StudyVar 

Total Gage RER .757712 .80221 92.46 
Repeatability .957890 .08313 26.79 
Reproducibility 6.467869 .30953 88.50 
appr .234982 .11016 85.31 
part:appr .719981 .-85790 23.53 
Part-To-Part . 783882 .33699 38.09 
Total Variation .308671 37.63965 .00 


Number of Distinct Categories= 1 


« 


Nous retrouvons donc les mêmes valeurs que dans le cours Minitab. Le graphique nous donne 
quant à lui (attention! ! parfois 1l faut exécuter la commande ss.rr( ) plusieurs fois pour que le 
graphique s'affiche sans erreurs): 
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R Fichier Historique Redimensionnement  Fenétres _|s|x 


Six Sigma Gage R&R Study 
R 


Components of Variation Var by Part 


percent 
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Figure 285 Graph étude Gage R&R (Six Sigma) 


La lisibilité du graphique n'est pas des meilleures sur un petit écran mais à part cela, nous 
: A : : QC 2 . 
retrouvons bien les mêmes informations que cells renvoyées par Minitab. 
& 
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Exemple 310.: Coefficient de corrélation intra-classe ICC1 
R 3.1.1. 


Le but comme ici est comme à l'habitude de vérifier les calculs obtenus à la main dans le 
cours théorique suite à la démonstration mathématique de l'origine du coefficient de 
corrélation intra-classe ICC1. 


Nous partons donc des mêmes données que dans le cours théorique: 


D TICC.csv - Bloc-nots 


Fichier Edition Format Affichage 
? 


Pièces: Mesure;Opérateurs 
Pièce 1,9 Opérateur 1 
Pièce 2:6,Opérateur 1 
Pièce 3:8 Opérateur 1 
Pièce 47 Opérateur 1 
Pièce 5:10: Opérateur 1 
Pièce 6,6,Opérateur 1 
Pièce 1,2:Opérateur 2 
Pièce 2:1,Opérateur 2 
Pièce 3,4 Opérateur 2 
Pièce 4;1 Opérateur 2 
Pièce 5,5: Opérateur 2 
Pièce 6,2, Opérateur 2 
Pièce 1,5:Opérateur 3 
Pièce 2,3:Opérateur 3 
Pièce 3:6,Opérateur 3 
Pièce 4,2: Opérateur 3 
Pièce 5:6,0pérateur 3 
Pièce 6,4,Opérateur 3 
Pièce 1:8,Opérateur 4 
Pièce 2:2:Opérateur 4 
Pièce 3,8,Opérateur 4 
Pièce 46 Opérateur 4 
Pièce 5:9 Opérateur 4 
Pièce 6,7,Opérateur 4 


Nous utilisons le package psych pour faire l'analyse avec la fonction ICC ) et le package 
reshape2 avec la fonction acast( )*? pour restructurer (pivoter) les données: 


#7 Le "a" de acast( ) signifie "array" car la fonction dcast( ) du même package renvoie un "data frame". 
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library(psych) 
library(reshapez) 
mydata<-read.csv("C:/tmp/1CC.csv",header=T,sep=";:") 
Pièces-Opérateurs, value.var="Mesure") 


mydata<-acast (mydata, 
mydata 


Opérateur 1 Opérateur 2 Opérateur 3 Opérateur 


9 
6 
5 
7 
10 
6 


2 


5 


R 


4 
5 
2 
5 
6 
9 
7 


Nous avons donc besoin d'un array (le "a" de acast( )) mais si un jour vous veniez à avoir 


besoin d'un data frame vous pouvez utiliser dcast( ): 


Re File 


Pièce 
Pièce 
Pièce 
Pièce 
Pièce 
Pièce 


V OO OU æ& à N 


Edit 


1 


on O1 :B & N 


bit 


View 


Misc 


9 


n © -JJ © 


Packages 


> dcast (mydata, 


Windows 


2 


N O1 ks 45 hs 


Help 


Une fois ceci fait, nous lançons l'analyse: 


5 


æ O NN oo 


Pièces - Opérateurs,value.var="Mesure") 
Pièces Opérateur 1 Opérateur 2 Opérateur 3 Opérateur 


—] 10 O © MN © 48 
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> ICC(mydata) 
Call: ICC(xX = mydata) 


Intraclass correlation coefficients 

type ICC p lower bound upper bound 
single raters absolute ICCL (OL LT L -.16477 -0.133 0.72 
Single random raters ICC2 .29 " .-00013 -019 .76 
Single fixed raters ICC3 SÉL : .-00013 -.342 .95 
lverage raters absolute ICC1k 0.44 . -.16477 .884 .91 
hverage random raters ICC2Kk 0.62 : .-00013 07 .93 
lverage fixed raters ICC3Kk 0.91 . .-00013 .676 .99 


Number of subjects = 6 Number 4> | 


Nous retrouvons bien pour le ICC1 celui du calcul fait à la main suite à la démonstration 
mathématique faite dans le cours théorique. Pour les autres ainsi que les intervalles de 
confiance il faudra attendre la rédaction d'une démonstration mathématique élégante pour 
qu'elle soit présentée en classe. ee 


® 
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Il est d'usage de présenter un ICC avec son graphique classique utilisant la fonction dotplot( ) 
du package lattice: 


> libraryilattice) 
> mydata<-read.csv("C:/tmp/1CC.csv",header=T,sep=";") 
> dotplot (Mesure-Opérateurs, data=-mydata) 

> 


Opérateur 1 Opérateur 2 Opérateur 3 Opérateur 4 


Figure 286 Graph d'analyse CCI (coefficient corrélation intra-classe) 


Voilà résultat superbe obtenu! 
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Exemple 311.: Étude de l'instrumentation de type I 
R 3.0.2 


Bon revoilà le sujet qui fait mal et dont nous avons pas mal parlé dans le cours théorique de 
MSP bien que la mathématique (empirique) sous-jacente soit triviale. 


Nous travaillons avec le même jeu de données: 
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> mydata<-read.csv("C:/EtudelnstrumentationTypel.csv",header=T,sep=";") 
> mydata 

Ordre Mesure 
22.7500 
LÉO TE 
22.9375 
22.7500 
22.8125 
22.6875 
22.7500 
22.7500 
rés dlen 
22.6875 
22.7500 
22.9375 
22.8750 
22.8750 
22.6875 
22.8750 
22.8125 
22.6875 
22.8125 
22.7500 
23.0000 
22.8750 
22.8125 
22.7500 
22.8750 


0 © -J o in © ND 
10 © -J o On + © D 


10 10 
11 
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ke © 9 © -J o in © D 
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Et nous restons avec le package qualityTools en utilisant la commande cg( ) : 
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> libraryiqualityTools) 


> mydata<-read.csv("C:/EtudelnstrumentationTypel.csv",header=T,sep=";:") 
> coimydatafMesure,target=23,tolerance=c(23-4,.5/2,23+4.5/2)) 


Ce qui donne: 


’ R Fichier Historique Redimensionnement Fenêtres -|5 * 
Run Chart 
Xar +0 X =228 
. Ss =009 
g À HRrr = 23 
g = 1.83 
Cox = 1.02 
] 
a + 
ü Histogram of mydata$Mesure - target 
Ho: Bias = 0 contint 


tvalue: 11.314 


s À 


RS ER SNS DS DRE Rene RU SRE EM NET IA DEN s Re DR SNS RE RS re D ÉCRIN anses te Rss S Ant L X99 65° 


Density 


-035 -0.30 -025 -0.20 -015 -010 -0.05 0.00 


Tolerance View 


22 


Index 


Figure 287 Graph étude de l'instrumentation de type I 


Bon ce n'est pas surprenant on retrouve à un tout petit pourcentage près les mêmes valeurs 
qu'avec Minitab mais rappelez-vous une chose. Dans l'état actuel, trois logiciels (Minitab, R 
et QIMacros) utilisent trois définitions différentes (à ce jour) de la capabilité de gabarit. Donc 
le jour où il y aura une norme internationale qui mettra tout le monde d'accord on en 
rediscutera. 
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Exemple 312.: Plan d'échantillonnage par attributs 
R 3.0.2 


Bon ce sujet est comme nous le savons délicat étant donné qu'il existe plusieurs normes 
nationales qui sont utilisées à l'instar des normes internationales ISO... Nous avons déjà pu le 
vérifier avec Minitab où nous avions un écart d'environ 3% pour la taille de l'échantillon entre 
les calculs théoriques et le logiciel et un écart de 7% pour le nombre d'éléments définissant si 
le lot est à rejeter ou non. 


Alors d'abord rappelons juste que dans Minitab nous avions pour les paramètres d'entrées ci- 
dessous (pour un plan par attributs!): 


Echantillonnage d'acceptation par attributs E x! 
[créer un plan d'échantillonnage *| Options. | 
Iype de mesure : [Conformejon-conforme DA | Graphiques. | 


Unités des niveaux de qualité : (MEET ER ETES 


Niveau de qualité acceptable (AQL) : | 25 
Niveau de qualité rejetable (RQL ou LTPD) : | 5 


Risque pour le fournisseur {âlpha) : | 0,01 
Risque pour l'acheteur (Bêta) : | 0,10 


Taille du lot : | 10000 


Annuler 


©K | 
_ Hour || 


hide | 


Ce qui nous avait donné: 
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CSMinitab - Sans titre - [Session] 


1E Fichier Edition Données Calc Stat Graphique Editeur Outils Fenêtre Aide 
ETIENNE EEE AGE 
RARELTIER AE 
| 


PR eh sp? dx|a 


Type de mesure : Conforme/Non-conforme 

Qualité du lot en pourcentage de défaillances 

Taille de lot : 10000 

Utilisez la loi binomiale pour calculer la probabilité d'acceptation 


Niveau de qualité acceptable (AQL) 2.5 

Risque pour le fournisseur (Alpha) 0.01 

Niveau de qualité rejetable (RQL ou LTPD) 5 [| 
Risque pour l'acheteur (Bêta) 0.1 


Planis) généréis) 


Effectif d'échantillon 718 
Critère d'acceptation 28 


Accepter le lot si des éléments défectueux dans l'échantillon 718 <= 28. Sinon, 


rejeter. 
Pourcentage de Probabilité Probabilité 
défaillances d'acceptation de rejet 200 ATI 
2.5 0.991 0.009 2.299 602.6 
5.0 0.099 0.901 0.461 9078.3 


Limite de qualité moyenne sortante (A0QL) = 2.611 à 3.134 de pourcentage de 


h.4 
L 
IModifisble | 


æ Démarrer| = Minitab - Sans titre - … MO ,0 Er] 20:32 


Feuille de travail en cours : Feuille de travail 1 


Avec le package AcceptanceSampling il n'est pas possible de trouver le plan avec la même 
approche. Ce package exige que nous utilisions {és probabilités d'acceptation et les 


se “ de Ÿ s 
pourcentages de défaillance. C'est-à-dire que ndus supposons que nous avons à l'avance les 
données suivantes: 


Pourcentage de Probabilité Probabilité 
défaillances d'acceptation de rejet ÀOQ ÀTI 


0.991 0.009 2.299 802.6 
0.099 0.901 0.461 9076.3 


Dans R, il nous faut alors utiliser la fonction find.plan() du package AcceptanceSampling 


et nous pouvons comparer le modèle binomial au modèle hypergéométrique très facilement 
par la même occasion: 
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> library(icceptanceSampling) 

> 

> find.plan(PRP=c(0.025, 0.991), CRP=c(0.05, 0.099), type="hypergeom", N=10000) 
$n 

[1] 691 


$c 
EL 27 


$r 
[1] 28 


> find.plan(PRP=c(0.025, 0.991), CRP=c(0.05, 0.099), type="binom"} 
$n 


[1] 741 D 


$c 
[11 29 


$r 
[1] 30 


e  PRP signifie Producer Risk Point, le prefier argument est le niveau de qualité auquel 
nous voulons évaluer le plan (AQL) et le second la probabilité minimale d'acceptation 
du plan. 

e  CRP signifie Consumer Risk Point, le premier argument est le risque de qualité auquel 
nous voulons évaluer le plan (RQL) et le second la probabilité maximale d'acceptation 
du plan. 


Nous retrouvons alors des valeurs "relativement" proches du plan proposé par Minitab: 


Planis) généré(s) 


Effectif d'échantillon 718 
Critère d'acceptation 28 


Accepter le lot si des éléments défectueux dans l'échantillon 718 <= 28. Sinon, 
rejeter. 


R Statistical Software 1940/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Exemple 313.: Intervalle de Tolérance paramétrique pour loi 


Normale 
R 3.43 


Nous avons étudié en détails dans le cours théorique ce qu'était l'intervalle de tolérance 
(paramétrique) pour une loi Normale et à quoi cela pouvait être extrêmement utile dans 
l'industrie et les services. Voyons donc de quoi il s'agit sans oublier que les données de 
l'intégrale qui ne peut être résolue à ce jour que numériquement est tabulée dans la norme ISO 
16269-6. 


Nous chargeons le package tolerance qui nous sera nécessaire et le jeu de données avec 
lequel nous voulons jouer afin de comparer avec Minitab: 


R 
8 File Edit View Misc Packages Windows Help 


> library("tolerance") 
> mydata<-read.csv("c:/tmp/intervalle tolerance.csv",header=T,sep=";") 


> mydata 

Ecarts 
1 0.45 
2 0.40 
3 0.35 
E 0.35 
5 0.30 
6 0.30 
7 0.25 
8 0.25 
9 0.20 
10 0.20 
LL 0.20 
12 0.20 
13 O2:ES 
14 0.15 
15 0.15 
16 0.10 
17 0.10 
18 0.10 
19 0.05 
20 0.05 
21 0.00 
22 -0.05 
23 -0-05 
24 —-0.10 
> 


Nous avons donc avec la fonction normaltol.int( ) : 
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UR RGui (64-bit) - [R Console] — 


GR File Edit View Misc Packages Windows Help EX 


> #conversion préalable 

> mydata<-as.numeric(unlist (mydata)) 

> normtol.int (mydata,alpha=0.05,Pp=-0.97,side-2) 
alpha P x.bar 2-sided.lower 2-sided.upper 

1 dbèss 0.97 0.1708333 —-0.2588484 0.600515 

> 


Nous retrouvons donc ainsi exactement les mêmes valeurs qu'avec Minitab! 


Voyons le graphique correspondant avec la fonction plottol( ) : 


R RGui (64-bit) - [R Console] — (m] 


R File Edit View Misc Packages Windows Help UE 


> tol<-normtol.int (mydata,alpha=0.05,P=-0.97,side-=2) 
> dois X, plot.type = "both", side = "two",x.lab="Normal Data") 
> 


Ce qui donne: 


: 
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Figure 288 Graph d'analyse d'intervalle de tolérance 


Il faut avouer... nous sommes très loin de la qualité de sortie du graphique correspondant 
dans Minitab… 
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21. Méthodes brutes d'inférences 


Le but ici va être de voir la puissance de frappe de R par rapport à des logiciels de simulations 
numériques comme Matlab, @Risk (inutile de mentionner les tableurs qui dans ces cas 
business réels avec plus d'une dizaine de variables sont compléments hors course). 


Nous allons voir comment utiliser les méthodes de Monte-Carlo (méthodes pseudo/stratifiées 
ou de Fauré), du Bootstrapping, du Jacknife et du Latin Hypercube que dont nous avons 
étudié les bases théoriques dans le cours. 
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Exemples 314.: Monte-Carlo 
R 3.0.2 


Comme nous l'avons mentionné dans le cours théorique, un l'aspect central des méthodes de 
Monte-Carlo est surtout relatif à la génération de variables aléatoires indépendantes ou non. 


Méthode classique (variables pseudo-aléatoires) 


Nous retrouverons les méthodes de Monte-Carlo lors de l'étude des méthodes de scripting 
dans R (programmation) à partir de la page 2682. 


Nous allons ici utiliser la puissance du C++ derrière R et la simplicité de sa syntaxe pour 
reproduire en quelques secondes un exercice pour lequel 11 nous a fallu un peu plus de 45 
minutes à mettre en place dans le tableur MS Excel: 


“ 
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> ProduitsParMois<-1500+(1500-1200) frunif (100000) 

> median(ProduitsParMois) 

[1] 1500.821 

> CoutsParProduit<-0.5+(0.8-0.2) frunif (100000) 

> median(CoutsParProduit) 

[1] 0.8007787 

> RatioVentesParProduit<-0.03+(0.05-0.01) frunif (100000) 
> median(RatioVentesParProduit) NS 

[1] 0.04992912 

> ProfitParVente<-50+(53-47) *runif (1000000) 

> median(ProfitParVente) 

[1] 52.999863 

> FraisGeneraux<-850 

> CiMensuels<-ProduitsParMois*RatioVentesParProduit *ProfitParVente 
> median(CiMensuels) 

[1] 4716.46 

> FraisMensuels<-FraisGeneraux+ProduitsParMois*CoutsParProduit 
> median(FraisMensuels) 

[1] 2278.326 

> ProfitMensuelittendu<-CiMensuels-FraisMensuels 

> median(ProfitMensuelittendu) 

[1] 2438.521 

> | 


Avec un premier petit graph à l'aide de nos connaissances cumulée sur les graphiques: 
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R R Console EE 


+ 


> h<-hist (ProfitMensuelittendu) 

> d<-density(ProfitMensuelittendu) 

> linesix=d$x,y=d$ytlength(iProfitMensuelittendu]) *diff(h$breaks)[1],lwd=2,col="blue") 
> | ; 


Histogram of ProfitMensuelAttendu 
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ProfitMensuelAttendu 


R 
et une deuxième petit graph encore plus important dans ce cas business: 


Lis |] 


R R Console IE] 


> j<-ecdf(ProfitMensuelittendu) 

> ploti{j,xlab="Profits",main="fonction de répartition empirique") 

» grid) 

FA Fe (h=0.95,col="red") ;abline (v=quantile (ProfitMensuelittendu,0.95),col="red") 
> 


Ce qui donne: 
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fonction de répartition empirique 


Enix} 
04 0.6 0.8 1.0 


02 


0.0 


( 2000 4000 6000 


Profits 


Figure 289 Graph de fonction de répartition avec ligne verticale et horizontale 


et ainsi de suite avec tous les graphs que l'on veut en quelques secondes. Personnellement je 
trouve donc R plus intéressant et plus puissant que n'importe que tableur et même plus rapide 
que @Risk. 

Exemple de calcul de la surface du quart de disque 


Nous allonrs reproduire ici un exemple scolaire fameux dans le domaine scolaire qui est 
l'approximation de Pi. 


Le code est repris de : 


https://berkorbay.github.10/fe522/02 Monte_Carlo_Simulation.html 
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MR RGui (64-bit) - [R Console] _ 
GR File Edit View Misc Packages Windows Help mx 


number_simulations<-1000 


fCreate the points necessary to build a polygon 
circle data<-data.frame(x_ val=c(0,seq(0,1,length.out-1000)), 
y_val=c(0,sqrt(i-seq(0,1,length.out=1000)"2))) 


library(ggplot2) #Load ggplot2 

fcreate the shaded area for the quarter circle 

plot_ pi <- ggplot() + 

geom_ polygon(data=circle data,aes(x=x val,y=y val),alpha=0.1) + theme bw() 
plot_ pi 


fCreate random points by declaring dot positions 

f#with 2 random uniformly distributed values for x and y. 
dot_data<-data.frame(x_ val=runif(1000),y val=runif(1000)) 

fDefine in with 1 and out with 0. 

#sSince circle radius is 1. We calculate in/out with the distance from origin. 
dot_data$in or out<-ifelse(sqrt(dot data$x val”2+dot data$y val”"2)<=1,1,0) 


plot_ pi + geom point (data=dot data,aes(x=x val,y=y val,color=in or out)) + 
theme (legend.position="none") 


fsimulated value of pi 
4*sum(dot_data$in or out)/nrow(dot data) 


Ce qui donne visuellement: 


R 
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Méthode de réduction de la variance avec variable antithétique 


Nous allons reproudire ici l'exemple à l'identique que celui fait dans le cours MATLAB 
(évidemment cela reste relié à ce que nous avons vu dans le cours théorique): 


C RGui (64-bit) - [R Console] 


ŒR File Edit View Misc Packages Windows Help IF x 


Sa 


nombre simulations<-300 


fméthode brute 
x<-runif (nombre simulations) 
y<-runif (nombre simulations) 


Nx<-qgnorm(x,mean=s, sd=3) 
Ny<-qnorm(y,mean=10,sd=4) 


mc process crude<-data.frame (instance num=1, 
mu _crude=mean(Nx[1]+Ny[1])) 
for(i in 2:nombre simulations)!{ 
mc process crude[i,]<-data.frame (instance num=i, 
mu=mean(Nx[i:i]+Ny{1:1i])) 
} 


fméthode antithétique 

*on ne redéfinit pas x car on reprendre celui généré plus haut! 
v<=1=x 

Ny<-qnorm(y,mean=10,sd=4) 

muNxy<-mean (Nx+Ny) 


mc process antithetic<-data.frame(instance num=i, 
mu_antithetic-mean(Nx{1]+Ny[1])) 
for(i in 2:nombre simulations){ 
mc process antithetic{i,]<-data.frame(instance num=i, 
mu _antithetic=-mean(Nx[1:i]+Ny[1:i])) 
} 


mc process<-chind(mc process crude,mu _antithetic<-mc process antithetic{[,2]) 


library("ggplot2") 

ggplot (data=mc process) + 

geom_ line (aes(x=instance num,y-mu crude,color="blue")) + 

geom_ line (aes(x=instance num,y-mu antithetic,color-="green")) + 

geom_ hline (yintercept=15,color="red") + ylim(c(10,20)) + 

scale color discrete (name = "MC method", labels = c("Crude", "Anithetic")) 
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Ce qui donne: 
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20.0- 


mu_crude 
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l 
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| 
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10.0- 
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BEM ER ne 


instance_num 


200 300 


Lex) 


MC method 
—— Crude 
—— Anithetic 


Nous voyons donc bien que la méthode antithéatique converge plus rapidement (sans 


surprises!). 


2 


On peut faire une exemple plus orientié "finance" et donc business avec le calcul d'un prix 
d'un call européen en comparant les deux méthodes: 
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| @ RGui (64-bit) - [R Console] = 


ŒR File Edit View Misc Packeges Windows Help EX 


BOIS EICIE 


> #Simulation MC Call européen 

> sim european call<-function (S_0=1093,K=100,vol=0.25,T years=1,r=0.02,n=10"4) 
Es #3imulaze the stock 

sim _ S T<-S Ufexp{(r-0.54vol*2)4T years + volrnorm(n)sqgrt(r)) 
#Calculate payoffs 

payoffs<-pmax(sim_ S T-K,0)*2xp(-r4T years) 

#Simula-e results and bounde 

Price< mean (payoffs) 

Sz<-1.964sd(payoffs)/sqrtin) 

LowezE <- Price - SE 

UprerE <- Price + SE 

return(c(Price=Price,SF=SR, Tower=TiowerB, Tipper=tipperB) ) 


} 
fSimulaliun MC Call eurvpéeri par variables antilhéliques 
sim european call av<-tunction(S U=1UJ,K=100,voi=U.25,T years=1,r=U0.02,n=1l"4) 
z 1 <- rnorm(n/2) 
EE >= a 1 
#3imulase the payoffs with both processes 
sim payoff 1<-exp(-r*T) “pmaxiS C*exp((r-0.5*vol"2)*T years + vol“z 1“sqzt(T))-K,0) 
sim payoff 2<-exp(-r*l) *pmax{s C*exp((r-0.5*vol"2)*/ years + vol“z Z“eqrt(l))-K,0) 
sim payoff <-— (sim payoff 1 + sim paycff 2)/2 
#Calculate results and baunis 
Price<-mean (sim payoff) 
SI< 1.96#*sd(sim payof£f)/sqrtin/2) 
LowerE <- Price - SE 
UprerE <- Price + SE 
return(c(Price=Price,SE=SE, Lower=LowerB, Upper=UpperB)) 


} 
##Or coemparzc 
fMélhude naive 
sim european call(n=ilu"4) 

Price SE Lower Upper 
11-1377908 0.3503062 1078748466 11.-4F89969 
> sim curopcan call avin-104) 


VEN db bb db VON de 4 


Price SE Lower Upper 
10.9632675 0.2779489 10.6853186 11.2412164 
> 
> #comparaisona avec méthode exacte: 10.€7056 


>| 
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Méthode de réduction de la variance avec variables de contrôle 


Nous allons reproduire ici l'exemple à l'identique que celui fait dans le cours MATLAB 
(évidemment cela reste relié à ce que nous avons vu dans le cours théorique): 


ER RGui (64-bit) - [R Console] — 


ŒR File Edit View Misc Packages Windows Help 5 x 


nombre simulations<-100 

fla variable aléatoire à laquelle nous sommes intéressés 
u<-runif(nombre simulations) 
v<-runif (nombre simulations) 

y<-exp ( (u+v)"2) 


fnotre variable de contrôle 
C_var<-u+v 
c_cov<-cov(cbind(y,c var)) 
c_optimum<--c covi1i,2]/c covi2,2] 


w_estimate<-y+c optimum*(c var-mean(c var)) 


#*pour comparer sans l'approximation 
w_exact<-y+c optimum*(c var-i) 


#on affiche tout 

(MC_classique<-c(mean(y),sd(y))) 

[1] 4.466933 6.120258 | 
> (MC control V Estimate<-c(mean(w estimate),sd(w estimate))) 
[1] 4.466933 4.092208 

> (MC control V Exact<-c(mean(w exact),sd(w exact))) 

“| 5.261622 4.092208 

> 
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et avec 1'000'000 de simulations: 
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| R RGui (64-bit) - [R Console] 
R File Edit View Misc Packages Windows Help 


| 


> 
> 
> 
>” 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
» 
> 
> 


> 


Nous retombons bien sur des résultats similaires à ceux obtenus avec MATLAB. 


nombre simulations<-1000000 


fla variable aléatoire à laquelle nous sommes intéressés 
u<-runif (nombre simulations) 
v<-runif (nombre simulations) 

y<-exp ((u+v) 72) 


fnotre variable de contrôle 
c_var<-u+v 
c_cov<-cov(chbind(y,c var)) 
c_optimum<--c cov{1,2]/c cov[2,2] 


w_estimate<-y+c optimum*(c var-mean(c var)) 


#fpour comparer sans l'approximation 
w_exact<-y+c optimum*(c var-i) 


#on affiche tout 
(MC_classique<-c(mean(y),sd(y))) 


[1] 4.898293 5.950549 
> (MC control V Estimate<-c(mean(w estimate),sd(w estimate))) 
[1] 4.898293 3.819476 


(MC_control V Exact<-c(mean(w exact),sd(w exact))) 


[1] 4.899445 3.819476 
>| 


( 


| 


Nous pouvons à nouveau faire un exemple plus orienté "business" avec encore une fois la 
simulation de Monte Carlo du prix d'un Call européen et le comparer avec les autres 
méthodes: 
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R RGui (64-titi - IR Console] — O0 


M File Edit Vien Mis Packages Wincuws Help tx 
ER EE] eIE 


> sim europear_ call cv<-tuncticriS U=iUU,K=1Uu),vel=Ù.25,T yeare=1,r=Ù0 U2,n=1l"4,with raive=TRUE) { 
#Simulate S_ T values 
S_ T sst <-S J*exp(ir-J3 S*vol*2)*T years + vol*rnorm(r)*sqrt (T)) 
fSimulate the payof£=s witk bhozh processes 
sim payoff<-exp(-r*T) 4pmaxiS T sst-K, 0) 
fCalculate =nsta star 
theta_ star<-cov(s T_ est,seim pay=ff)/var(S T_esti 
fCalculete CV effect 
pPayoff cv <- sim payvoff - theza star*(S T est - 5 O*exp(réT yearsi) 
fCalculste =ns cutpuz 2$f raive ceimvlation as well 
i£(with_naive){ 
Price<-mean(sim payoff) 
SE<-1.96*ed(sim payoff)/sgrt(n) 
LowerB <- Drice - SE 
Upper <- Drice + SE 
prirtic(Price naiva=Erice,SE naive=SE,lower=LowerB, Uppar=Upper3) ) 


] 

Prics<-mean(paycff cv) 

SE<-1.96#*sd(paycff cv)/sgrtini 

LowerB <- Drics - SE 

UpperB <- Price + SE 

rezarn(ciPrice CV=Price,SE CV=SE,Lower=LowerB, Upper=Upper2)) 
} 
sim europear call av(n=10"4) 

Price SE Lower Ugper 

10.8727955 0.2736292 10.59916€3 11.146447 
> sim europear_ call cv(n=10"4) 


+ he ht 


Price naive SE_naive Lower Upper 
11.0223799 0.319236 10.6731341 11.37:6076 
Price CV SE _©V Lower Ugper 


10.7706175 0.1435762 10.6270714 :0.9142237 


> 
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Méthode de réduction de la variance avec séquence quasi-aléatoire de 
Sobol 


Nous avons mentionné dans le cours théorique que ces nombres pseudo-aléatoires dont 
l'origine est empirique permet souvent une meilleure convergence des calculs et nous en 
avions fait l'expérience avec du VBA dans Microsoft Excel avec par exemple les nombres 
quasi-aléatoires de Fauré. Nous allons voir ici un autre type empirique de nombre quasi- 
aléatoire que sont les séquences de Sobol en utilisant la fonction sobol() du package 
randtoolbox: 


> library(randtoolbox) 

> hist (sobol(1000,1,scrambling=2) ,main="Uniform Sobol"”,xlab="x",col="steelblues" ,border="white") 
> windows({) 

> plot (sobol(1000,1,scrambling=2) ,main="Uniform Sobol"”,xlab="x",col="steelblues") 


> | 
D , 


Ce qui donne visuellement: 


. : 
R R Graphics: Device 3 (inactive) EEE 


Uniform Sobol 


o o° Po © - o 9 [ra] °, 
00° & LP D P 0 2 Po POP 
00 D 98 D 0000 02 Po, 
œ D 2 Po D 29 Po PS à 2 
Po LOS D 02 DEP 0 P0, Po POP 0 © 
| QD D D 0 LD Dp LE DD TP? E0 
à D 2 à 0 000 2% 000,2 Lo 40 9 2 00 
do 80% La Do 0 2 POP 0 a 
os 0 00 2, ÉD 2 00 DO D 
= S 900 (e CA _@ (ie 
- - 06 oc % Se o , : 
9 0% 0, 0D 9% D 200 0 À Po D 9 9 
Do 0.000 090 9 Do PE 8020 09 
l < D 99 BP D 0 0% 2.0 À 
Do RD 600% ED Po PP 0 À 
(y % 0o 2% 2. p 29 © Co co 
00 0 Po © & 
_ >) So Po 0% 


0.0 0.2 04 06 0.8 1.0 


100 


Frequency 
40 60 80 
sobol{1000, 1, scrambling = 2) 


20 
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Méthode de réduction de la variance avec Latin Hypercube 


Nous avons aussi étudié théoriquement le principe mathématique empirique des jeux de 
variables aléatoires Latin Hypercube qui n'ont normalement qu'un intérêt qu'à partir d'un 
nombre de variables aléatoires supérieur 1. Évidemment, au même titre que la séquence quasi- 
aléatoire de Sobol il ne sera pas possible de vérifier la conformité avec la génération fait dans 
Microsoft Excel mais voyons le principe puisque dans la pratique l'enjeu est important (des 
logiciels comme @Risk utilisant ce type de simulation). 


Nous allons pour cela utiliser la fonction randomLHS() du package lhs: 


library(lhs) 


samples<-1000 

RV<-1 #nombre de variables aléatoires à générer 

hist (randomLHS (1000,1),main="Latin Hypercube",xlab="x",col="steelhlues",border="whitef$ 
windows () 

plot (randomLHS (1000,1),main="Latin Hypercube",xlab="x",col="steelblue3") 


EN ONE CN NEO 


ES 


Œ TT b 


Ce qui donne: 


c 
R & Graphics: Device 5 (ACTIVE) 


Latin Hypercube Latin Hypercube 


[ T T T T 1 


randomLHS(1000, 1) 
Frequency 


0.0 02 04 0.6 0.8 1.0 


Pour le fun nous pouvons comparer quelques méthodes: 
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> unifm 2d <- function(n, seed) { 
set.seed(seed) 
return(replicate(2, runif(n))) 
} 


sobol_ 2d <- function(n, seed) { 
return(randtoolbox::sobol(n, dim = 2, scrambling = 3, seed = 
} 


latin 2d <- function(n, seed) { 
sert.seed(seed) 
return(lhs::randomLHS(n, k = 2)) 
} 


par (mfrow = c{(1, 3)) 

piot (latin 2d(100, 2018), main = "LATIN HYPERCUBE", xlab = '', 

pilot (sobol_2d(100, 2019), main = * SOBOL SEQUENCE", xlab = '!, 

Warning message: 

In randtoolbox::sobol(n, dim = 2, scrambling = 3, seed = seed) : 
scrambling is currently disabled, 

> pilot (unifm 2d(100, 201S), main = * UNIFORM RANDOM", xlab = ‘'!, 


VUVVE+RENVRVV + à 


LATIN HYPERCUBE SOBOL SEQUENCE 
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seed) ) 


yiab = '', cex = 2, col = "“blue'") 
yliab = '', cex = 2, col = "“xed') 


Ylab = ‘', cex = 2, col = "black") 
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Méthode de réduction de la variance par échantillonnage préférentiel 


(importance sampling) 


Nous allons ici reprendre le même exemple que dans le cours théorique et que celui dans le 


cours MATLAB. 


D'abord nous montrons le problème: 


R File Edit View Misc Packages Windows Help 


> treshold<- -10 
> int _ simulations<-1000 
> Nx<-rnorm(int simulations) 


> sum(as.integer (Nx<=treshold))/int simulations 


[1] O0 
> int _simulations<-10000 
> Nx<-rnorm(int simulations) 


> sum(as.integer (Nx<=treshold))/int simulations 


[1] 0 
| > int _ simulations<-100000 
> Nx<-rnorm(int simulations) 


> sum(as.integer (Nx<=treshold))/int simulations 


[1] O 
> int _simulations<-1000000 
> Nx<-rnorm(int simulations) 


> sum(as.integer (Nx<=treshold))/int simulations 


[1] 0 
> int _ simulations<-10000000 
> Nx<-rnorm(int simulations) 


> sum(as.integer (Nx<=treshold))/int simulations 


[1] 0 
> int _simulations<-100000000 
> Nx<-rnorm(int simulations) 


> sum(as.integer (Nx<=treshold))/int simulations 


[1] 0 
> int _simulations<-1000000000 
> Nx<-rnorm(int simulations) 


> sum(as.integer (Nx<=treshold))/int simulations 


[1] 0 
> int simulations<-10000000000 
> Nx<-rnorm(int simulations) 


Error: cannot allocate vector of size 74.5 Gb 
> sum(as.integer (Nx<=treshold))/int simulations 


[1] 0 
> | 


Et la solution y relative utilisant l'échantillonnage préférentiel (importance sampling): 
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R RGui (64-bit) - [R Console] 
R File Edit View Misc Packages Windows Help 


ÉSOISOSIOIE 


int_simulations<-10000 
treshold<- -10 


Y<-rnorm(l)+treshold 

h<-as.integer (Y<=treshold) 

mc _ process echant prefer<-data.frame (instance num=i, 
m=mean(h[1]*exp((-treshold) *Y+0.5%(treshold)"2))) 


for(k in 2:int simulations) !{ 
Y<-rnorm(k)+treshold 
h<-as.integer (Y<=tresholü) 
mc process echant prefer[k,]<-data.frame (instance num=k, 
m=mean (h*exp ( (-treshold) *Y+0.5*(treshold)”"2))) 
} 


mean (h*exp ((-treshold) #Y+0.5*(treshold)"2)) 
1] 7.552098e-24 


library("ggplot2") 

ggplot (data=mc process echant_prefer) + 
geom_line (aes (x=instance num, y=m) ) + 
geom_hline (yintercept=7.619SE-24,color="red") 


> 
> 
> 
> 
> 
> 
+ 
> 
> 
+ 
+ 
+ 
+ 
o 
> 
> 

[ 
> 
> 
> 
+ 
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EC 


RR Graphics: Device 2 (ACTIVE) ©)" ©" /|mèm 


2.797709e-23 - 
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Méthode d'acceptation/rejet 


Comme nous l'avons vu dans le cours théorique il s'agit d'une méthode dont l'algorithme 
permet de générer des variables aléatoires d'une fonction de densité difficilement inversible 
est très simple à mettre en place. 


L'idée très académique mais néanmoins plus réaliste qu'avec l'exemple pris dans la formation 
MATLAB est de générer un vecteur de variables aléatoires d'une distribution beta de 
paramètres 6 et 3: 


© 

m 
2, d d à \ 
om © f 
© « / \ 

4 f 
x 4 
_ \ 
S 4 
2 © / À 
Le) = 4 
PA 
4 
# 
oO nn dd \ 
[=] EE ——— 


0.0 02 0.4 0.6 0.8 1.0 


Nous avons alors trivialement: 


sample.x = runif(100000,0,1) 
accept = ci) 


> 
e) 
> 
> for(ii in 1:lengthisample.x)){ 

+ U = runifi(i, O, 1) 

+ if(dunif(isample.x[i], O0, 1)#3#%UÙ <= dbeta(sample.x[i], 6, 3)) { 

+ accept[i] = 'Yes'! 

+ } 

+ else ifdunif (sample.x[i],0,1) *3#U > dbhbeta(sample.x[i], 6, 3)) { 
+ accept[i] = 'No' 

+ } 

+ } 

> 

> 

> 

> 

> 


T = data.frame (sample.x, accept = factor (accept, levels= c('Yes','No'))j) 


library(ggplot2) 

print (qplot (sample.x,data=T,geom='histogram',fill=accept,binwidth=0.01)) 
Message d'avis 
rc requires constant width: output may be incorrect 
> 
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Ce qui donne visuellement: 


accept 


Yes 
No 


l l 1 
0.25 0.50 0.75 
sample x 
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Méthode de Monte-Carlo par chaînes de Markov 


Comme déjà vu dans le cours théorique, les méthodes de Monte-Carlo par chaînes de Markov, 
ou méthodes MCMC pour Markov chain Monte Carlo en anglais, sont une classe de méthodes 
d'échantillonnage à partir de distributions de probabilité. Ces méthodes de Monte-Carlo se 
basent sur le parcours de chaînes de Markov qui ont pour lois stationnaires les distributions à 
échantillonner. 


Certaines méthodes utilisent des marches aléatoires sur les chaînes de Markov (algorithme de 
Metropolis, de Metropolis-Hastings, échantillonnage de Gibbs), alors que d'autres 
algorithmes, plus complexes, introduisent des contraintes sur les parcours pour essayer 
d'accélérer la convergence (Monte Carlo Hybride, Surrelaxation successive). 


Méthode Chaîne de Markov continue 
Échantillonnage de Gibbs 


Comme nous l'avons vu dans le cours théorique, l'échantillonnage de Gibbs est une Chaîne de 
Markov de Monte Carlo (MCMOC) qui permet de générer des variables aléatoires pour des 
fonctions multivariées dont les distributions conditionnelles sont connues analytiquement. 
Nous avons également vu que l'algorithme converge typiquement vers la distribution 
conjointe uniquement si la fonction de distribution est unimodale ou n'a pas de forts pics 
(hautement leptokurtique). 


Nous allors d'abord reproduire ici le même exemple académique que celui étudié dans le 
cours théorique tiré du joli exemple de Dustin Stansbury: 
QŸ 
https://theclevermachine.wordpress.com/2012/11/05/memc-the-g1bbs-sampler/ 
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R RGui (64-bit) - [R Console] — 


R File Edit View Misc Packages Windows Help = le 


5) [SI 


library("car") #pour les ellipses de confiance plus tard 


Nsamples<-500 
mu<-c(0,0) #moyennes cibles des fonctions Normales 
rho<-c(0.8,0.8) #rho 21 rho_12 


#tinitialisation de l'échantillon de Gibbs 
propSigma<-1 
minn<-c(-3,-3);maxx<-c(+3,+3) 


#on initialise les échantillons 
#x<-phonTools::zeros(Nsamples, 2) 

x<-matrix( ncol=2, rep( 0, len=2*Nsamples)) 
x{[1,1]<-runif(l, min = minn{i], max = maxx{1]) 
x[1,2]<-runif(il, min = minn[2], max = maxx{2]) 


dims<- 1:2 #index dans chaque dimesion 


*#on exécute l'échantillonnage de Gibbs 
EST 
while (t < Nsamples) { 
t<=t + 1 
P<-c(t-1,t}) 
for (iD in 1:2) { #on boucle sur les dimensions 
*#on met à jour les échantillons 
nix<-(dims!=iD) 
#moyenne conditionnelle 
muCond <- mu[iD] + rhofiD]*(x[T[iD],nIx]-mufnix]); 
#variance conditionnelle 
varCond <- sqgrt(i-rho[iD]”2) 
x[t,iD] <-rnorm(il, mean=muCond, sd=varCond) 


} 


*+on affiche le graph 

stepsToDisplay<-10 

car::dataEllipse(x{,1], x{[,2],xlab = "x 1", ylab = "x 2",col="red", 
pch=19,cex = 0.5,levels=c(0.70,0.85,0.95,0.99),#fil11=-TRUE, 
fill.alpha=0.15, lty=1, lwd=1,main="Bivariate Gibbs Sampler") 


for(t in 1:stepsToDisplay)!{ 
lines(c(x[t,1],x[t+1,1]),c(x[t,2],x[t,2]), 1ty=2,cex = 1) 
lines(c(x[t+1,1],x[t+1,1]),c(x[t,2]1,x{t+1,2]), 1ty=2,cex 
points(x{t+1,1],x{t+1,2], pch=16, col="black", lty=2,cex 
text (x{t+1,1], x[t+1,2], labels=t, cex= 0.7, pos=4) 

} 

points(x[1,1],x[1,2], pch=16, col="green", lty=2,cex = 1) 
text (x{1,1], x[1,2], labels="start", cex= 0.7, pos=4) 


1) 


legend("bottomright", legend=c("Samples", paste("lst",stepsToDisplay,"samples"),"x(t=0)"), 
| col=c("red", "black","green"), pch = c(16,16,16), cex=0.8) 
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Ce qui donne typiquement: 
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# 


RR Graphics: Device 2 (ACTIVE) EN EE 


Bivariate Gibbs Sampler 


( 
[ 
x © 
+ 
+ Samples 
+ st 10 samples 
+ x(t=0) 
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Il existe même un package qui implémente une version animée et donc pédagogique du 
l'échantillonneur de Gibbs pour deux lois Normales centrées réduites. Il s'agit du package 
bayesm et de sa fonction rbiNormG:ibb( ): 
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R F Console EE 


> library("bayesm") 

> rbiNormGibbs(initx=-2,inity=2,rho=0.8,burnin-100,R=500) 
Bivariate Normal Gibbs Sampler 

rho= 0.8 

initial x,y coordinates= ( -2 , 2 

burn-in= 100 R= 500 


Starting Gibbs Sampler 
(hit enter or y to display moves one-at-a-time) 
(‘go' to paint all moves without stopping to prompt) 


cont?y 

cont?y 

cont?y 

cont?y 

cont?y 

cont?n 

Show Comparison to 1id Sampler ?| 


A Graohies: Device 2 (ACTIVE) Cs] [a] KE 


Gibbs Sampler with Intermediate Moves: Rho = 0.8 
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Exemples 315.: Test de permutation 
R 3.4.2 


Nous avons vu dans le cours théorique la figure suivante (le dernier cas est plutôt pour le 
machine learning que nous traiterons plus dans le chapitre correspondant!): 


Æ 


Permutation 

Randomization test 
sample 

Bootstrap 
sample 

Jacknife 


cross validation 


sample Training Test 


Nous allons donc aborder dans ce qui suit et dans l'ordre un exemple de test de permutation, 
des tests de Bootstrap et des tests jacknifes! 


Donc rappelons que le test de permutation s'applique pour les types de test ou l'hypothèse 
nulle est qu'il n'y a pas de différence entre les jeux de données à comparer (condition sous 
laquelle on peut les mélanger pour continuer avec la même hypothèse). 
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MR Au (E1-0iC - IR Console 


File Edit View Mnc Packages Windom Hep 


Sa] S[elS) @[s] 


fleterozygous (BA) 
a<-c(86,86,89,89,92,93,94,94,94,95,96,9€,96,97,97,98,98,99,99,101,106,107,110,113,116,118) 


VTT V 


#Eomozygous (2B) 
b<-c(88, 30, 92,93, 93, 96, 93, 99, 98, 102, 103, 104, 105, 196, 106, 107,108, 10€, 110, 110,112, 114, 116, 116) 


fFusion des deux jeux de données puisque sous l'hypothèse nulle 
Nil n'y pas de différence entre les deux groupes 
combined<-c(a,b) 


fDifférence chservés initiale 
diff.observed<-mean(b) - mean(a) 


number _of_permutations<-100C 


diff.random<-NULL 
fox (i 1n L 3 number_ot_permutations) (| 


# Sample from the combined dataset without replacement 
shuffled<-sample (combined, length(combined)) 


à.random<-shuffled{l : lengthi(a)] 
b.random<-shuffled{(length(a) + 1) : length(combined)] 


# n=uli (permuated) difference 
diff.random{i}<-mean(b.random) - mean(a.random) 


} 


fLa p-value est la fraction du nombre de fois les Sifférences permutées sont égales 
#au plus grandes que la différence cbservées 

pvalue<- sum(abs(diff.random) >= abs(diff.observed))/rumber of permutations 

pvalue 

1] 0.04 


VeNNVNNNReRtR + ER RER ENV VV NV NV NN NV NV 
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Exemples 316.: Bootstrap 
R 3.02 


Nous allons voir ici une des techniques de statistiques dites par "permutations" que nous 
avons traité dans le cours théorique. Et comme à l'habitude... par difficulté croissante! 


Bootstrapping univarié 


Nous allons ici mettre en oeuvre avec une facilité extrême l'exemple d'inférence par méthode 
brute que nous avions mis en place avec MS Excel. 


Nous partons du même jeu de données et allons aussi faire de l'inférence sur la médiane en 
utilisant les commandes boot() et boot.ci() du package boot: 


KR Fichier Edition Voir Misc Packages Fenêtres Aide 


> libraryi"boot") 

> mesures<-c(16,12,14,6,43,7,0,54,25,13) 

> median(imesures) 

Li] 13.5 

> mediane<-function(x,indices){median(x[indices])} 

> mediane.boot<-boot (msures,mediane,R=999 ,stype="i",sim="ordinary") 
> boot.ci(mediane.boot,conf=0.95,type=ci("norm!","perc")) 

BOOTSTRZP CONFIDENCE INTERVYAL CALCULATIONS 


Based on 999 bootstrap SU do 


CALL : 
boot.ciiboot.out = mediane.boot, conf = 0.95, type = c{"norm'", 
"perc 1 ] 


Intervals 

Level Normal Percentile 

95* ( 2.76, 22:00 ) { 7.00, 29.50 } 
En and Intervals on Original Scale 
> 


« 


Donc comme nous pouvons le voir pour la partie percentile que nous avions calculé avec 
Microsoft Excel nous ne sommes pas loin puisque nous avions obtenu (7.00, 29.5)... mais pas 
sans peine! 


Nous pouvons facilement accéder au valeurs bootstrappés de la variable mediane.boot. Pour 
cela 1l suffit d'écrire: 
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UR RGui (64-bit) - [R Console] — Û 


GR File Edit View Misc Packages Windows Help 5 x 


> dim(mediane.boot$St) 

[1] 999 1 
> head(mediane.bootSt,30) 

[,1] 

El;1 43:20 

[2,1] 14.0 

[3; 1, 14: 

[4,1] 10. 

15,7 12>- 

[O;: T1: 12: 

LE 213: 

[8,1 14- 

ES; 4 13: 
FLO, 7 15: 
EELST 15: 
11251 9. 
[13,1 34: 
IL#Æ,1 13: 
LLS:T LE: 
[16:11 25: 
[17,] 14. 
LEB TJ. L3:- 
[19,] 6. 
[20,1 12: 
[2L;1: 153: 
[22;1 13: 
[235;1: 12: 
[24,] 14. 
[25,1 FE 
[26,1 16: 
[2721 15- 
[28,] 20. 
[29,1 13. 
304 1 29: 
> | 


nUMmOOCOUNOCOOnMmOQCOOCOCOCOQOUnmOOnOCOonmMmOQ 


Nous pouvons avoir un petit complément graphique: 
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R R Console 


> plot imediane.boot) 
> quantile (mediane.boot$t,c(0.025,0.975)j) 
2.5% 97.5% 
6.5 29.5 
>| 


Histogram of t 


10 20 30 40 50 -3 -2 -1 0 


| Quantiles of Standard Normal 


Et ainsi de suite pour toute autre statistique possible et imaginable! 
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Sciences.ch 


Bootstrap Skewness et Kurtosis 


Il est bien évidemment aussi possible de faire un aussi une analyse bootstrap du kurtosis et 
skewness. Pour cela, pour nous simplifier la vie et avoir une certaine esthétique prémâchée, 
nous pouvons faire usage de la fonction descdist() déjà vue plus haut mais cette fois-ci avec 
un paramètre boot comme illustré ci-dessous: 


R ji (64 
BR File Edit View Misc 


PTE] 


Packages 


Windows Help 


> mydata<-read.csv("VentesClean.csv",header=T,sep=";:") 


> library("fitdistrplus") 


> descdist (mydata$Quantité,boot=500) 


summary statistics 
min: ll max: 33 
median: 6 

mean: 8.110092 


estimated sd: 6.314797 
|estimated skewness: 1.696139 
estimated kurtosis: 6.1447 


> | 


Ce qui donne visuellement: 


e 


= 


R ER ES 
Cullen and Frey graph 
Fe *Obseration Theoretical distributions 
A © bootstrapped values #normal 
 - Auniform 
: ® exponential 
© — : “+logistic 
TS ° * © beta 
Us = lognormal 
T — 
+ en. -- gamma 
"3 S (Weibul is close to gamma and lognormal) 
» wo - 
ao 
Fe 
— 
2 r ° 
°e 
eo 2 
œo - 5 ‘ ee Cut 
° 
e £ ++ 
om — . e 
See 
S . ° 
o ne. 
ZE - _ ° 
n.. 
_ 
T T T T T T l 
0 1 2 3 4 5 6 7 
square of skewness 
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Sciences.ch 


Bootstrapping multivarié 


Le but ici va être de reprendre l'exemple que nous avons fait lors de notre étude plus haut d'un 


test de permutation: 


R 
R File Pack 


SE EECCE 


Misc 


Windows Help 


-__ 2x 


# Heterozygous (BA) 


a = c(86, 88, 89, 689, 92, 93, 94, 94, 94, 95, 95, 96, 96, 97, 97, 98, 98, 99, 99, 101, 
# Homozygous (BB) 
b = c(89, 90, 92, 93, 93, 96, 99, 99, 99, 102, 103, 104, 105, 106, 106, 107, 108, 108 


# Différence des moyennes 
diff.observed = mean(b) - 


entre les deux jeus de données 
mean (a) 


# Niveau de confidence 
alpha = 0.05 


# Nombre de réplique 
n = 1000 


# On initialise la variable (vecteur) de différences (n réplicats) 
diff.bootstrap = NULL 

fox (4 in 1 5: n}) À 

# échantillon avec remplacement 
a.bootstrap = sample (a, length(a), TRUE) 
b.bootstrap = sample (b, length(b), TRUE) 
diff.bootstrap{i] = mean(b.bootstrap) - mean(a.bootstrap) 
} 


# Intervalle de confiance (exemple parmi d'autres) 

quantile(diff.bootstrap, c(alpha/2, 1 - alpha/2)) 
2.5% 97.5% 

-2938301 9.4879808 


VV +H++HVVVVVVVVVV VV NN VV VV OV 


vo 


Donc rien à dire de spécial. C'est de la simple algérithmique! 
< 


| 
106, 107, 110, 113, 116, 118) | 


110, 110, 112, 114, 116, 116) 
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Bootstrap d'adéquation 


Avec les fonctions fitdist() et bootdist() du package fitdistrplus nous pouvons faire du 
bootstrapping sur les paramètres des lois (distributions) ajustées comme l'illustre bien 
l'exemple ci-dessous: 


R RGui (64-bit) - [R Console] (! K | 


R File Edit View Misc Packages Windows Help = - 


| 


> mydata<-read.csv("VentesClean.csv",header=T,sep=";") 

> library("fitdistrplus") 

> fn <- fitdist (mydata$Quantité, "norm") 

> fn 

Fitting of the distribution ‘" norm ' by maximum likelihood 

Parameters: | 
estimate Std. Error | 

mean 8.110092 0.6020669 

sd 6.285763 0.4257255 

> #avec bootstrap 

> bootdist(fn,niter=1000) 

Parameter values obtained with parametric bootstrap 


mean sd 

1 8.137398 6.758061 

2 7.546510 6.627640 

3 7.563499 6.571157 

4 8.461866 6.117328 

5 7.120518 6.743617 | 
6 9.279189 6.131312 | 
> 


summary (bootdist(fn,niter=1000)) | 
Parametric bootstrap medians and 95% percentile CI 
Median 2.5% 97.5% 
mean 8.102571 6.955219 9.258094 
sd 6.230051 5.411973 7.119082 
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Régression Bootstrap 


Nous allons faire une régression bootstrap multivariée de notre fameux jeu de données: 


Fichier Edition Format Affichage 2 


Mois;Couts;CoutA;CoutB;Coute 
1:44439;515;541;928 
2:43936;929;:692;711 
3;44464 ; 800; 710; 824 
4:41533;979;675;758 
5:46343;1165;1147;635 
6;,44922;:651;939; 901 
7:43203;:647;755; 580 

8 ;, 43000; 942; 908; 589 
9;:40967;630; 738 ; 682 
10;:48582;1113;1175;1050 
11:45003;1086;1075; 984 
12:44303;843;640;828 
13:42070; 500; 752; 708 
14:44353;813;989;804 
15:45968; 1190; 823; 904 
16;47/781;1200;1108 ; 1120 
1/7;43202;731;590;1065 
1844074 ;1089;607;1132 
19;:44610;/86;513;839 


« 


Ÿ 
Nous allons faire un bootstrap sur tous les coefficients avec un intervalle de 95%: 


KR RGui {64-bitj - [R Console] — O X 
R File Edit View Misc Packages Windows Help 


library(boot) 
mydata<-read.csv("c:/tmp/RegressionLineaireMultiple.csv",header=T,sep=":") 


bs <- function(formula, data, indices) { 
d <- data[indices,] # autorihse la fonction boot à choisir le coefficent N 
fit <- Ilm(formula, data=d) 
return(coef{fit)) 

} 

# bootstrapping avec 1000 réplications 


results <- hoot (data=mydata, bs, R=1000, formula=Couts-Couti+CoutB+CoutC,stype="i") 


VV +HNVYY 


Ensuite nous lançons l'analyse quantitative: 
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> results 


ORDINARY NONPARAMETRIC BOOTSTRAP 


Call: 
boot (data = mydata, statistic = bs, R = 1000, stype = "i", formula = Couts - 
Couti + CoutB + CoutC) 


R 


Bootstrap Statistics : 

original bias std. error 
t1i* 35102.900449 45,6235841 1981.443404 
t2* 2.065953 0.1415006 1.578133 
t3* 4.176356 -0.3866393 1.805188 
| 4.790641 0.1531021 1.811701 
> 


et la qualitative de la constante: 


> plotiresults, index=1) # constante 


Histogram of t 


es po 
30000 35000 40000 -3 -2 -1 O 


Q 
[ail 
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(= 
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=} 
Q 
Q 
[y 
L0 
Q 
[=à 
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= 
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= 
[æ 


t Quantiles of Standard Normal 
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Du premier coefficient: 


> plot (results, index=2) 


Histogram of t 


0.25 


[= 
N 
(=) 


0.15 


000 005 0.10 


ES DS RS ES 
4 -2 0 2 4 6 8 10 -3 -2 1 0 1 2 3 


t Quantiles of Standard Normal 


et ainsi de suite jusqu'à index=4. 
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Exemples 317.: Jacknife 
R 3.0.2 


Bootstrapping univarié 


Le but ici va être de mettre en pratique la technique jacknife mentionnée dans le cours 
théorique de Méthodes Numériques avec une petite régression univariée. 


Nous allons de suite voir avec cet exemple pourquoi la taille de l'échantillon a une importance 
plus grande avec le Jacknife qu'avec le Bootstrap que nous verrons juste après: 


Fe 


R R Console | ss 
> mydata<-read.csv("C:/RegressionLineaireUnivariee.csv",header=T,sep=";") 

> #on regarde combien nous avons de mesures 

> v.length<-length(mydata$Ventes) 

> #on préalloue un vecteur de même dimension car il y aura autant de simulation 
> jack.reg<-numeric(v.length) 

> #on fait la simulation 

> forii in 1:v.length)!{ 

+ model<-lmimydata$Ventes([-i]-mydata$Mois[-i]) 

+ jack.reg[i]<-coef (model) [2] 

+ } 

> #et on chserve que dans ce cas particulier on pourra pas faire grande chose 

> #comme inférence sur la pente de la droite de régression 

> hist ({jack.reg) 

> | 


Cela donne donc: 
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Histogram of jack.reg 


Frequency 


11 12 13 14 15 16 


jackreg 


S 


ou en utilisant directement la commande jackknife( ) du package bootstrap: 


R Fichier Edition Voir Misc Packages Fenétres Aide 


library(bootstrap) 
mydata<-read.csv("C:/RegressionLineaireUnivariee.csv",header=T,sep=";:"] 
l<-dimimydata) [1] 

mySlope<-function(indice,data) 

{ 

coef(lmidata[indice,2]-data[indice,1]))1[2] 

} 

j=jackknife(il:1l,mySlope,data=mydata) 

summary(j$jack.values) 

Min. 1st Qu. Median Mean 3rd Qu. Max. 
0.916 1.207 12421 1.223 1.230 1.597 
> j$jack.se 
[1] 0.4598815 
> j$jack.bias 
data[indice, 1] 

0.02051068 


> 
> 
ra 
> 
+ 
+ 
+ 
> 
r à 


> | 


« 


et pour le jacknife d'une simple somme: 
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R RGui (64-bit) - [R Console] 
R File Edit View Misc Packages Windows Help 


library(bootstrap) 
x<-c(20,50,60,80,100,40,30) 
theta<-function(x){sum(x) } 
j<-jackknife(x,theta) 


summary (j$jack.values) 


Min. ist Qu. 
280.0 310.0 
> j$jack.se 
[1] 63.95151 
> j$jack.bias 
[1] -325.7143 
>| 


Median Mean 3rd Qu. Max. 
330.0 


325.7 345.0 360.0 


et pour avoir une petit histogramme vite fait mal fait: 


> hist(j$jack.values) 


> 
[e] 
[en 
Lo] 
= | 
[ex 
o 
[= 
LL 


Histogram of j$jack.values 
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Régression Jacknife 


Nous allons faire une régression bootstrap univariée sur le coefficient de pente (mais le 
principe est identique pour le cas multivarié) de notre fameux jeu de données: 


D] RegressionLineaireUnivariee.csv - Notepa _ = 


File Edit Format View Help 


Mois ; Ventes 
3;4 

6;9 

7,12 

8,15 

9:17 

19,16 
111,17 

12,18 

15,18 


Et allons-y pour le code avec l'intervalle de confiance à 99% calculé via les quantiles: 


Are 
R [F 
R File Edit View Misc Packages Windows Help | 411% 


ÉBOISESINIE 


> library("bootstrap") 

> mydata<-read.csv("C:/tmp/RegressionLineaireUnivariee.csv",header=T, sep=";") 
> 

> slope <- function(x,xdata) { 

fit <- Im(formula=Ventes-Mois, data=xdataf{x,]) 

return(coef(fit)[2]) #pente 


& 
+ 
FT) 
> 
> j<-jackknife (1:nrow(mydata),slope,mydata) 
> j$jack.values 
[1] 0.9159664 1.1696801 1.2303665 1.2452592 1.2200000 1.2111252 1.2068063 1.2072323 
[9] 1.5966387 
> hist (j$jack.values) 
> median(j$jack.values) 
EL] 1:211125 
> (LB<-quantile(j$jack.values,0.005)) 
0.5% 

0.9261149 
> (UB<-quantile(j$jack.values,0.995)) 

959:5% 
1.582583 
> | 


Notez qu'il y a bien 9 valeurs Jacknife! 


Et l'histogramme correspondant: 
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ME Srphies D=vice 2 (ACTIVE (s|lm|zx| 


Histogram of j$jack.values 


Frequency 
3 
| 


[ T T I T T T | 
0.2 1.0 1.1 12 13 14 1.5 16 


j$jack values 


Ke 
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22. Méta-analyses 


Exemple: p-valeurs ajustées 


Dans le cours théorique nous avons traiter de différentes techniques d'ajustement des p-values 
dans le cadre des méta-analyses. 


Voyons un cas simple d'application: 


R File Edit View Misc Packages Windows Help __5 


#*on crée un petit data frame de p-value à la main 

Input<-(" | 
Test Raw.p 

H1 0.01 | 
H2 0.04 

H3 0.03 

H4 0.005 


mydata<-read.table (textConnection(Input),header=TRUE) 


### on trie par p-value croissant 


VYNVNNVNVNVN ER NV YV 


(mydata<-mydata[order (mydataS$Raw.p),]) 
Test Raw.p 


4 H4 0.005 
1 Hi 0.010 
=. H3 0.030 
à H2 0.040 
> 


Utilison maintenant la fonction p.adjust( ) du package FSA: 
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MR RGui (64-bit) - [R Console] — 


| R File Edit View Misc Packages Windows Help Fe x 
SITaI 


> library("FSA") #Fisheries Stock Assessment 

> (mydata$Bonferroni<-p.adjust (mydataS$Raw.p,method = "bonferroni")) 
[1] 0.02 0.04 0.12 0.16 

> (mydataS$BH<-p.adjust (mydataS$Raw.p,method = "BH")) 

[1] 0.02 0.02 0.04 0.04 

> (mydata$Holm<-p.adjust (mydata$Raw.p,method = "holm")) 

[1] 0.02 0.03 0.06 0.06 

> (mydataS$Hochberg<-p.adjust (mydataS$Raw.p,method = "hochberg")) 
[1] 0.02 0.03 0.04 0.04 

> (mydataS$Hommel<-p.adjust (mydata$Raw.p,method = "hommel")) 

[1] 0.02 0.03 0.04 0.04 


> (mydataS$BY<-p.adjust (mydataS$Raw.p,method = "BY")) 
[1] 0.04166667 0.04166667 0.08333333 0.08333333 
” 
> mydata 

Test Raw.p Bonferroni BH Holm Hochberg Hommel BY 
< H4 0.005 0.02 0.02 0.02 0.02 0.02 0.04166667 
L H1 0.010 0.04 0.02 0.03 0.03 0.03 0.04166667 
3 H3 0.030 0.12 0.04 0.06 0.04 0.04 0.08333333 
2 H2 0.040 0.16 0.04 0.06 0.04 0.04 0.08333333 
> 
> +#ou: 


> stats::p.adjust(c(0.01,0.04,0.03,0.005), method ="bonferroni") 
[1] 0.04 0.16 0.12 0.02 

> stats::p.adjust(c(0.01,0.04,0.03,0.005), method ="BH") 

[1] 0.02 0.04 0.04 0.02 

> stats::p.adjust(c(0.01,0.04,0.03,0.005), method ="hochberg") 
[1] 0.03 0.04 0.04 0.02 

> stats::p.adjust(c(0.01,0.04,0.03,0.005), method ="holm") 

[1] 0.03 0.06 0.06 0.02 

> #etc.. 

>| 


Nous pouvons aussi faire un graphique: 
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" R Console 
X <- mydata$Raw.p 
Y <- chbind(mydataS$Bonferroni,mydata$BH,mydata$Holm,mydataS$Hochberg, 
mydataS$Hommel,mydataS$BY) 
matplot (X,Y,xlab="Raw p-value",vylab="Adjusted p-value",type="l", 
asp=1l,col=1:6,1ty=1,lwd=2) 


"Hommel”, "BY"),col = 1:6,cex = 1,pch = 16) 


abline (0, 1,col=1,1lty=2,lwd=1) 


> 
> 
+ 
> 
> 
+ 
> 
> legend('bottomright', legend = c("Bonferroni", "BH", "“Holm", "Hochberg", 
+ 
> 
> 
> 
LL 


R'Grsphiés Device 2 (ACTIVE) CHROME 


Adjusted p-value 
0.06 008 0.10 0.12 014 0.16 


0.04 


0.02 


-005 0.00 0.05 0.10 


Raw p-value 
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23. Décisionnel 


Bon pour l'instant pour être honnête je n'ai pas trouvé grand-chose au niveau décisionnel dans 
R donc ce chapitre a un contenu qui est négligeable. Cependant et comme à l'habitude cela 


permet de vérifier des résultats calculés à la main dans le cours théorique. 


Exemple 318.: Business Process Analysis 


R 3.4.1 


Pour étudier les fonctions de business process analysis, nous allons nous baser sur les 
packages bupakR, xesreadR et processmapR (tous du même auteur!) et en utiliser un fichier 
* xes (eXtensible Event Stream”) avec le contenu suivant: 


> CO CO —J OU O1 & C9 FD — 


& 


Case ID 


DNINNDNNNNNNMNNNMNMNMNMNMONOSR LB LB LB 09 C9 Co Co Co CO Co CO C9 NN NN ND un nu mu mu 


EventiD dd-Mh-uw äctivity 
35654423 30-12-2010:1 register req Pete 
35654424 31-12-2010:1 examine th Sue 
35654425 05-01-2011! check ticke Mike 
35654426 06-01-20111 decide Sara 
35654427 07-01-2011: reject reque Pete 
35654483 30-12-2010:1 register req Mike 
35654485 30-12-2010:1 check ticke Mike 
35654487 30-12-2010:1 examine ca Sean 
35654488 05-01-2011 decide Sara 
35654489 08-01-2011: pay compet Ellen 
35654521 30-12-2010:1 register req Pete 
35654522 30-12-2010:1 examine ca Mike 
35654524 30-12-2010:1 check ticke Ellen 
35654525 06-01-2011:0 decide Sara 
35654526 06-01-2011: % reinitiate re Sara 
35654527 06-01-2011: T examine th Sean 
35654530 08-01-2017 check ticke Pete 
35654531 09-01-2010 decide Sara 
35654533 15-01-2011 pay compei Ellen 
35654641 06-01-2011 register req Pete 
35654643 07-01-2011 check ticke Mike 
35654644 08-01-2011: examine th Sean 
35654645 09-01-2011: 1 decide Sara 
35654647 12-01-2011 reject reque Ellen 

35654711 06-01-2011:0 register req Ellen 
35654712 07-01-2011: 1 examine ca Mike 
35654714 08-01-2011:T check ticke Pete 
35654715 10-01-2011: decide Sara 
35654716 11-01-2016 reinitiate re: Sara 
35654718 14-01-2011: check ticke Ellen 
35654719 16-01-2011 exarnine ca Mike 
35654720 19-01-2011: 1 decide Sara 
35654721 20-01-2011: T reinitiate re: Sara 
35654722 21-01-2011.0! examine ca Sue 

35654724 21-01-2011: 11 check ticke Pete 
35654725 23-01-2011 1 decide Sara 
35654726 24-01-2011: reject reque Mike 
35654871 06-01-2011: 1! register reg Mike 
35654873 06-01-2011 examine ca Ellen 
35654874 07-01-2011 check ticke Mike 
35654875 07-01-2011 decide Sara 
35654877 16-01-2011: 11 pay comper Mike 
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Donc nous chargeons d'abord les packages et ensuite le fichier *.xes d'exemple à l'aide de la 


fonction read_xes( ) : 


33 I] s'agit du format normalisé des logiciels qui stockent en temps réel ou manuellement les étapes d'avancement 


de processus business. 
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MR RGui (64-bit) - [R Console] 


ŒR File Edit View Misc Packages Windows Help 


> library("xesreadR") 
> library("processmapR") 
> eventlog<- read xes("c:/tmp/business process event _analysis.xes") 
Warning messages: 
1: In read xes("c:/tmp/business process event _analysis.xes") : 
No lifecycle transition id specified in xes-file 
2: In read xes("c:/tmp/business process event _analysis.xes") : 


No activity instance identifier specified in xes-file. By default considered each event a$ 


> 

> eventlog 

Event log consisting of: 
42 events 

6 traces 

6 cases 

8 activities 

42 activity instances 


# À tibble: 42 x 10 


CASE_concept_name CASE creator Activity activity id Costs 
<chr> <chr> <chr> <chr> <chr> 
1 3 Fluxicon Nitro register request register request 50 
2 3 Fluxicon Nitro examine casually examine casually 400 
3 3 Fluxicon Nitro check ticket check ticket 100 
4 3 Fluxicon Nitro decide decide 200 
5 3 Fluxicon Nitro reinitiate request reinitiate request 200 
6 3 Fluxicon Nitro examine thoroughly examine thoroughly 400 
7 3 Fluxicon Nitro check ticket check ticket 100 
8 3 Fluxicon Nitro decide decide 200 
g 3 Fluxicon Nitro pay compensation pay compensation 200 
10 2 Fluxicon Nitro register request register request 50 
# ... with 32 more rows, and 5 more variables: resource _id <chr>, 
$ Resource <chr>, timestamp <dttm>, lifecycle id <lgl>, 
* | activity instance id <int> 
> 


La] 


Nous avons d'abord le graphique suivant nommé bien évidemment dotted_ chart: 
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MR Console 
> eventlog $>% dotted chart 
> | 
ŒRR Graphics: Device 2 (ACTIVE) 
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Figure 290 Graph évolution processus 


Qui par Case_ID donne donc la répartition dans le temps du type d'activités identifiées ou 


déclenchées. 


Ensuite, on a la commande activity_dashboard: 
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| 


( 


BR RGuI 64-bit) - [R console] 


R File Edit View Misc Packages Windows Help xl 


> eventlog $>$ activity dashboard | 
Loading required package: shiny 
| 
| 


Listening on http://127.0.0.1:5552 


Qui donne bien l'impression de lancer un tableau de bord R Shiny: 


Scientific Evo... 


D 127.001:5552 x 


Favoris Sciences.ch Scientific-Evolutior Ce] Traduction Permutation Test r- resampling / sir #3 jQuery Tutorial 


Activity dashboard 


Activity Frequency Activity Presence 


decide 


Dr mr | 


register request 
Activity Frequency 


examine casually 


Activities 


reject request 
reinitiate request 
pay compensation 


examine thoroughly 


50 
Absolute Activity Frequency 


Scientific Evo... 


À 12700.1:5552 
CE CA 


ery Tutorial 


Activity dashboard 


Activity Frequency 


Œ. request 


decide 


checkticket 


examine casually 


reject request 


pay compensation 


examine thoroughly 


reinitiate request 


Relative Activity Presence 
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Et la commande resource_dashboard: 


R RGui (64-bit) - [R Console 


8 File Edit View Misc Packages Windows Help E X 


> eventlog $>$ resource dashboard 


Listening on http://127.0.0.1:5552 


Qui donne une multitude de graphiques (dont certains sont redondants): 


Scientific Evo. 


À 127.00.1:5552 


CMAR © 127.00.1:5552 ? L- 8 9? 
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Cancel Resource dashboard 
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D m/0vvsssz 


Rcsowce hequency Resource involvement 
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D m/0vvsssz 
r_resamoling / 


Resources dashboard 
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Scientific Evo. 


D 127.00.1:5552 
® à e © 


fic-Evolution.c. Google Traduction Permutation Test - sims ÆS jQuery Tutorial 


Cancel Resource dashboard 
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ou encore avec la commande rework_dashboard: 


View Misc Packages Windows Help … À X 


> eventlog $>%5 rework dashboard 
Loading required package: shiny 


Listening on http://127.0.0.1:3025 
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Ce qui donne: 


Scientific Evo. 
D 127.00.1:3025 


oo CESSE = -# ++ co: 


Scientific-Evolution Bg Google Traductio Permutation Test r - resampling / sin Æ jQuery Tutorial 


Rework dashboard 


Selfloops Repetitions 


Last resource of selfloop) 


First resource of selfloop 


Scientific Evo. 
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Et pour la commande performance_dashboard: 
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View Misc 


Packages Windows Help 


> eventlog $5>% performance dashboard 


Listening on http://127.0.0.1:3025 


Warning: Error in mutate impl: Evaluation error: can only subtr$ 


Stack trace (innermost first): 


131: <Anonymous> 


Ce qui donne (nous n'avons pas représenté les graphiques vides!): 
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Scientific Evo. — Cl 
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| QR File Edit View Misc Packages Windows Help = ES 2% 


> eventlog 5>% 
filter trace frequency(perc = 0.9) %>% 
process map) 
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Ce qui donne: 


Scientific Evo. — [ 
[j index.html x 


(MAR © file:///C:/Users/Vincent%20lsoz/App.. + RARE Le ® à e © 
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Figure 291 Graph de résumé de flux de processus 


Ou encore avec la commande trace_explorer( ) : 
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R R Console 


> eventlog %>% 
+ | trace _ explorer (coverage = 0.9) 
> 


MR Graphics: Device 2 (ACTIVE) 


exmc|chct |decd }rntr chct pycm 


Meckticket 
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et la commande activity_presence: 
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MR Console 


> eventlog $>% activity presence %>% plot 
>| 


MR Graphics: Device 2 (ACTIVE) 


register request + 
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reject request 
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reinitiate request + 


0.50 
Relative Activity Presence 


et la commande resource_matrix: 
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> eventlog $>% resource matrix #$>% pilot 
>| 


Antecedent 
2 
è 


ue 
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et la commande precedence_matrix: 
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> eventlog $>% precedence matrix &>% plot 
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réinitiate request | 


register request | 
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Et pour ceux qui aiment les cheatsheets, voici cella du package bupaR: 
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Exemple 319.: Analyse ABC, XYZ et ABC-XYZ 
R 3.43 


Nous avons étudié dans le cours théorique dans le cadre de la logistique des deux analyses 
semi-quantitatives naïves que sont l'analyse ABC et XYZ ainsi que la mixture ABC-XYZ. 
Voyons donc si nous obtenons ici les mêmes résultats avec le même jeu de données. 


D'abord nous chargeons le package TStools et le jeu de données correspondant: 


4 RGui (64-bit) - [R Console] — 


GR File Edit View Misc Packages Windows Help #2 


EBOIBSCSIOIE 


La] 


> mydata<-read.csv("c:/tmp/xyz _analysis.csv",header=T, sep=";") 


> mydata 

Produit Quantité Mois 
1 Produitli 70 Janvier 
2 Produitli 65 Février 
3 Produiti 80 Mars 
4 Produitli 68 Avril 
5 Produitli 75 Mai 
6 Produiti 76 Juin 
7 Produiti 73 Juillet 
8 Produit2 20 Janvier 
9 Produit2 42 Février 
10 Produit2 36 Mars 
11 Produit2 37 Avril 
12 Produit2 28 Mai 
13 Produit2 40 Juin 
14 Produit2 18 Juillet 
15 Produit3 34 Janvier 
16 Produit3 17 Février 
17 Produit3 26 Mars 
18 Produit3 25 Avril 
19 Produit3 30 Mai 
20 Produit3 18 Juin 
21 Produit3 23 Juillet 
22 Produit4 18 Janvier 
23 Produit4 27 Février 
24 Produit4 20 Mars 
25 Produit4 10 Avril 
26 Produit4 15 Mai 
27 Produit4 7 Juin 
A PE 21 Juillet 
> 


< 


Ensuite nous réarrangeons le jeu de données comme il convient pour les fonctions du package 


TStools avec la fonction unstack(}) native à R: 
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UR RGui (64-bit) - [R Console] — 
| R File 


SFuSsCEE 


|> mydata<-unstack(mydata, Quantité-Produit) 
{> mydata 
Produiti Produit2 Produit3 Produit4 


V Jo 01 & & ND 


View Misc Packages Windows Help EF X 


70 20 34 18 
65 42 17 27 
80 36 26 20 
68 cri 25 10 
75 28 30 15 
76 40 18 7 
+3 18 23 21 


Faisons maintenant d'abord une analyse ABC avec la fonction abe( ) : 


ŒR RGui (64-bit) - [R Console] — 


R File Edit View Misc Packages Windows Help | 


> abc(mydata) 

ABC analysis 
Importance % 

A (20%): 49.755 

B (30%): 21.688 

CG 1505): 28.557 

> p” (abc (mydata)) 

> 


Ce résultat venant pour information du calcul suivant (tout à fait discutable!): 
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R RGui (64-bit) - [R Console] — X 


OR File Edit View Misc Packages Windows Help _ FX 


> mydata<-unstack(mydata,Quantité-Produit) 


> mydata 

Produiti Produit2 Produit3 Produit4 
L 70 20 34 18 
2 65 42 17 27 
3 80 36 26 20 
5 68 27 25 10 
5 75 28 30 15 
6 76 40 18 7 
7 73 18 23 21 
> x.mean <- colMeans (mydata, na.rm = TRUE) 
> x.mean 


Produiti Produit2 Produit3 Produit4 
72.422857 31.57143 24.714299 16.85714 
> x.rank <- order(x.mean, decreasing=TRUE) 
> x.rank 

[A1 LL 2 3 4 

> x.sort <- x.mean{[x.rank] 

> x.sort 

Produiti Produit2 Produit3 Produit4 
72.42857 31.57143 24.714299 16.85714 
> x.sort <- (x.sort/sum(x.sort))*100 
> x.sort 

Produiti Produit2 Produit3 Produit4 
Aou 21.68793 16.97743 11.57998 
> 


Ce qui donne visuellement: 
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ŒR Graphics: Device 2 (ACTIVE) EEE 
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Figure 293 Graph d'analyse ABC 


Maintenant faisons l'analyse XYZ avec la fonction xyz( ) en supposant 2 saisonnalités et la 
technique naïve (moyenne divisée par RMS): 


R RGui (64-bit) - [R Console] L 0 X 
GR File Edit View Misc Packages Windows Help #1 * 


> xyz(mydata,m=2,type="naive") 
XYZ analysis 
Errors % 
Z (20%): 44.468 
Y (30%): 24.284 
X (50%): 31.248 
> PE 
> 


< > 


Ce qui donne: 
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ll 
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Figure 294 Graph d'analyse XYZ 


Maintenant faisons l'analyse mixte avec la fonction abcxyZ ) : 
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GR RGui (64-bit) - [R Console] 


R File Edit View Misc Packages Windows Help 


ÉBROISOSINOIE 


Ce qui donne: 


r 
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Figure 295 Graph Analyse ABC-XZY 
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Exemple: Analyse RFM (récence, fréquence, monétaire) 
R4.1 


L'analyse RFM (récence, fréquence, monétaire) est une technique basée sur le comportement 
utilisée pour segmenter les clients en examinant l'historique de leurs transactions telles que 


e depuis combien de temps un client a acheté (récence) 
e combien de fois ils achètent (fréquence) 
e combien le client dépense (monétaire) 


Il est basé sur l'axiome marketing selon lequel 80% de votre entreprise provient de 20% de 
vos clients. RFM aide à identifier les clients les plus susceptibles de répondre aux promotions 
en les segmentant en différentes catégories. 


Pour calculer le score RFM de chaque client, nous avons besoin de données de transaction qui 
doivent inclure les éléments suivants : 


e un identifiant client unique 
e date de la transaction/commande 
e montant de la transaction/commande 


Pour cela nous allons utiliser le package rfm: 


r 


R 
R File Edit View Misc Packages Windows Help 


Bee 


> library("rfm") 


> #on peut aussi lancer un app Shiny interactive avec la commande 
> #rfm launch app{() 


> head(rfm data orders) 
customer _id order date revenue 


1 Mr. Brion Stark Sr. 2004-12-20 32 
2 Ethyl Botsford 2005-05-02 36 
3 Hosteen Jacobi 2004-03-06 116 
4 Mr. Edw Frami 2006-03-15 99 
1] Josef Lemke 2006-08-14 76 
6 Julisa Halvorson 2005-05-28 56 


|> str(rfm data orders) 

Classes ‘tbl_ df’, ‘tbl’ and 'data.frame': 4906 obs. of 3 variables: 

customer_id: chr "Mr. Brion Stark Sr." "Ethyl Botsford" "Hosteen Jacobi" "Mr. Edw Frami” ... 
order date : Date, format: "2004-12-20" "2005-05-02" "2004-03-06" "2006-03-15" ... 

revenue : num 32 36 116 99 76 56 108 183 30 13 ... 


nu uk 


Alors, comment le score REFM est-il calculé pour chaque client ? Les étapes ci-dessous 
expliquent le processus : 


e Un score de récence est attribué à chaque client en fonction de la date de l'achat le plus 
récent. Le score est généré en classant les valeurs de récence dans un certain nombre 
de catégories (la valeur par défaut est 5). Par exemple, si vous utilisez quatre 
catégories, les clients avec les dates d'achat les plus récentes reçoivent un classement 
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de récence de 4, et ceux avec des dates d'achat dans un passé lointain reçoivent un 
classement de récence de 1. 


e Un classement de fréquence est attribué de la même manière. Les clients dont la 
fréquence d'achat est élevée se voient attribuer un score plus élevé (4 ou 5) et ceux 
dont la fréquence d'achat est la plus faible reçoivent un score 1. 


e Le score monétaire est attribué sur la base du revenu total généré par le client au cours 
de la période considérée pour l'analyse. Les clients dont le chiffre d'affaires/le montant 
de la commande est le plus élevé se voient attribuer un score plus élevé tandis que 
ceux dont le chiffre d'affaires est le plus faible se voient attribuer un score de 1. 


e Un quatrième score, le score RFM est généré, qui est simplement les trois scores 
individuels concaténés en une seule valeur. 


Les clients ayant les scores RFM les plus élevés sont les plus susceptibles de répondre à une 
offre. Maintenant que nous avons compris comment le score RFM est calculé, il est temps de 
le mettre en pratique. Nous allons utiliser rfm_table_order() pour générer le score de chaque 
client à partir de l'exemple de jeu de données rfm_data_orders 


R File Edit View Misc Packages Windows Help 
|| &|2||@|1E 
> analysis date <- lubridate::as date("2006-12-31", tz = "UIC") 


Warning message: 
‘tz' argument is ignored by ‘as date() 
> rfm result <- rfm table order(rfm data orders, customer id, order date, revenue, analysis date) 
> rfm result 
# À tibble: 995 x 9 
customer_id date most_recent recency days transaction count amount recency score frequency score monetary score |rfm score 


<chr> <db1> <dbl> <dbl> <int> <int> <int> 
1 Abbey O'Reilly DVM 2 205 6 472 3 4 3 
2 Add Senger 140 3 340 4 EF 2 
3 Aden Lesch Sr. 194 4 405 3 2 3 
4 Admiral Senger 132 5 448 4 3 3 
5 Agness O'Keefe 90 gs 843 [] 5 5 
6 Aileen Barton 84 g 763 5 5 5 
7 Ailene Hermann 281 8 699 3 5 5 
8 Aiyanna Bruen PhD 246 4 157 3 2 L 
S Ala Schmidt DDS 349 3 363 2 1 2 
10 Alannah Borer 619 4 196 z 2 L 


# ... with 985 more rows 


On peut analyer le rfm score avec un heat map: 
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GR Console 


> rfm heatmap(rfm result) 


RFM Heat Map 


Mean Monetary Value 
800 


600 


400 


Ou encore: 
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> rfm histograms(rfm result) 


> | 
R R Graphics: Device 2 (ACTIVE) (re2r)|.03.)(6558) 
RFM Histograms 
Monetary Recency Frequency 


500 1000 750 1000 


ou encore: 
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fm order dist(rfm result) 


R R Graphics: Device 2 (ACTIVE) 
Customers by Orders 


Customers 
S 
[= 


187 
176 
150 
bai 143 
94 
83 
51 
F | | 


Orders 


ou encore: 
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> rfm rm plot(rfm result) 


(IR R Graphics: Device 2 (ACTIVE) 
Recency vs Monetary 


1000 - 


ou encore: 
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r 


0 500 1000 
Monetary 


R R “ : SO01E 
> rfm fm plot(rfm result) 
> | 
Re F 2 
Frequency vs Monetary 
L 2 
L 2 
L2 L] æ L] 
L] . L 2 
10- L] æ .... +. = ee 
L CON OERE O0 0 © 
> 
_ 0 00 © CODES L 1 . 
5 
Lex 
E . .. + e OR CR OMRES D © 02 © 


CB Tex) 
Sex) 
1500 


Classifisions maintenant nos clients en fonction de la récence individuelle, de la fréquence et 


des scores monétaires selon: 


Segment Description R F M 

Champions Bought recently, buy often and spend the most 4-5 4-5 4-5 
Loyal Customers _ Spend good money. Responsive to promotions 2-5 3-5 3-5 
Potential Loyalist Recent customers, spent good amount, bought more than once 3-5 1-3 1-3 
New Customers Bought more recently, but not often 4-5 <=1 <=1i 
Promising Recent shoppers, but haven’t spent much 3-4 <=1 <=1 
Need Attention Above average recency, frequency & monetary values 2-3 2-:3 2-3 
About To Sleep Below average recency, frequency & monetary values 2-3 <=2 <=2 
At Risk Spent big money, purchased often but long time ago <=2 2-5 2-5 
Can’t Lose Them Made big purchases and often, but long time ago <=1 4-5 4-5 
Hibernating Low spenders, low frequency, purchased long time ago 1-2 1-2 1-2 
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Lost Lowest recency, frequency & monetary scores <=2 <=2 <=2 


Pour faire cela nous écrirons dans R: 


C 


RGui (64-bit) - [R 


File Edit View Misc Packages Windows Help I5|x 


segment _names<-c("Champions", "Loyal Customers", "Potential Loyalist", 
"New Customers", "Promising", "Need Attention", "About To Sleep", 

"At Risk", "Can't Lose Them”, "Hibernating", "Lost") 

recency_ lower<-c(4,2,3,4,3,3,2,1,1,2,1) 
recency_upper<-c(5,4,5,5,4,4,3,2,1,3,1) 

frequency _lower<-c(4,3,1,1,1,3,1,2,4,2,1) 

frequency _upper<-c(5,4,3,1,1,4,2,5,5,3,1) 
monetary_lower<-c(4,4,1,1,1,3,1,2,4,2,1) 

monetary _upper<-c(5,5,3,1,1,4,2,5,5,3,1) 


segments<-rfm segment (rfm result, segment names, recency lower, recency_ upper, 
frequency lower, frequency upper, monetary lower, 

monetary_upper) 

segments 

A tibble: 995 x 9 


customer_id|segment [rfm score transaction cou- recency days amount recency score frequency score monetary score 


<chr> <db1> <db1> <db1> <dbl> <int> <int> <int> 
1 Abbey O'Re- 343 6 205 472 3 4 3 
2 Add Senger 412 3 140 340 + 1 2 
3 Aden Lesch- 323 4 194 405 3 2 3 
4 Admiral Se- 433 5 132 448 4 3 3 
5 Agness O'K- 555 9 90 843 5 5 5 
6 Aileen Bar- 555 s 84 763 < 5 5 
7 Ailene Her- 355 8 281 699 3 5 5 
8 Aiyanna Br- 321 4 246 157 3 2 1 
9 Ala Schmid- 212 3 349 363 2 L 2 
10 Alannah Bo- 121 4 619 196 Fa 2 1 
# ... with 985 more rows 
> 
L «© 
On peut réarranger cela avec dplyr: ee 
R 
° RGui (64-bit) - [R Console] — (m 
MR File Edit View Misc Packages Windows Help _ 
> library("dplyr") 
> segments $5>% 
_ count (segment) +5>% 
+ arrange (desc(n)) +%>% 
- rename (Segment = segment, Count = n) 
# À tibble: 8 x 2 
Segment Count 
<chr> <int> 
1 Potential Loyalist nr 
2 Champions 158 
3 At Risk 148 
4 Others 128 
5 Loyal Customers 126 
6 Lost 75 
7 About To Sleep 65 
8 Need Attention 18 
> | 


Et ensuite en faire des graphes divers et variés: 


R 
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MR À Console 


> rfm pilot median recency (segments) 


Champions - 


AtRisk- 


About To Sleep - 


200 400 
Median Recency 


OU: 
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M A Console 


> rfm pilot median frequency(segments) 


Median Frequency by Segment 


Champions - 


AtRisk- 


About To Sleep - 


Median Frequency 


OU: 
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MR À Console 


> rfm pilot median monetary(segments) 


Champions - 


AtRisk- 


About To Sleep - 


400 
Median Monetary Value 
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Exemple 320.: Modèles de Wilson 
R 3.5.1 


Nous allons avec le package SCperf et sa fonction EOQ() faire deux calculs classiques du 
domaine de la logistique (supply chain). 


D'abord les calculs (indicateurs classiques) du Modèle de Wilson avec réapprovisionnement 
instantanée: 


« | | | | 
R File Edit View Misc Packages Windows Help 


ÉBOISESIOIE | | 


> library("SCperf") 
> E0Q0(4000,100,7.76*0.1) 


| Q T TvC 
1015.35 0:25. 7987-91 
> results<-E00(4000,100,0.776) 


> 

> #on transforme la période en jours pour vérifier si on tombe sur la 
> tmême valeur que dans le cours théorique 

|> options(digits=S) #car le package SCperf change la valeur par défaut 
> results[[2]]*365 

l'EZLT 92:65 

> #cela correspond! 

> 

> #On vérifie la valeur du TVC car contrairement au cours théorique il ne prend 
> f#pas en compte le stock de sécurité 

> options (digits=5) 

> sqgrt(2*4000*100*7.76*0.1) 

[11] 787-91 

> | 


Les résultats correspondent donc bien à ceux du cours théorique tant au niveau de la quantité 
de commande optimale, quand la période de réapprovisionnement ou le coût de 
réapprovisionnement optimal! 


Maintenant voyons pour le modèle de Wilson avec taux de production et taux de 
consommation en reprenant les mêmes valeurs que dans l'exemple du cours théorique: 
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GR File Edit View Misc Packages Windows Help =) 
E 


> library("SCperf") 
> E0Q0(8000,12000,0.3) 
Q € TVC 

25298.2 3.2 7589.5 
|> EPO(d=200,p=1000,k=100,h=5) 

q t T I TC 
“T4 0.1 0.5 80.0 400.0 
” 


Les résultats correspondent là aussi bien à ce que nous avions calculé à la main dans le cours 
théorique! 
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Exemple 321.: Simulations Beta-PERT (three point estimates) 
R 3.43 


Nous avons vu dans le cours théorique que la distribution Beta-PERT est très utile en gestion 
de projets. Mais de par le fait qu'elle est bornée et qu'elle s'estime qu'avec trois points, elle est 
très utile en économie et politique quand les données (enquêtes/sondages) sont très lacunaires 
et manquent de rigueur scientifique. 


Nous allons donc voir ici comment effectuer une simulation Monte Carlo avec la distribution 
Beta-PERT et aussi comment tracer deux graphiques typiques correspondants. 


Donc pour les simulations avec par exemple la multiplication de deux lois Beta-PERT, nous 
utilisons le package me2d et sa fonction rpert( ) : 


R File Edit View Misc Packages Windows Help & x 
| 


library("mc2d") 


fLes deux lois beta-PERT pour l'exemple 
fee<-rpert (simulations, min=0, mode-=200, max=451.20, shape=4) 
subscribers<-rpert (simulations, min=0.05, mode=0.41, max=1, shape=4) 
total=fee*subscribers 
quantile (total) 

0% 25% 50% 75% 100% 
0.2073699 51.2227462 83.2497555 125.5289548 410.9485349 


VVNVNNVYNNV NV 


Et enfin on peut faire les quelques graphiques d'usage avec l'histogramme: 


R s|©e|x 


> hist(total) 
>| 


R s|©/|#x 


Histogram of total 


150000 


100000 


Frequency 


50000 
1 


Ü T T T 1 
0 100 200 300 400 


total 
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Et l'ECDF: 


MR Console 


> plot(ecdf(total)) 
> grid() 


MR Graphics: Device 2 (ACTIVE 


ecdf{total) 


QR Console Ss | 9 | x 


library ("ggplot2") 
pre _ecdf<-ecdf(total) 
ccdf <- data.frame( x 


y 


= sort(total), 
= i-pre ecdf(sort(total))) 
ggplot (data=ccdf , aes(x, y) ) + 
geom_line() + 
geom_ point (color="red") + 
labs(x = "Expected amount", y ="Cumulated Probability", 
subtitle = "Made with R 3.4.2/GGPlot2 and mc2d packages", 
caption = "Sources: bla bla", 
title = "CCDF After ... — Probabilistic Scenarios") 


VHH+++HVV+VVV 


Ce qui donne: 
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QU R Graphics: Device 2 (ACTIVE) 


CCDF After … - Probabilistic Scenarios 
Made with R 3.4 2/GGPlot2 and mc2d packages 


1.00 - 
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5 
œ 
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100 200 300 400 
Expected amount 
Sources: bla bla 


Figure 296 Graph CCDF (ggplot) 
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Exemple 322.: Offre/Demande et prix optimal 
R 3.5.0 


Comme promis, nous allons mettre ici en pratique les concepts d'optimisation d'évaluation des 
prix vue dans le cours théorique. Effectivement, ce travail est très utile car il permet, outre le 
fait de pratiquer R, il permet répéter des techniques R vues précédemment sur des cas 
concrets un peu plus complexes que ceux vus précédemment. 


L'exemple ci-dessous est entièrement inspiré de l'article du blog suivant: 


https://insightr.wordpress.com/2018/06/03/different-demand-functions-and-optimal-price- 
estimation-in-r/ 


de Yuri Fonseca. 


Voyons donc cela en construisant et affichant dans un premier temps les trois modèles à l'aide 
des package ggplot2, reshape2, magrittr et particulièrement la fonction melt( ) : 


Le à | 


LI 
0 

(o) 
23 


library(ggplot2) 
library(reshape2) 
library(magrittr) 


#Modèle linéaire de la demande D(P) 

linear = function(p, alpha, beta) {alpha*p + beta} 

#Modèle à élasticité constant de la demande D(EP) 

constant _elast = function(p, alpha, beta) exp(alpha*log(p)+beta) 
#Modèle logistique de la demande D(P) 

logistic = function(p, c, alpha, p0) c/(1+exp(-alpha*(p-p0))) 


p = seq(1, 100) 

linear(p, -1, 100) 

constant _elast(p, -.5, 4.5) 
logistic(p, 100, -.2, 50) 


Le 
D 
Wu 


df = data.frame('Prices' = p, 'Linear' = yl, "Constant elast' = y2, 'Logistic' = y3) 
fon réarrange le data.frame en trois colonnes: Prix, Modèle et Demande 
df.plot = melt(df, id = "Prices') %>% set _colnames(c('Prices', "Model', '"Demand'})) 


ggplot (d£f.plot) + aes(x = Prices, y = Demand) + 
geom_ line (color = 'blue', alpha = .6, lwd = 1) + 
facet_grid(-Model) 


V++VVVVVVNVNVNVNN NN NV NN NN NN NV 
ké 
ra 


Ce qui donne: 
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: 
MR Graphics: Device 2 (ACTIVE EEE 
Linear Constant_elast Logistic 


100- 


Demand 
ÉJ 


Maintenant déterminons la courbe de demande (de façon statistique) et celle de profit (sur la 
même idée): 


> library("tidyverse") 
> 
> # On reprend la fonction linéaire avec différents paramètres et on ajoute du bruit 
> p <- seg(80,130) 
> d <- linear(p, alpha = -1.5, beta = 200) + rnorm(sd = 5, length(p)) 
> € <- 75 
> profit <- d*(p-c) 
> 
> # Régression du modèle 
> modell <- Im(d-p) 
> # on calcule le profit sur la base de ce modèle 
> profit.fitted = modell$fitted.values*(p - c) 
> 
> # Optimisation du prix 
> alpha <- modell$coefficients[2] 
> beta <- modeli$coefficients!{1] 
> p.max.profit <- (alpha*c - beta)/(2*alpha) 
> p.max.profit 
P 
104.7229 
> 
> # graphs 
> df.linear <- data.frame('Prices' = p, "Demand' = d, 
+ "Profit.fitted' = profit.fitted, "'Profit' = profit) 
> 
> #le graph de la demande en fonction du prix (du modèle linéaire) 
> ggplot (select (df.linear, Prices, Demand)) + aes(x = Prices, y = Demand) + 
+ geom_ point () + geom_ smooth(method = 1m) 
> 


Ce qui donne: 
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À Graphics: Device 2 (ACTIVE EEE 


80- 


60- 


Demand 


20- 


' ' ' ' ï ' 
80 90 100 110 120 130 
Prices 


Et pour le Profit en fonction du Prix: 


F— 


MR Console 


> #le graph du profit en fonction du prix (du modèle linéaire) 

> ggplot (select (df.linear, Prices, Profit)) + aes(x = Prices, y = Profit) + 

+ geom_ point () + geom_ vline(xintercept = p.max.profit, lty = 2) + 

+ geom_ line (data = df.linear, aes(x = Prices, y = Profit.fitted), color = 'blue') 
> 


Ce qui donnera: 
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Œ R Graphics: Device 2 (ACTIVE) sex) 


gd 
. 


1200 - 


Profit 


800 - 


Maintenant allons-y pour le modèle d'arc-élasticité constante: 
NO 


# Modèle avec l'arc-élasticité constante avec du bruit 

p <- seq(80,130) 

d <- constant _elast(p, alpha = -3, beta = 15)“exp(rnorm(sd = .15, length(p))) 
c <= 75 


profit <- d*(p-c) 


# Régression du modèle 
model2 = 1m(log(d)-log(p)) 
profit.fitted <- exp(model2$fitted.values)*(p - c) 


# Optimisation du prix 

alpha <- model2$coefficients({2] 

p.max.profit <- c/(1-1/abs(alpha)) 

p-max.profit 

log (p) 

111.8492 

> 

> df.const_elast = data.frame('Prices' = p, "Demand' = d, 

+ "Profit.fitted' = profit.fitted, "'Profit' = profit) 


VVNVNVNNVNNVNNVNNVNNVNNNVNNNN 


# le graph de la demande en fonction du prix (modèle arc-élasticité constante) 
ggplot (select (df.const _elast, Prices, Demand)) + aes(x = log(Prices), y = log(Demas 
geom_ point () + geom smooth(method = 1m) 


VHEVNVYV 


Ce qui donne pour le logarithme de la Demande en fonction du logarithme du Prix: 
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n 
2 


20- 


log{(Demand) 


44 45 46 47 48 
log(Prices) 


et en ce qui concerne le Profit en fonction du Prix: 
CO 
NS 

Ne) 


1 PE 
MR Console ES EE 


> # le graph du profit en fonction du prix (modèle arc-élasticité constante) 

> ggplot (select (df.const_ elast, Prices, Profit)) + aes(x = Prices, y = Profit) + 

+ geom_ point () + geom vline(xintercept = p.max.profit, lty = 2) + 

+ geom_ line (data = df.const_elast, aes(x = Prices, y = Profit.fitted), color = 'blue') 
> 


Ce qui donne: 
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MR Console 


VmVVVVNENNVNVNNVNVNNVNNVmNN NN NN NN NN NN NN NV 


(0 
E 
F 


MR Graphics: Device 2 (ACTIVE) 


100 - 


80- 


Profit 


60- 


40- 


80 90 100 110 120 130 


sels) 


# Fonctions objectifs pour faire une régression par optimisation quadratique 
demand objective <- function(par, p, d) sum((d - logistic(p, par(i], par[2], par(3]))"2) 
price objective <- function(p, alpha, c, p0) (exp(-alpha* (p-p0))*alpha*(p-c) + 1)°2 


p <- seg(80,130) 

ce <= 75 

d <- logistic(p, 120, -.15, 115) + rnorm(sd = 10, length(p)) 
profit <- d*(p-c) 


# On régresse par une approche brute avec la fonction optim donc on a besoin de 
par.start <- c(max(d), 0, mean(d)) #valeur estimée des paramètres 


demand_fit <- optim(par = par.start, fn = demand objective, method = "BFGS', 
p =p, d = d) 


par <- demand fitS$par # valeurs estimées des paramètres de la fonction logistique 
demand_fit$par 

1] 117.4703199 -0.1521246 115.0904525 

# On crée les valeurs ajustées 

demand.fitted <- logistic(p, © = par[i], alpha = par[2], p0 = par[3]) 

# et donc les profits corresondants 

profit.fitted <- demand.fitted*(p - c) 


# Optimisation du prix où la encore nous n'avons pas de solution algébrique 
p.start<- mean(p) #valeur estimée du paramètre 

price fit <- optim(p.start, price objective, method = '"BFGS', 

alpha = par[{2], c = c, p0 = par{3]) 


# both results are almost identical 
p-max.profit <- price fit$par 
p-max.profit 

1] 105.091 


R 
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Ce qui donne pour la Demande en fonction du logarithme du Prix: 


E 


mec OIEIES 
> df.logistic <- data.frame("Prices" = p, "Demand" = d, "Demand.fitted" = demand.fitted, 
+ "Profit.fitted" = profit.fitted, "Profit" = profit) 
> 
> ggplot (select (df.logistic, Prices, Demand)) + aes(x = Prices, y = Demand) + 
+ geom_ point () + 
+ geom_ line (data = df.logistic, aes(x = Prices, y = Demand.fitted), color = 'blue') 
>| 
R RG A EEE 
L1 
100 - 
DT 
ee 
œ 
E 
œ 
a 
50 - 
o- 
Li 
80 90 100 110 120 130 
Prices 

et en ce qui concerne le Profit en fonction du Prix: 

f — 
Re e [s|e|x 
> ggplot (select (df.logistic, Prices, Profit)) + aes(x = Prices, y = Profit) + 
+ geom_ point () + geom vline(xintercept = p.max.profit, lty = 2) + 
+ geom_line (data = df.logistic, aes(x = Prices, y = Profit.fitted), color = 'blue') 
> 


Ce qui donne: 
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Exemple 323.: Analyse Procédurale Hiérarchique 
R 3.1.1 


Bon il s'agit ici d'analyse une matrice de préférence à un niveau qui pour rappel est basé sur 
trois choix d'un facteur A: 

[Choix AJ98765432123456789 [Choix B] 

[Choix AJ98765432123456789 [Choix C] 

[Choix B]J98765432123456789 [Choix C] 


Ce qui donne sous forme de matrice: 


Facteur À | Choix A | Choix B | Choix C 
Choix A 1 1/3 5 
Choix B 3 1 rs 
Choix C 1/5 1/7 1 


D'abord vérifions qu'il y a une faible inconsistance a priori en analysant avec R les trois 
valeurs propres: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> M<-matrix(c(1,3,1/5,1/3,1,1/7,5,7,1),nrow=3):M 
[-1] [:2] [,3] 

| [1,1] 1.0 0.3333333 5 

[2,] 3.0 1.0000000 7 

[3,1 0.2 0.1428571 L 

> eigen(M) 

$fvalues 

[1] 3.0645576+0.0000000i -0.0324438+0.4447702i -0.0324438-0.4447702i 


$vectors 

(EE C:2] C:3] 
[1,] 0.3927989+0i -0.1963995+0.3401739i -0.1963995-0.3401739i 
[2,] 0.9140301+0i 0.9140301+0.0000000i1 0.9140301+0.0000000i 
[3,] 0.10128185+0i -0.0506409-0.08771261i -0.0506409+0.0877126i 


> | 


Donc c'est tout jusque là! Poursuivons avec la fonction ahp(}) du package pmr: 
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R Fichier Edition Voir Misc Packages Fenétres Aide 


> M<-matrixic(1,3,1/5,1/3,1,1/7,5,7,1),nrow=3):M 
C;1] [:21 [,3] 

Ea;1 1.0 0.3333333 5 

[2,] 3.0 1.0000000 7 

C3:] 0.2 0.1428571 L 

> EV<-eigeniM) $vectors[,1]:EV 

[1] 0.3927989+0i 0.9140301+0i 0.1012818+0i 

> EV<-Re (EV) : EV 

C1] 0.3927989 0.91409301 0.1012818 

> W<-EV/sum(EV) 

> NW 

[1] 0.27895457 0.64911800 0.07192743 

> libraryi{ipmr) 

> ahpi(h) 

Summary Of pairwise comparison matrics: 

$weighting: weights of items: $Saaty: Saaty's inconsistency: $Koczkodaj: Koczkodaj's inconsistency 

$weighting 

[1] 0.27895457 0.64911800 0.07192743 


$Saaty 
[1] 0.06206189 


$Koczkodaj 
[1] 0.5333333 


> | 


Nous retrouvons donc avec R les valeurs calculées approximativement avec un logiciel 
comme Microsoft Excel excepté pour l'indice de Koczkodaj que nous n'avons pas étudié dans 
le cours théorique. 


Ceux qui me connaissent savent que lorsque je le peux montre l'article original des auteurs 
comme exemple de base dans mes cours. Donc dans le cas présent prenons le premier 
exemple de l'article de Gale & Shapley (1962 et prix Nobel en 2012): 
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QuesrTion: For any pattern of preferences is it possible to find a stable set of 
marriages ? 


Before giving the answer let us look at some examples. 


Example 1. The following is the “ranking matrix” of three men, «, 8, and #, 
and three women, À, B, and C. 


A B C 


[2 


8 
y 


The first number of each pair in the matrix gives the ranking of women by the 
men, the second number is the ranking of the men by the women, Thus, æ& 
ranks À first, B second, C third, while À ranks 8 first, y second, and « third, etc, 

There are six possible sets of marriages; of these, three are stable. One ol 
these is realized by giving each man his frst choice, thus & marries À, 8 marries 
B, and y marries C, Note that although each woman gets her last choice, the 
arrangement is nevertheless stable, Alternatively one may let the women have 
their first choices and marry « to C, 8 to À, and y to B. The third stable ar- 
rangement is to give everyone his or her second choice and have & marry B, 
B marry C, and y marry À, The reader will easily verify that all other arrange- 
ments are unstable. 


La solution est ici triviale mais le but est de voir si l'algorithme converge vers la solution 
triviale (qui est la diagonale). Nous avons alors en utilisant le package matchingMarkets la 
fonction daa( ) . Nous avons alors (voir la capture unique à la page suivante): 
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RrGchémpésormuiremtsmpetagermrente 
EROBEBIOIE 


> library("matchingMarkets") 
> men.prefs<-matrix(c(1,3,2, 2,1,3, 3,2,1), 3,3) 
> woman.prefs<-matrix(c(3,1,2, 2,3,1, 1,2,3), 3,3) 
> daa(s.prefs=-men.prefs,c.prefs-=woman.prefs) 
[1] "Iteration: 1" 
$s.prefs 
[,1] [,2]1 [,3] 
[1,] L 2 3 
[2,1] 3 1 2 
[3,1] 2 3 L 


$c.prefs 

[,1] [,2]1 [,3] 
[1,] 3 2 L 
[2,] 1 3 2 
[3,] 2 1 3 


Siterations 
[1] 1 


S£matches 
Smatches{[1]] 
[1] 1 


S$matches[[2]] 
[LT = 


Smatches[[3]] 
[1] 3 


Smatch.mat 

[,1] [,21 [,3] 
[1,] TRUE FALSE FALSE 
[2,] FALSE TRUE FALSE 
[3,] FALSE FALSE TRUE 


Le résultat est bien conforme! 
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Exemple 324.: Problèmes des mariages stables (algorithme de 


satisfaction de Lloy Shaply) 
R 3.2.1 


Nous allons ici monter une implémentation de l'algorithme des mariages stables dont les 
applications sont courantes dans l'affectation des étudiantes à des écoles en fonction des 
préférences des uns et des autres. Ce modèle est un cas académique de l'application de la 
théorie des jeux est 1l est très connu car outre le fait qu'il soit très utilisé dans la pratique, il est 
très simple à appréhender et de plus un de ses fondateurs (Lloy Shaply) est prix Nobel 
d'Économie pour des travaux relatifs à ce type de problématique. 


Ce problème consiste à trouver, étant donné nr hommes et n femmes, une façon stable de les 
mettre en couple. La stabilité signifie que chaque femme et chaque homme préfère rester avec 
son conjoint présent plutôt que d'être avec quelqu'un d'autre. Un exemple de situation instable 
serait que Monsieur Dupont préfère Madame Durand à Madame Dupont, et Madame Durand 
préfère Monsieur Dupont à Monsieur Durand. 


Plus formellement, on se donne deux ensembles À et B ayant chacun n éléments. On se donne 
aussi, pour chaque élément de À et B, une fonction de préférence, qui classe les éléments de 
l'autre ensemble. On cherche alors à associer de façon bijective les éléments de À avec ceux 
de B, pour qu'il n'existe pas a € À et be B tels que a préfère b à l'élément qui lui est associé, 
et b préfère a à l'élément qui lui est associé. 


Reste à suivre dans une future version de ce PDF... 
D 
< 
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Exemple 325.: Chaînes de Markov Discrètes (Discrete Time 


Markov Chain (DTMC)) 
R 3.2.1 


Nous avons vu dans le cours théorique que les chaînes de Markov discrètes (dans le temps) 
pouvaient être très utiles en biologie (dynamique des populations) en théorie des graphes 
associées aux probabilités (probabilité de passage d'un état à l'autre) ainsi qu'en maintenance 
et météorologie. Bien que leur application soit bien plus vaste considérons l'étude d'un cas 
trivial inspiré à 99% du blog de Nicole M. Radziwill: 


http://qualityandinnovation.com/2015/12/08/a-discrete-time-markov-chain-dtmc-sir-model-in-r/#comments 


D'abord nous définissons la matrice de transition et affichons le graphe de Markov 
correspondant de surveillance d'une machine à trois états {Opérationnelle, Maintenance, 
Panne}: 


R R Console -2-/-0.|55) 


> library(imarkovchain) 

> mMmCSIR <- new("markovchain", states=c("Panne","Maintenance","Opérationnel"), 
+ transitionMatrix=matrix (data=c(0.9,0.1,0,0,0.8,0.2,0,0,1), 
+ byrow=TRUE, nrow=3), name="PMO") 

> initialState <- c(99,1,0) 

> show(mcPMO) 

PMO 

À 3 - dimensional discrete Markov Chain with following states 
PHO 

The transition matrix (by rows) is defined as follows 

P "M [el 

P 0.9 0.1 0.0 

“ 0.0 0.8 0.2 
© 0.0 0.0 1.0 


> pilot (mcPMO, package="diagram") 
> | 


Ce qui donne au niveau du graphe: 
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SC 
Nous procédons maintenant à 100 simulations fémporelles 1=0...100: 


: . T 
R RGui (64-bit) - [R Console] — O X 
R File Edit View Misc Packages Windows Help - x 


> timesteps <- 100 

> sir.df <- data.frame( "timestep" = numeric(), 

+ "P" = numeric(), "M" = numeric(), 

+ "O0" = numeric{()j, stringsàäsFactors=FALSE) 

> for (i in O:timesteps) { 

+ newrow <- as.list({c(i,round(as.numeric(initialState * mcPMO * i),0))j) 
+ sir.df{nrow(sir.df) + 1, ] <- newrow 


+ } 
> 
> headi(sir.df) 
timestep P M O 
1 0 99 1 0 
2 1 89 11 0 
3 2 80 17 2 
4 3 72 22 6 
L_ 4 65 25 10 
6 5 58 26 15 
> | 
EEE DEN 
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Et le graph correspondant: 


plot(sir.df$timestep,sir.d£f$P) 
points(sir.df$timestep,sir.df$M, col="red") 
points(sir.df$itimestep,sir.df$O, col="green") 


sir.dfftimestep 
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Exemple 326.: Analyse TURF (Total Unduplicated Reach and 


Frequency) 
R 3.6.3 


Le but ici va être de reproduire l'exemple TURF que nous avons calculé à la main dans le 
cours théorique: 


R RGui (64-bit) - [R Console O 


R File Edit View Misc Packages Windows Help = EX 


> library("turfR") 
> mydata<-read.csv("c:/tmp/TURF.csv",header=T, sep=",") 
> colnames (mydata)<-c("Individu","Poids","Chocolat","Vanille","Pistache") 


> mydata 
Individu Poids Chocolat Vanille Pistache 
| 1 1 L 1 0 0 
| 2 2 1 1 0 0 
3 3 L À 0 0 
E E 1 0 1 0 
5 5 1 (e) 1 (e) 
6 6 1 0 1 0 
7 Ÿ ER 1 1 0 
8 8 1 s à 1 0 
9 9 1 (e) 1 1 
| 10 10 L TL 1 1 


|> févalue toutes les combinaisons de 2 éléments choisis parmi 3 éléments 
> turf (mydata,3,2) 
2 of 3: 0.03500199 sec 
total time elapsed: 0.04300213 sec 
Sturf 
|Stur£f{([11] 
combo rchX frqx 
J L.. 1,0 


OHHN 
bb © w 


r 
1 
(9) 
0 


Scall 
turf(data = mydata, 


el 
I 
LS 
. 
il 
Les 


>| 


Ce qui correspond bien aux résultants obtenus dans le cours théorique! 
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Exemple 327.: Jeux évolutionnaires 
R 3.5.2 


Le but ici va être de voir comment on peut utiliser le package popgen (non-disponible sur le 
serveur CRAN à ce jour), pour voir l'évolution d'un jeu évolutionnaire. 
Nous allosn reprendre l'exemple du cours théorique. 


Nous construisons d'abord la matrice des gains: 


R RG: 4-bit 


R File Edit View Misc Packages Windows Help = 6 X 


> library("popgen"“) 
> payoff<-matrix(c(0.6,2,0,1.0),2,2,byrow=T) 
> colnames (payoff) <-rownames (payoff)<-c("hawk","dove") 


> payoff 

hawk dove | 
hawk 0.6 2 | 
dove 0.0 1 


> hawk.dove (M=payoff,time=50) 
Pay-off matrix: 
hawk dove 


hawk 0.6 2 | 
dove 0.0 1 
> | 


Soit graphiquement: 
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QU À Graphics: Device 2 (ACTIVE) 


1.0 


frequency 


œo 
o 
© 
o 
o 
N 
o 
a 
o 


mean fitness 
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Exemple 328.: Data envelopment analysis (DEA) CRS 
R 3.43 


Le but ici va être d'appliqué l'exemple DEA que nous avons vu dans le cadre des techniques 
utilisées dans les hauts postes décisionnels de l'administration public et voir si nous 
retombons sur les mêmes résultats. 


Donc nous utilisons la fonction dea( ) package Benchmarking en nous conduisons une 
analyse DEA de type CRS (constant returns to scale) avec une orientation de type "input": 


R 
| 
| GR File Edit View Misc Packages Windows Help Sr. 


SITE 


> library("Benchmarking") 

Loading required package: lpSolveAPI 

Loading required package: ucminf 
employe<-c(1,1,1,1,1) 
naissances<-c{(1,3,4,5,6) 
mariages<-c(6,8,3,6,2) 


yMat<-chind(naissances,mariages) 


deaCRSIn<-dea (xMat, yMat,RTS = "crs",ORIENTATION="in") 
deaCrSIn 


> 

> 

> 

> 

> xMat<-employe 
| > 

> 

> 

> 

[1] 0.7500 1.0000 0.7308 1.0000 1.0000 
> 


Et donc nous retombons bien sur les résultats que nous avons obtenu dans le cours théorique 
où nous avions utilisé le solveur de Microsoft Excel. 
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24. Machine Learning (Big Data**/B.I. avancée) 


Il s'agit ici de présenter l'ensemble des techniques empiriques de Machine Learning 
(supervisées ou non supervisées) dont les détails mathématiques ont été vus dans le cours 
théorique. 


Attention!!! Rappelons que dans la pratique nous séparons normalement toujours les données 
initiales en trois jeux: 


1) Le jeu d'entraînement 
2) Le jeu de test 
3) Le tout 


Ainsi, L'ensemble des fonctions de Data Mining de R permet de mettre en entrée un jeu 
d'entraînement et ensuite de faire une prédiction avec un jeu de test pour créer une matrice de 
confusion et de conclure... 


Il convient d'utiliser avec toute la prudence nécessaire et l'esprit très critique ces techniques 
empiriques car parfois les résultats peuvent mener à des aberrations (et ce d'autant plus que le 
jeu de données est petit). 


Le Data Mining est la technique qui fait appel à la quantité chaque fois que l'on veut 
congédier la qualité... 
S 


Préambule o 


Suite à l'insistance d'un client qui n'avait pas mis en place de cours théorique dans son 
organisation voici exceptionnellement quelques petites notions de culture générale reprises du 
cours théorique: 


En analyse de données statistiques, le clustering (data clustering pour les anglophones) décrit 
des méthodes empiriques de classification de données (méthode de regroupement 
hiérarchique ou méthode de partitionnement de données). 


Il s'agit de techniques permettant typiquement la segmentation de l'ensemble des clients d'une 
entreprise en fonction de leur démographie ou de leurs habitudes d'achat, de grouper des 
documents pour des présentations, d'identifier de nouvelles espèces animales ou végétales, de 
regrouper de l'information ou des individus par intérêts. 


Nous considérons dans la pratique deux grandes familles de techniques de clustering 
(attention! même les spécialistes du domaine n'arrivent pas à se mettre d'accord sur une 
classification commune...): 


1. Les "techniques non hiérarchiques": c'est-à-dire où le nombre de classes (groupes) 
finales est choisi à l'avance. 

2. Les "techniques hiérarchiques": c'est-à-dire où l'on aboutit à un classement par 
agrégations successives. 


# Rappelons que le Big Data n'est pas une méthode d'analyse mais un champ d'étudre relativement au stockage, 
à la gestion et l'exploitation des données. 
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Parmi ces deux familles nous distinguons grossièrement deux-sous familles: 


1. Les techniques qui font usage de données dont la propriété nominale de classification 
est connue à l'avance pour entraîner un modèle de prédiction: "machine learning" ou 
"apprentissage supervisé" ("supervised learning” en anglais). Nous y retrouvons la 
technique de régression logistique binaire, les CRT, l'ID3, l'analyse discriminante, les 


réseaux bayésiens, les listes de décisions, les k-NN, les réseaux de neurones... 


2. Les techniques qui font usage de données dont aucune propriété nominale connue à 
l'avance ne laisse supposer d'une classification et qui cherchent une classification 
DOSSIBIE (c'est ce qui au niveau du business est souvent le plus intéressant): "data 
mining" ou "apprentissage non supervisé” (unspervised learning" en anglais) ou plus 
rarement "fouille de données", "forage de données", "prospection de données". Nous y 


retrouvons les techniques CAH, les k-means, etc. 


L'utilisation industrielle ou opérationnelle de ce savoir dans le monde professionnel permet de 
résoudre des problèmes très divers, allant de la gestion de la relation client à la maintenance 
préventive, en passant par la détection de fraudes ou encore l'optimisation de sites web, la 
surveillance des marchés financiers, la prospection pro-active (préférences de consommation 
des clients), l'optimisation des chemins (analyse des routes à bouchons et à virages à gauche), 
ou choix des cibles (probabilité d'acquérir un nouveau prospect donné), anticiper 
l'identifications des terroristes, etc. 


Remarque: Attention à ne pas confondre en toute rigueur les notions de classification, 
segmentation et association. Bien que les deux premiers soient souvent confondus 
(classification/segmentation) car de nombreux algorithmes font les deux à la fois, la 
classification est la prédiction d'une ou plusieur variables discrètes basée sur la valeur des 
autres champs du jeu de données alors que la segmentation divise les données en groupes 
d'éléments ayant des propriétés les plus identiques possible. Quant à l'association 1l est bien 
évident que de nombreux algorithmes de segmentation montre qui est associé avec quoi mais 
l'idée à proprement parler de l'association est de quantifier par un scalaire le degré 
d'association entre deux jeux de données. 


Fin du préambule! 
Signalons avec de commencer avec les cas pratiques un petit package visuel pour faire 


quelques analyses de Data Mining pour ceux qui aiment les interfaces graphiques... II s'agit du 
package rattle: 


ne RGui (64-bit) - [R Co 


K Fichier Edition Voir Misc Packages Fenêtres Aide 


> library(rattle) 
> rattle()| 
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Sciences.ch 


qui donne: 


Projet Outils 


ê 


Exécuter 


Parametres 


CO 


Nouveau 


Aide 


B 


Ouvrir 


ti 


Enregistrer 


El 


Rapport 


<| 
Exporter 


Donnée: 


Explorer | Test | Transformer | Cluster | Associer | Model | Evaluer | Journal 


(?] Rattle Version 3.0.2 togaware.com 


Quitter 


Arrêter 


Source : © ARFF © ODBC © Jeu de données R 


(W] En 


Nom du fichier : {Aucun} B) Délimiteur : , | Décimal: . 


LE] Partition 70/15/15 Racine 42 Consulter 


© Entrer @urncre Calculateur de poids : 


© Fichier RData 


-tète 


Type de données cibles 
© Auto 


Catalogue (©) Corps 


D Catégorique © Numérique © Survie 


Num Variable Type de données Entrer Cible Risque Ident Ignorer Poid Commentaire 


Et un petit résumé de l'état de l'art en 2018: 


D msn mue PTT 
D ouioui CTULEE 
À im tac LT 


Data 
Analysis 


Useful Libraries 
in 


R 


Post 
Modeling 


Pre 
Modeling 
Stage 


Du ne tin S 
Dnosrsson tation DL 


> EM ciassification Validation BinomTaols, DAIM Sta g e 
== 1 a CITE TN chustEval, Sigclust 
—#æ roc Analysis PROC, TimeROC 


Other Libraries 
: XML, jasonlite, httr 


arr 
( 


qidf, RODBC, RMongo 


(LA car, randomforest 


RMiner, CoreLearn | 
5. rorecast LISA | 


El 


SET ent: Rarkdown | 
| F_iscetaneous wir reshapez. arr 


NE 
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Exemple 329.: Travail avec Apache Spark 
R 4.2.0 


Pour des flux de données en temps réel ou pour le stockage de quantités vraiment massive de 
données, Apache Spark peut s'avérer un outil adapté. 


Voyons donc comment un Data Scientist/Analyst peut installer et utiliser ce dernier 
simplement pour s'entraîner et faire des tests (évidemment une bonne installation et 
configuration de Apache Spark est le métier d'un Data Artchitect ou DBA). 


Nous installons le package sparklyr et avec la fonction spark_install( ), nous installons une 
des versions de Apache Spark (la version 2.3 dans le cas présent). Ce qui donnera: 


R 
R File Edit View Misc Packages Windows Help 


> library("sparklyr") 

Installing Spark 2.3.4 for Hadoop 2.7 or later. 

Downloading from: 

- "https://archive.apache.org/dist/spark/spark-2.3.4/spark-2.3.4-bin-hadoop2.7.tgz' 
Installing to: 

- "C:\Users\User\AppData\Local/spark/spark-2.3.4-bin-hadoop2.7' 

trying URL 'https://archive.apache.org/dist/spark/spark-2.3.4/spark-2.3.4-bin-hadoop2.7.tgz' 
Content type 'application/x-gzip' length 227110658 bytes (216.6 MB) 


Download progress 


https://archive.apache.org/dist/spark/spark-2.3.4/spark-2.3,4-bin-hadoop2.7.tgz 


Une fois Apache Spark installé, nous pouvons vérifier qu'il l'est bien avec la fonction 
spark_installed_version( ): 
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R RGui (64-bit) - [R Console] — O0 X 
R File Edit View Misc Packages Windows Help Fix 


> library("sparklyr") 

> spark_install("2.3") 

Installing Spark 2.3.4 for Hadoop 2.7 or later. 

Downloading from: 

- "https://archive.apache.org/dist/spark/spark-2.3.4/spark-2.3.4-bin-hadoop2.7.tgz' 
Installing to: 

- "C:\Users\User\AppData\Local/spark/spark-2.3.4-bin-hadoop2.7' 

trying URL 'https://archive.apache.org/dist/spark/spark-2.3.4/spark-2.3.4-bin-hadoop2.7.tgz' 
Content type 'application/x-gzip' length 227110658 bytes (216.6 MB) 

downloaded 216.6 MB 


Installation complete. 

Ë 

| spar ad00p dir 
1 Î 23.4 2.7 C:\\Users\\User\\AppData\\Local/spark/spark-2.3.4-bin-hadoop2.7 
> 


Grâce au numéro de version détaillé, nous pouvons tenter de nous connecter à Apache Spark 
avec la fonction spark_connect( ), mais nous aurons un message nous indiquant d'aller 
télécharger Microsoft Visual C++ 2010 SP1I sur le lien suivant: 


https://www.microsoft.com/en-us/download/details.aspx?id=26999 


R RGui (64-bit) - [R Console] 
R File Edit View Misc Packages Windows Help 


SITE) ele) els] 


> sc <- spark connect (master = "local", version = "2.4.3") 
Error: Running Spark on Windows requires the Microsoft Visual C++ 2010 SPL Redistributable Package. Please download and install from: 


https://www.microsoft.com/en-us/download/details.aspx?id=26999 


Then restart R after the installation completes 

In addition: Warning message: 

In spark_ install find(version, hadoop version, latest = FALSE) : 
The Spark version specified may not be available. 


Please consider running ‘spark available versions()' to list all known available Spark versions. 
>| 


Nous allons donc sur le site web correspondant: 
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M" 2% Download Microsoft Visual C++ X = T [e X 


< © À https//www.microsoft.com/en-us/download/details.aspx?id=26999 A <&e L= @ 


èe 


Microsoft Visual C++ 2010 Service Pack 1 Redistributable Package MFC Security Update 


Important! Selecting a language below will dynamically change the complete page content to that 
language. 


Select Language: English " | 


A security issue has been identified leading to a vulnerability in MFC 
applications that are built with Visual Studio 2010 and ship the 
Microsoft Visual C++ 2010 Service Pack 1 Redistributable Package. 


@ Details 


@ System Requirements 
©) Install Instructions 


©) Additional Information 


Nous cliqusons sur le bout Download et prenons l'exécutable vcredist_x64.exe pour une 
machine Windows en 64bits tournant sur processeur Intel: 


(im) 2 Download Microsoft Visual C++ X = NÉ (e) X 


Se À https//www.microsoft.com/en-us/download/details.aspx?id=26999 A Te = ® 2 


Choose the download you want 


[| | File Name Size 
: Download Summary: 
[_] vcredist_x86.exe 8.6 MB K8MBGE 
EL 1. veredist_x64.exe 
L] vcredist_ia64.exe 2.9 MB 
VE vcredist_x64.exe 9.8 MB 


Total Size: 9.8 MB 


Une fois téléchargé, nous lançons l'installation: 


R Statistical Software 2052/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


#, Microsoft Visual C++ 2010 x64 Redistributable Setup — X 
Welcome to Microsoft Visual C++ 2010 x64 Redistributable Setup 
Please, accept the license terms to continue. 20 


MICROSOFT SOFTWARE LICENSE TERMS | 


MICROSOFT VISUAL C++ 2010 RUNTIME LIBRARIES WITH 
SERVICE PACK 1 


These license terms are an agreement between Microsoft 
Corporation (or based on where you live, one of its affiliates) and 
you. Please read them. They apply to the software named above, 


@ have read and accept the license terms. s A 


(Yes, send information about my setup experiences to Microsoft Corporation. 


For more information, read the Data Collection Policy. 


Cent) |_ cn 


Nous ressayons la connexion et nous avons un deuxième message nous distant qu'un module 
est manquant et qui peut être téléchargé à PERS 
Ÿ 
https://oithub.com/steveloughran/winutils/raw/master/hadoop-2.6.0/bin 


R RGui (64-bit) - [R Console] = [=] X 
R File Edit View Misc Packages Windows Help - F5 x 


CISSÉ 


> sc <- spark connect (master = "local", version = "2.3.4") 
Error: 


To run Spark on Windows you need a copy of Hadoop winutils.exe: 

1. Download Hadoop winutils.exe from: 
https://github.com/steveloughran/winutils/raw/master/hadoop-2.6.0/bin/ 

2. Copy winutils.exe to C:\Users\User\AppData\Local\spark\spark-2.3.4-bin-hadoop2.7\tmp\hadoop\bin 


Alternatively, if you are using RStudio you can install the RStudio Preview Release, 
[which includes an embedded copy of Hadoop winutils.exe: 


https://www.rstudio.com/products/rstudio/download/preview/ 


>| 


Effectivement, si nous nous rendons à l'adresse mentionnée, nous arrivons sur: 
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MM © winutils/hadoop-2.6.0/bin at ma X MP — O CE | 
Les © (os https://github.com/steveloughran/winutils/tree/master/hadoop A <& L= @ é À 
(  resourcemanager.exe Add Hadoop-2.6.0/HDP-2.2 windows binaries 7 years ago : 
resourcemanager.xml Add Hadoop-2.6.0/HDP-2.2 windows binaries 7 years ago 
(  secondarynamenode.exe Add Hadoop-2.6.0/HDP-2.2 windows binaries 7 years ago 
O  secondarynamenode.xml Add Hadoop-2.6.0/HDP-2.2 windows binaries 7 years ago 
D  snappy.dil Add Hadoop-2.6.0/HDP-2.2 windows binaries 7 years ago 
(  snappy.dilintermediate.manifest Add Hadoop-2.6.0/HDP-2.2 windows binaries 7 years ago 
[  snappy.exp Add Hadoop-2.6.0/HDP-2.2 windows binaries 7 years ago 
D snappy.lastbuildstate Add Hadoop-2.6.0/HDP-2.2 windows binaries 7 years ago 
D snappy.lib Add Hadoop-2.6.0/HDP-2.2 windows binaries 7 years ago 
(  timelineserver.exe Add Hadoop-2.6.0/HDP-2.2 windows binaries 7 years ago 
(  timelineserverxmil Add Hadoop-2.6.0/HDP-2.2 windows binaries 7 years ago 
Add Hadoop-2.6.0/HDP-2.2 windows binaries 7 years ago 
D yam Add Hadoop-2.6.0/HDP-2.2 windows binaries 7 years ago 
Bi] yarn.cmd Add Hadoop-2.6.0/HDP-2.2 windows binaries 7 years ago 
Après avoir cliqué sur winutils.exe, nous arrivons sur: 
D © winutils/winutils.exe at master.: X LP ne (=) X 


<< G https//github.com/s 


veloughran/winuti 


ob/master/hadoop-2.6.0/bin/winutils 


N 5 + ® @ 


| Sign up | 


A steveloughran / winutils | Public A Notifications || % Fork 2.8k Ÿ Star 22k 
<> Code (© Issues 3  Pullrequests  @) Actions  [F} Projects [O1 Wiki © Security [4 Insights 
F master +  winutils / hadoop-2.6.0 / bin / winutils.exe Go to file 


@ steveloughran Add Hadoop-2.6.0/HDP-2.2 windows binaries Latest commit cf8218a on Sep 14, 2015 X) History 


Æ 1 contributor 


View raw 


Ch 


Terms Privacy Security Status Docs Contact GitHub Pricing API Training Blog About 


22 GitHub, Inc. 


Nous téléchargons le fichier en cliquant sur Download et nous entrepesons le fichier dans le 
dossier indiqué par le message dans la console R: 
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0 C:\Users\User\ AppData\Local\spark\spark-2.3.4-bin-hadoop2.7\tmp\hadoop\bin 


@ New - il [à =] TN Sort - = View » .… 


+ > + © > ThisPC > LocalDisk(C:) » Users >» User > AppData > Local > spark > spark-2.34-bin-hadoop2.7 > tmp > hadoop >» bin 


ñ 


À Quick access Name Date modified Type Size 


EM Desktop 
+ Downloads 
© Documents 
PA Pictures 
© Music 


ee Videos 


Es] winutils.exe 6/18/2022 10:39 AM Application 106 KB 


+ + + * 


æ OneDrive 


D his PC 
EM Desktop 
Documents 
+ Downloads 
© Music 
PA Pictures 
£ Videos 
= Local Disk (C:) 


S1 nous retentons la connexion, nous obtenons encore un autre message nous disant qu'il faut 
le runtime Java: 


 RGui (64-bit) - [R Console] — 0 X 


R File Edit View Misc Packages Windows Help - x 


> sc <- spark connect (master = "local", version = "2.3.4") 
Error in validate java version(master, spark home) 

Java is required to connect to Spark. Please download and install Java from https://wuww.java.com/en/ 
> 


Nous allons alors sur: 


https://www.java.com/en 


Pour le télécharger: 


R Statistical Software 2055/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


| D | ($] Java | Oracle x LE Es (el 
UC 


À https://wwwijava.com/en/ A e = ® 2 


(G 
Æ Java Download Developer Resources Help 


Get Java for desktop 
applications 


Download Java 


What is Java? | Uninstall help 


Are you a software developer looking for JDK downloads? OpenJDK Early Access Builds | Java SE Development Kit 


Nous cliquons sur Download Java pour arriver sur: 


D | [$) Download Java for Windows x LE 


ES À https//www.java.com/en/download/ A 6 = e 


(G 
Æ Java Download Developer Resources Help 


Help Resources Download Java for Windows 
Version 8 Update 333 (filesize: 215 MB) Why is Java 8 recommended? 
Release date: May 02, 2022 


What is Java? 


Remove older versions 


Disable Java 
Error messages 
Troubleshoot Java Important Oracle Java License Information 
Other help The Oracle Java License changed for releases starting April 16, 2019. 
The Oracle Technology Network License Agreement for Oracle Java SE is substantially different 
Windows 64-bit Users from prior Oracle Java licenses. This license permits certain uses, such as personal use and 
development use, at no cost -- but other uses authorized under prior Oracle Java licenses may 
Do you use both 32-bit no longer be available. Please review the terms carefully before downloading and using this 
and 64-bit browsers? product. An FAQ is available here. 
FAQ about 64-bit Java 2. 
for Windows Commercial license and support is available with a low cost Java SE Subscription. 


Offline Installation 


& In Windows 10, the Edge browser does not support plug-ins and therefore will not run Java. More info 


Trouble downloading? Try 
the 


offline installer 


Download Java 


By downloading Java you acknowledge that you have read and 
accepted the terms of the Oracle Technology Network License 
Agreement for Oracle Java SE 
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Après le téléchargement, nous installons le runtime Java: 


Java Setup - Welcome 


Welcome to Java - Updated License Terms 


The terms under which this version of the software is licensed have changed. 
Updated License Agreement 
This version of the Java Runtime is licensed only for your personal (non-commercial) desktop and laptop 
use. 
Commercial use of this software requires a separate license from Oracle or from your software vendor. 
Click Install to accept the license agreement and install Java now or click Remove to uninstall it from your 


system. 


No personal information is gathered as part of our install process. Details on the information we collect 


Et il faut redémarrer l'ordinateur avant de poursuivre!!! Une fois l'ordinateur redémarré, nous 
pouvons poursuivre en chargeant des données dans Apach Spark et en les lisant après coup: 


R RGui (64-bit) - [R Console] — 0 X 
| R File Edit View Misc Packages Windows Help |#|x 


SIT] 


> library("sparklyr") 
> sc <- spark connect (master = "local", version = "2.3.4") 
> #on y charge le jeu de donnees mtcars 
> cars <- copy to(sc, mtcars) 
|> #on verifie que tout y est 
> cars 
# Source: spark<mtcars> [?? x 11] 
mpg cyl disp hp drat wWt qsec vs am gear carb 
<db1> <dbl> <db1l> <dbl> <dbl> <dbl> <dbl> <db1l> <dbl> <db1l> <db1l> 
1 21 6 160 110 3.9 2.62 16.5 (a) L 4 4 
2 21 6 160 110 3.9 2-88 17.0 (a) z 4 4 
3 22.8 4 108 93 3.85 2.32 18.6 L x 1 4 L 
4 21.4 6 258 110 3.08 3.22 19.4 1 (e] 3 1 
5 18.7 8 360 175 3.15 3.44 17.0 [e) (e] 3 2 
6 18.1 6 225 105 2.76 3.46 20.2 1 [a] 3 1 
3: 143 8 360 245 3.21 3:57 15.8 (e] [e] 3 4 
8 24.4 4 147. 62 3.69 3.19 20 1 (a) 4 2 
9 22.8 4 141. 95 93:92 3:15 22.9 1 (e] 4 2 
10 19.2 6 168. 123 3.92 3.44 18.3 1 [e] 4 4 
# … with more rows 
>| 
L À 
| Là | 


Avec la commande spark_web( ), nous pouvons ouvrir dans le navigateur Internet la sessions 
Apache Spark correspondante: 
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D ! À sparkiyr- Storage x | @ Microsoft Edge x | + — 0 
CD CE @  127.0.0.1:4040/storage/ N = © © 
Spar . Jobs Stages | Storage ‘ Environment Executors SQL sparklyr application Ul 
Storage 
RDDs 
Size 
Storage Cached Fraction Sizein on 
ID RDD Name Level Partitions Cached Memory Disk 
6 Scan Memory à | 100% 42KB 00 
ExistingRDD{[mpg#9,cy#10,disp#11,hp#12,drat#13,wt#14,qsec#15,vs#16.am#17,gear#18,carb#  Deserialized B 
19] 1x 
Replicated 
R RGui (64-bit) - [R Console] = [=] X 
R File Edit View Misc Packages Windows Help - sx 
ÉROBSOSIEIE 
> spark web(sc) : 
> 
« BP 


Et quand le travail terminé, n'oubliez pas de déconnecter la session avec la commande 
spark_disconnect( ): 


 RGui (64-bit) - [R Console] — 0 X 
AR File Edit View Misc Packages Windows Help AE: 


> spark disconnect (sc) 
> | 


Pour en savoir plus, nous recommandons l'excellent livre suivant: 
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O'REILLY" 


Mastering 
Spark with R 


The Complete Guide to Large-Scale Analysis 
and Modeling 


Javier Luraschi, 
Kevin Kuo & Edgar Ruiz 


Foreword by Matei Zaharia 


S1 des lecteurs savant comment connecter la session Apach Spark du package sparklyr à 
Microsoft Power BL, qu'ils n'hésitent pas à nous contacter! 
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Exemple 330.: Exploration de données 
R 3.6.1 


Voyons un petit un package intéressant permettant de se familiariser brièvement avec un jeu 
de données (nous recommandons toutefois au lecteur de lire la documentation du package 
pour en apprendre plus!). 


Considérons le jeu de données diamonds du package ggplot2: 
| - 


R RGui (64-bit) - [R Console] — 0 


File Edit View Misc Packages Windows Help __E x 
SIA 


> library("ggplot2") 
> data("diamonds") 
> str(diamonds) 


Classes ‘tbl_ df', ‘tbl’ and '"data.frame': 53940 obs. of 10 variables: 
| S'carat : num 0.23 0:21 0:23 0:29 0:31 0-24 0:24 0.26 0-22 0:23 ::. 
$ cut : Ord.factor w/ 5 levels "Fair"<"Good"<..: 5424233313 ... 
$ color : Ord-factor w/ 7 levels "D'<"'E"<"'E"<"E"<,..2 2 2 2 6 7 7 6 52 5 :.. 
$ clarity: Ord.factor w/ 8 levels "I11"<"SI2"<"SI1"<..: 2354267345 ... 
| $ depth : num 61.5 59.8 56.9 62.4 63.3 62.8 62.3 61.9 65.1 59.4 ... 
| $ table : num 55 61 65 58 58 57 57 55 61 61 ... 
| $ price : int 326 326 327 334 335 336 336 337 337 338 ... 
sx : num 3.95 3.89 4.05 4.2 4.34 3.94 3.95 4.07 3.87 4 ... 
$S y : num 3.98 3.84 4.07 4.23 4.35 3.96 3.98 4.11 3.78 4.05 ... | 
$ z >: oun 2-43 2.31 2:31 2:63 2:75 2:48 2:47 2.53 2.49 2.39 


|> head(diamonds, 20) 
# À tibble: 20 x 10 


carat cut color clarity depth table 

| <db1l> <ord> <ord> <ord> <db1> <db1l> 
1 0.23 Ideal E SI2 61.5 55 
2 0.21 Premi- E SI1 59.8 61 
3 0-23 Good E vs1 56.9 65 
4 0.290 Premi- I vs2 62.4 58 
5 0.31 Good J SI2 63.3 58 
6 0.24 Very - J VVS2 62.8 57 
7 0.24 Very - I Vvs1 62.3 07 
8 0.26 Very - H SIi 61.9 55 
9 0.22 Fair E vs2 65:1 61 
10 0.23 Very - H vs1 59.4 61 
11 0-3 Good J SIi 64 55 
12 0.23 Ideal J vs1 62.8 56 
13 0.22 Premi- F SIi 60.4 61 
14 0.31 Ideal J SI2 62.2 54 
15 0.2 Premi- E SI2 60.2 62 
0.32 Premi- E LE 60.9 58 
0.3 Ideal I SI2 62 54 
0.3 Good J Sil 63.4 54 
0.3 Good J SIl 63.8 56 
0.3 Very + J SIi 62.7 59 


... with 4 more variables: 
price <int>, x <dbl>, y <db1>, 
z <db1l> 


Maintenant voyons ce que proprose le package DataExplorer! 


Commençons par la fonction plot_intro( ): 
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@ R Console 


> plot_intro(diamonds) 
> | 


mr Graphics: Device 2 (ACTIVE) 
Memory Usage: 3.3 Mb 


Discrete Columns - 


Continuous Columns - 


Dimension 
column 


All Missing Columns -[o%) 


observation 


Metrics 


row 


Complete Rows - 


Missing Observations - (0%) 


Voyons la fonction plot_bar( ): 
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@R Console SRE 


> plot_ bar (diamonds) 
> | 


GR À Graphics: Device 2 (ACTIVE) ER ES 


0 5000 1000015000 20000 O0 3000 6000 9000 0 5000 10000 
Frequency 


Et plot_histogram( ): 
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KR Console = EE] ESA 
> plot_ histogram(diamonds) 
>| 
QR Graphics: Device 2 (ACTIVE) RER ES 
carat depth price table 
15000 - 
20000 - 15000 - 
10000 - 
10000 - 15000 - 
10000 - 
10000 - 
5000 - 
5000 - 5000 - 
> 0- 0- 0- 
oO 1 1 1 ! ül 1 1 ! ' 1 1 1 1 ! 1 ! 1 
= 4 5 50 60 70 80 0 500%000050020000 40 50 60 70 80 90 
= 
® x y Z 
L 10000 - 30000 - 25000 - 
20000 - 
7500 - 
20000 - 
15000 - 
5000 - 
10000 - 
10000 - 
2500 - 5000 - 
0- 0- 0- 
0 3 6 9 0 20 40 60 0 10 20 30 
value 


Et plot_density( ): 
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@ R Console os | T Da 
> plot density(diamonds) 
>| 
QG R Graphics: Device 2 (ACTIVE CNRC: 
carat depth pric table 
0.4- 02- 
15- 3e-04 - 
0.3- 
02- 
10- 2e-04 - 
0.2- 
J 04 0.1- 
0.5 ss! 1e-04 
0.0 L : ' 1 1 0 0.0- 1 1 ! 1 0e+00- 0.0- Û 1 1 1 1 
= 0 1 2 3 4 5 50 60 70 0 5000100001 5000 50 60 70 80 90 
C 
x y 7 
05- 08° 
0.4- 
04- 06- 
0.3- 
0.3- 
0.4- 
0.2- 02: 
01- 0.1- il 
00- 00- 0.0- 
0 3 6 9 0 20 40 60 0 10 20 30 
value 


Et plot_qq( ): 
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plot_qq(diamonds) 


theoretical 


Et plot_correlation( ): 
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Premium - 


£ 


E. 


cut Good 

clarity_11 
clarity_IF 
clarity_S11 
clarity_S12 


cut Ideal 
cut Premium 
clarity_VS1 


clarity_VS2 
clarity_VVS1 
clarity_VYS2 


-1.0 -05 00 05 10 


Et plot_boxplot( ): 
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@R R Console [se Ts) 


> plot boxplot (diamonds, by = "cut") 


Ideal - 


Premium - 


Very Good - 


Good- 


! 1 1 ' L 
50 60 70 80 90 


Ideal-* 


Premium - ® 


Very Good-® 


Good-e 


Fair-® 


Et plot_scatterplot( ): 
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Sciences.ch 


HE ; + 
R _ = &3 
> plot scatterplot (split columns (diamonds)$continuous, by = "price") 
> 

le A 
R | (s] D 

carat 
D" . 
L] 
5 .* 
15000 - : 
L] . æ 
. - . 
10000 - à 
L] 
L] 
5000 - . 
. 
0 = ' ! ' L : ll ' ! ! ! L ' ' 
0 0 1 2 3 4 50 60 70 80 50 60 70 80 90 
[= x y Z 
L] L] î 
L] 
15000 - j T 
. L] + , . 
10000 - . 
e 
L] L] . 
5000 - # w Cu 
! 
. . Ë , & 
0 =, À t Rd 
0 3 6 q 0 20 40 60 0 10 20 30 
value 
Et plot_prcomp( ): 
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FE 


Œ F Console ONE 
> plot _prcomp (diamonds, maxcat = 5L) 
2 features with more than 5 categories ignored! 
color: 7 categories 
clarity: 8 categories 
>| 
Re Graphics: Device 2 (ACTIVE) ss) 
PC1 PC2 PC3 
z- rene | C1 LC] 
y- [se | E (l 
x- nes [| [| 
table - SA Ceres; [| 
price - | (el B 
depth - | Es nr | 
cut_Very.Good - [] Es] = 
cut_Premium - ESS} En) nn | 
cut_Ideal- D a | 
cut_Good- [] EM pur | 
cut_Fair- EE | | 
. aat- ._ = LL | 
= 01 00 01 02 03 04 06 -0.3 0.0 03 06 050 -025 0.00 0.25 
© 
© PC4 
: : 
y- 
x- I 
table - E 
price - E 
depth - Es 
cut_Very.Good- RE 
cut_Premium - | 
cut_Ideal - ] 
cut_Good- Es 
cut_Fair- Es 
cort-S SES ESS ES en, 
0.75 050 025 000 025 
Relative Importance 


Et plot_missing( ): 
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RAR Console 


> plot missing(diamonds) 
> | 


MR Graphics: Device 2 (ACTIVE) 


price - 


table - 


Features 


depth - 


clarity - 


color - 


cut- 


carat- 


-0.050 -0.025 0.000 0.025 0.05 
Missing Rows 


Band a Good 
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Exemple 331.: Dumification 


R 3.6.2 


La dumification de jeu de donnée est parfois une manipulatione essentielle lors du 
développement de certains algorithmes particuliers. Voyons comment faire cela rapidement 
avec la fonction dumify( ) du package DataExplorer (package sur lequel nous reviendrons 


plus tard!). 


Considérons le jeu de données iris qui pour rappel est structure de la façon suivante: 


R : 
R File Edit View Misc Packages 


Windows 


Help 


> data("iris") 
> str{iris) 


| "data.frame: 150 obs 
$ Sepal.Length: num 
$ Sepal.Width : num 
$ Petal.Length: num 
$ Petal.Width : num 
$ Species Factor 


|> head(iris,20) 


©O HR Ü 01 


D 4 U UT: 
CHERS 
B -j W 


CLR 


osa", 


CHE om 


versicolor",..: 


Sepal.Length Sepal.Width Petal.Length Petal.Width 
Le 


1 5.1 
2 4.9 
3 4.7 
4 4.6 
5 5.0 
6 5.4 
1 4.6 
8 5.0 

19 4.4 
10 4.9 
11 5.4 
12 4.8 
13 4.8 
14 4.3 
15 5.8 
16 5.7 
17 5.4 
18 5.1 
19 5.7 
20 5.1 
> 


WU GO QU Q & 4 QU GO QU © QU D) QG CG GO GW WW WW WW 


Co © ULB OO OCOOCOS JF (0 & B L0O M H ND © in 


CO 
Be Me 0 0 OU OO OÙ ON OU O0 O0 6 0 À 0! 


Ur 18 GO O1 D EH 4 OUT O1 B O1 -J 8 01 WE 


0. 


O00O0O00O00000000000000O00O0O 
Q Q U & & NH EH D ND EH D D Q & D ND D D ND 


Species 
setosa 
setosa 
setosa 
setosa 
setosa 
setosa 
setosa 
setosa 
setosa 
setosa 
setosa 
setosa 
setosa 
setosa 
setosa 
setosa 
setosa 
setosa 
setosa 
setosa 


LL LE A LE LE LS 


Allons-y pour découvrir la fonction dummify( ) du package DataExplorer: 
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Exemple 332.: Normaliser un data frame 
R 3.6.2 


Nous avons parlé de nombreuses fois dans le cours théorique de l'importance de normaliser ou 
recoder certaines variables pour calculer des métriques qui ont du sens ou analyser certains 
modèles sur des variables catégorielles. Comme ce sujet devrait s'appliquer normalement à 
presque tous les sujets qui vont suivre (et à certains de ceux que nous avons déjà vu, comme 
en particulier les régressions!), voyons comme faire cela! 


D'abord nous importons le jeu iris (c'est un bon petit jeu de données pour le coup!): 


| R File Edit View Misc Packages Windows Help 5 x 
ES OISE SO | 


> mydata<-read.csv("c:/tmp/iris.csv",header-=F,sep=",",stringsAsFactors-TRUE) 
> colnames (mydata)<-c("sepal length","sepal width","petal length","petal width","species") 
> head(mydata, 10) 

sepal length sepal width petal length petal width species 


1 5-1 3-5 1.4 0.2 Iris-setosa 
2 4.9 3.0 1.4 0.2 Iris-setosa 
3 4.7 des 1.3 0.2 Iris-setosa 
Ê) 4.6 31 L:# 0.2 Iris-setosa 
S 5:0 3.6 1.4 0.2 Iris-setosa 
6 5.4 3.9 17 0.4 Iris-setosa 
7 4.6 3.4 1,4 0.3 Iris-setosa 
8 5.0 3.4 L.5 0.2 Iris-setosa 
9 4.4 2.9 1.4 0.2 Iris-setosa 
10 4.9 3.1 1.5 0.1 Iris-setosa 
é< 


Et on y va pour utiliser la fonction normalize( ) du package BBmisc et dummy_cols( ) du 
package fastDummies: 


Q File Edit V Misc es Windows Help 
BBC 


> fon standardise les variables numériques 
> library("BBmisc") 
> std_ mydata<-normalize (mydata,method="standardize") 
> head(std mydata, 10) 
sepal length sepal width petal length petal width species 


L -0.8976739 1.0286113 —-1.336794 1.308593 Iris-setosa 
2 —1.1392005 -0.1245404 —1.336794 —1.308593 Iris-setosa 
3 =1-3807271 0.3367203 -1.393470 —1.308593 Iris-setosa 
4 —1.5014904 0.1060900 -1.280118 —-1.308593 Iris-setosa 
5 -1.0184372 1.2592416 =*1:336794 —1.308593 Iris-setosa 
6 -0.5353840 1.9511326 -1.166767 1.046525 Iris-setosa 
7 —1.5014904 0.7979809 —-1.336794 —1.177559 Iris-setosa 
8 -1.0184372 0.7979809 -1.280118 —1.308593 Iris-setosa 
8 -1.7430170 -0.3551707 -1.336794 —1.308593 Iris-setosa 
10 -1.1392005 0.1060900 -1.280118 —1.439627 Iris-setosa 
> 
> #on dummy code les variables factorielles (catégorielles) 
> library("fastDummies") 
> std_ mydata<-dummy_ cols (std mydata) 
> head(std mydata, 10) 

sepal length sepal width petal length petal width species species Iris-setosa species Iris-versicolor species Iris-virginica 
1 -0.8976739 1.0286113 —-1.336794 —1.308593 Iris-setosa 1 0 0 
2 —1.1392005 -0.1245404 —-1.336794 —1.308593 Iris-setosa 1 0 0 
3 —1.3807271 0.3367203 —1.393470 1.308593 Iris-setosa L 0 0 
4 —1.5014904 0.1060900 -1.280118 —1.308593 Iris-setosa 4 0 0 
S -1.0184372 1.2592416 —-1.336794 —1.308593 Iris-setosa KL 0 0 
6 -0.5353840 1.9511326 —-1.166767 —1.046525 Iris-setosa 1 0 0 
LA —1.5014904 0.7979809 -1.336794 -1.177559 Iris-setosa El 0 0 
8 —1.0184372 0.7979809 —1.280118 —1.308593 Iris-setosa 1 0 0 
9 -1.7430170 -0.3551707 —-1.336794 —1.308593 Iris-setosa 1 0 0 
10 -1.1392005 0.1060900 -1.280118 1.439627 Iris-setosa L 0 0 
> 
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Exemple 333.: caret (classification and regression training) 
R 3.02 


Le package caret est très utile pour préparer les données dans le cadre du Data 
Mining/Machine Learning (gain de temps considérable) et particulièrement dans le domaine 
de la transformation de variables et réduction dimensionnelle. Ce n'est d'ailleurs pas la 
première fois que nous l'utilisons dans ce livre. 


Voyons quelques exemples. 


Nous chargeons donc d'abord le package caret avec le jeu de données qui va nous 
accompagner tout du long: 


R@ File Edit View Misc Packages Windows Help 


> library(caret) 
> mydata<-read.csv("C:/tmp/ACP.csv",header=T,sep=";") 


mydata 

Fleur LongueurSepale LargeurSepale LongueurPetale 

1 1 SL 3.5 1:42 
 - 2 4.9 3.0 1.4 
3 3 4.7 3.2 1.3 
4 4 4.6 7 1 ESS 
5 S 1 2:60 1.4 
6 6 7.0 3.2 4.7 
7 7 6.4 3-2 4.5 
8 8 6.9 = 7 1 4.9 
g g 2.3 4.0 
10 10 6.5 2.8 4.6 
11 11 6.3 3.3 6.0 
12 2 5.8 r 4 PS ! 
13 13 7.1 3.0 5.9 
14 14 6.3 2.9 5.6 
15 6.5 3.0 5.8 


On commence le classique consistant à centrer réduire les données avec la fonction 
preProcess( ) : 
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ŒR File Edit View Misc Packages Windows Help mx 


ÉROSGSIOIE 


> preprocessParams <- preProcess (mydata{,2:4], method=c("center", "scale")) 
> transformed <- predict (preprocessParams, mydata{,2:4)]) 
> transformed 


LongueurSepale LargeurSepale LongueurPetale 


| 1 -0.9231724 1.3835188 -1.30733641 
| 2 -1.1520581 -0.1886617 -1.30733641 
3 -1.3809439 0.4402105 -1.36019368 
4 -1.4953867 0.1257744 -1.25447914 
5 -1.0376153 1.6979549 -1.30733641 
6 1.2512420 0.4402105 0.43695341 
7 0.5645848 0.4402105 0.33123887 
8 1.1367991 0.1257744 0.54266794 
g -0.4654010 -2.3897143 0.06695254 
10 0.6790276 -0.8175338 0.38409614 
1L 0.4501419 0.7546466 1.12409788 
2 -0.1220724 -1.1319699 0.64838248 
13 1.3656848 -0.1886617 1.07124061 
14 0.4501419 -0.5030977 0.91266881 
15 0.6790276 -0.1886617 1.01838335 
> summary (transformed) 
LongueurSepale LargeurSepale LongueurPetale 
Min. :-1.4954 Min. :-2.3897 Min. :-1.3602 
ist Qu.:-0.9804 1st Qu.:-0.3459 ist Qu.:-1.2809 
Median : 0.4501 Median : 0.1258 Median : 0.3841 
Mean : 0.0000 Mean : 0.0000 Mean : 0.0000 
3rd Qu.: 0.6790 3rd Qu.: 0.4402 3rd Qu.: 0.7805 
| Max. : 1.3657 Max. : 1.6980 Max. 2 1.1241 


Ensuite la transformation qui normalise tout dans une plage Min-Max, toujours avec 
preProcess( ) : 
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> transformed 


ist Qu.:0.1800 
Median :0.6800 
Mean :0.5227 
| 3rd Qu.:0.7600 
| Max. :1.0000 
>| 


UR RGui (64-bit) - [R Console] 


ROIS GSIOIE 


> preprocessParams <- preProcess(mydata{,2:4], method="range") 
> transformed <- predict (preprocessParams, mydata{,2:4)]) 


| 1 0.20 0.9230769 
|2 0.12 0.5384615 
3 0.04 0.6923077 
4 0.00 0.6153846 
| 5 0.16 1.0000000 
6 0.96 0.6923077 
7 0.72 0.6923077 
| 8 0.92 0.6153846 
| 9 0.36 0.0000000 
10 0.76 0.3846154 
11 0.68 0.7692308 
2 0.48 0.3076923 
13 1.00 0.5384615 
14 0.68 0.4615385 
| 15 0.76 0.5384615 
|> summary(transformed) 
| LongueurSepale LargeurSepale 
Min. :0.0000 Min. :0.0000 


ist Qu.:0.5000 
Median :0.6154 
Mean :0.5846 
3rd Qu.:0.6923 
Max. :1.0000 


ŒR File Edit View Misc Packages Windows Help 


LongueurSepale LargeurSepale LongueurPetale 


0.02127660 
0.02127660 
0.00000000 
0.04255319 
0.02127660 
0.72340426 
0.68085106 
0.76595745 
0.57446809 
0.70212766 
1.00000000 
0.80851064 
0.97872340 
0.91489362 
0.95744681 


LongueurPetale 
Min. :0.00000 
list Qu.:0.03191 
Median :0.70213 
Mean :0.54752 
3rd Qu.:0.86170 
Max. :1.00000 


Et pour normaliser, la non-moins fameuse transformation de Box-Cox, toujours avec la 
fonction preProcess( ) : 
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R RGui (64-bit) - [R Console] — 


R File Edit View Misc Packages Windows Help sx 


ROIS GSIOIE 


> preprocessParams <- preProcess(mydata{,2:4], method="BoxCox") 
> transformed <- predict (preprocessParams, mydata[,2:4]) 

> preprocessParams 

Created from 15 samples and 3 variables 


| Pre-processing: 
- Box-Cox transformation (3) 
- ignored (0) 


Lambda estimates for Box-Cox transformation: 
lA46; 2 IL 

|> transformed 

LongueurSepale LargeurSepale LongueurPetale 


1 7.847124 5.625 1.4 
2 7.321827 4.000 1.4 
3 6.809240 4.620 1.3 
4 6.557780 4.305 1.5 
5 7.582899 5.980 1.4 
| 6 13.436669 4.620 4.7 
I 11.558385 4.620 4.5 
| 8 13.116640 4.305 4.9 
9 8.935053 2.145 4.0 
| 10 11.864395 3.420 4.6 
| 11 11.255231 4.945 6.0 
| 12 9.782941 3.145 5.1 
| 13 13.759454 4.000 5.9 
| 14 11.255231 3.705 5.6 
Y 11.864395 4.000 5.8 
| > 


et la transformation de Yeo-Johnson, toujours avec la fonction preProcess( ) : 
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UR RGui (64-bit) - [R Console] L Û 


GR File Edit View Misc Packages Windows Help = FX 


EBOISCSIEOIE 


> preprocessParams <- preProcess (mydata{,2:4], method="YeoJohnson") 
> preprocessParams 
| Created from 15 samples and 3 variables 


Pre-processing: 
| — ignored (0) 
- Yeo-Johnson transformation (3) 


Lambda estimates for Yeo-Johnson transformation: 
|1.79, 3.2, 1.42 
> transformed <- predict (preprocessParams, mydata[,2:4]) 
| > transformed 
LongueurSepale LargeurSepale LongueurPetale 


|1 13.65738 38.34347 1.738598 

2 12.83397 26.19231 1.738598 
| 3 12.03233 30.67702 1.595220 
4 11.63971 28.37441 1.884517 
5 13.24297 41.16377 1.738598 
6 22.53787 30.67702 7.649392 
LU 19.52982 30.67702 7.235818 
| 8 22.02370 28.37441 8.069132 
g 15.36885 13.99774 6.229724 
| 10 20.01828 22.17555 7.441826 
| 11 19.04654 33.10368 10.482786 
| 12 16.70847 20.33388 8.494917 
| 13 23.05715 26.19231 10.256278 
| 14 19.04654 24.12720 9.585081 
Y 20.01828 26.19231 10.031150 
Fa 


Et pour faire une analyse en composantes principales et automatiquement extraire les axes 
principaux qui "expliquent" 95% de la variance, nous avons là encore très facilement et 
toujours avec la fonction preProcess( ) : 
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GR RGui (64-bit) - [R Console] — CO 


GR File Edit View Misc Packages Windows Help 4 2 
EC 


> preprocessParams <- preProcess(mydataf,2:4], method=c{"center", "scale", "pca")) 
> preprocessParams 
Created from 15 samples and 3 variables 


| Pre-processing: 
— centered (3) 
- ignored (0) 
- principal component signal extraction (3) 
- scaled (3) 


PCA needed 2 components to capture 95 percent of the variance 
> transformed <- predict (preprocessParams, mydata{,2:4]) 
> transformed 
| PC1 PC2 
-1.9709735 -0.7650496 
-1.5631021 0.7643386 
-1.9676850 0.2806385 
-1.8580624 0.6002476 
-2.1552491 -1.0099953 
0.9446253 -0.9308860 
0.4324134 -0.6573665 
1.0542478 -0.6112769 
| 9 0.5902901 2.3615116 
| 10 0.9854731 0.4467935 
11 0.7886114 -0.9951791 
12 0.7630417 1.0089665 
13 1.6721973 -0.4717654 
| 14 1.0881551 0.1834595 
15 1.1960170 -0.2044370 


CO -J On On 4 Où LE) 


Nous pouvons aussi faire une analyse en composantes indépendantes (ICA), toujours avec la 
fonction preProcess( ) : 


R Statistical Software 2079/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


M RGuï (64-bit) - [R Console o L 


| R rie Edit View Misc Packages Windows Help FX 


SE He 


> preprocessParams <- preProcess(mydataf,2:4], method=c("center", "scale", "ica"), n.comp=2) 
> preprocessParams 
Created from 15 samples and 3 variables 


Pre-processing: 
- centered (3) 
- independent component signal extraction (3) 
- ignored (0) 
- scaled (3) 


ICA used 2 components 
> transformed <- predict (preprocessParams, mydata{,2:4)]) 
> transformed 

ICAL ICA2 
-1.62263495 -0.3552151 
-0.81780701 1.1525071 
-1.26263553 0.7378897 
-1.07760573 1.0474644 
-1.83366871 -0.5698301 
0.33378712 -1.1870655 
0.07368723 -0.7852856 
0.51881692 -0.8774908 
[9 1.21545241 2.3369767 
[10 0.83329433 0.2448392 
11 0.20406851 -1.2190898 
12 0.87202926 0.8831307 
13 0.99322369 -0.8710944 
|14 0.81410762 -0.0538095 
15 0.75588481 -0.4839271 


© -J On On 4 GO 12 


Et nous pouvons compléter les valeurs manquantes numériques avec les k-NN, encore et 
toujours avec la fonction preProcess( ) : 
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“Æ 


Re RGui (64-biti - [R Console] | 


CR File Edit View Misc Packages Windows Help PET. IE 


> preprocessParams <- preProcess(mydata{,2:4], mechod="knnImputre") 
> preprocessParams 
Created from 15 samples and 3 variables 


Pre-processing: 
- centered (3) 
- ignored (0) 
- 5 nearest neighbor imputation (3) 
- scaled (3) 


> transformed <- predict (preprocessParems, mydataf(,2:4]) 


> transformed 
LongueurSepale LargeurSepale LongueurPetals 
1 -0.9231724 1.3835168 -1.30735641 
2 -1.1520581 -0.1886617 1.307336411 
3 -1.36809439 0.4402105 -1.36019368 
= -1.49538€7 0.1257744 -1.15447914 
5 -1.0376153 1.6979549 -1.30733641 
6 1.2512420 0.4402105 0.43695341 
7 0.5645848 0.4402105 0.33123887 
8 1.1367961 0.1257744 0.54266794 
5 -0.4654010 -2.3897143 0.06695254 
10 0.6790276 -0.8175338 0.38409614 
11 0.4501419 0.7534646G 1.12409788 
12 -0.1220724 -1.131969% D.64332248 
13 1.3656648 —0.1586617 1.07124061 
14 0.4501419 -0.5030977 0.91266881 
0.6790276 0.1886617 1.01838335 


vw 


re 
un, | 
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Exemple 334.: Balancement (équilibrage) des données 
R 3.63 


Le texte qui suite est une adaptation en français du blog suivant (2 Avril 2017, Shirin 
Elsinghorst): 


https://shiring.github.io/machine_learning/2017/04/02/unbalanced 


Le but est de mettre en pratique des techniques de balancement de données que nous avons 
brièvement parcourues dans le cours théorique. 


Commençons par importer et préparer un peu les données: 


R ml 
R File Edit View Misc Packages Windows Help 
Sal Bel) els 
> bc _ data <- read.table("c:/tmp/breast-cancer-wisconsin.data", header = F, sep = ",") 
> #on renomme les colonnes 
> colnames (bc _ data) <- c("sample code number", "clump thickness", "uniformity of cell size”, 
+ "“uniformity_ of _ cell _ shape", "marginal adhesion", 
+ "single epithelial cell size", "bare nuclei", "bland chromatin", 
+ "normal nucleoli", "mitosis", "classes") 
> 
> #on renomme les valeurs de la colonne Classes 
> bc data$classes <- ifelse(bc data$classes == "2", "benign", 
+ ifelse(bc_data$classes == "4", "malignant", NA)) 
» 
> #on transforme les valeurs de cette colonnes en facteurs 
> bc _ data$classes<- as.factor(bc data$classes) 
> 
> fun petit résumé et aperçu pour aider à la compréhension 
> str(bc data) 
"data.frame': 699 obs. of 11 variables: 
$ sample code number : int 1000025 1002945 1015425 1016277 1017023 1017122 1018099 1018561 1033078 1033078 
$ clump_thickness : ant, 553 6:46 4 22 4 
$ uniformity of cell size s ant 1.441.860 LÉO LLL2.: 
$ uniformity of cell shape s ant. 1 4 1,6 1 10 1 2 À L … 
$ marginal adhesion SE -# OL LE BELL LE SE 
$ single epithelial cell size: int 2723272222 ... 
$ bare _nuclei s Pactor af IL 16vels MON MEN IQ. LS DAS 2 422 42 Lu 
$ bland chromatin s Ant, 33233392 %12.- 
$ normal nucleoli nt Aa FATAL SL EE 
$ mitosis Sant LA L EE L LS Las 
— : Factor w/ 2 levels "benign","malignant": 1 1 1 1 1 2 1 1 1 1 ... 


Voyons un peut le contenu du jeu de données: 
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GR RGui (64-bit) - [R Co 


OR File Edit View 


nsole] 


Misc 


Packages Windows Help 


> #un petit aperçu pour ceux ne connaissant pas le contenu du jeu de données 
> head(bc data,10) 
sample code number clump thickness uniformity of cell size uniformity of cell shape | 


1 1000025 5 1 1 
2 1002945 5 4 4 
3 1015425 3 L LA 
4 1016277 6 8 8 
5 1017023 4 1 1 
6 1017122 8 10 10 | 
7 1018099 1 L 1 | 
8 1018561 2 4! 2 | 
9 1033078 2 À 1 | 
10 1033078 4 2 1 
marginal adhesion single epithelial cell size bare nuclei bland chromatin | 
1 1 2 & 3 | 
2 5 7 10 3 | 
3 1 2 2 3 
4 ER 3 4 3 
3 3 u 1 | 
6 8 g | 10 É. | 
7 L 2 10 3 | 
8 1 2 1 3 | 
3 1 2 E 1 | 
10 1 2 1 2 | 
normal nucleoli mitosis classes | 
1 1 1 benign | 
A 2 L benign | 
3 L 1 benign 
4 E 1 benign 
S 1 L benign 
6 7 1 malignant 
7 L 1 benign 
8 L 1 benign 
9 1 E benign 
10 L L benign 
>| 
CO 
Voyons si les classes sont équilibrées: < 
GR RGui (64-bit) - [R Console] [m 
GR File Edit View Misc Packages Windows Help x 
> #voyons si les classes sont équilibrées 
> summary (bc data$classes) 
benign malignant 
458 241 
> 
>| 
Pas vraiment. 
Pour la suite nous allons créer un jeu de données d'entraînement et de test: 
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R | 
R File Edit View Misc Packages Windows Help - 5 


|> library("caret") 

> set.seed(42) 

| index <- createDataPartition(bc data$classes, p = 0.7, list = FALSE) 
train data <- bc datalindex, ] 

test _ data <- bc datal-index, ] 


Maintenant voyons les différent scénarios: 
e Random Forest sur données d'origine (non balancées) 
e Random Forest sur données sous-balancées 
e Random Forest sur données sur-balancées 


e __ Random Forest sur données balancées avec ROSE (Random Over-Sampling 
Examples) 


e __ Random Forest sur données balancées avec SMOTe (Synthetic Minority Over- 


sampling Technique) Ke 
® 
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Random Forest sur données d'origine (non balancées) 


Avec le package caret, exécutons un random forest et construisons sa matrice de confusion: 


ER RGui (64-bit) - [R Console] — 


R File Edit View Misc Packages Windows Help - x 


> library("caret") 

> set.seed(42) 

> model rf <- train(classes + .,data = train data,method = "r£", 

+ preProcess = c("scale", "center"), 

+ trControl = trainControl (method = "repeatedcv", 

+ number = 10, repeats = 10, 
_ verboselter = FALSE)) 

> final <- data.frame (actual = test data$classes, | 
| + predict (model rf, newdata = test data, type = "prob")) 

> final$predict <- ifelse(finalS$benign > 0.5, "“benign", “malignant") 

> (cm original <- confusionMatrix(as.factor(final$predict), test _ data$classes)) 


| Confusion Matrix and Statistics 


| Reference | 
Prediction benign malignant 
benign 134 (e] 
malignant 3 72 
Accuracy : 0.9856 
95% CI : (0.9586, 0.997) 


No Information Rate : 0.655585 | 
P-Value [Acc > NIR] : <2e-16 


Kappa : 0.9685 
Mcnemar's Test P-Value : 0.2482 


Sensitivity : 0.9781 
Specificity : 1.0000 


Pos Pred Value 1.0000 
Neg Pred Value 0.9600 
Prevalence 0.6555 


Detection Rate : 0.6411 


Detection Prevalence 0.6411 
Balanced Accuracy 0.9891 
"Positive' Class : benign 
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Random Forest sur données sous-balancées 


Toujours avec le package caret, exécutons un random forest sur les données sous-balancées et 
construisons sa matrice de confusion: 


R RGui (64-bit) - [R Console] — (| 


| 
| 


| R File Edit View Misc Packages Windows Help x 


final underS$predict <- ifelse(final underS$benign > 0.5, "“benign", "“malignant") 
(cm_ under <- confusionMatrix(as.factor (final underS$predict), test _data$classes)) 
Confusion Matrix and Statistics 


> library("caret") 

> set.seed(42) 

> ctrl <- trainControl (method = "repeatedcv", number = 10, repeats = 10, 
mises = Hit, 

> 

> model rf under <- train(classes + ., data = train data, 

+ method = "rf",preProcess = c("scale", "center"), 
+ trControl = ctrl) 

> final under <— data.frame (actual = test_data$classes, 

+ predict (model rf under, newdata = test data, type = "“prob")) 
> 

> 


Reference 
Prediction benign malignant 
benign 134 (e] 
malignant 3 V2 
Accuracy : 0.9856 
95% CI : (0.9586, 0.997) 
No Information Rate : 0.6555 
P-Value [Acc > NIR] : <2e-16 


Kappa : 0.9685 
Mcnemar's Test P-Value : 0.2482 


Sensitivity : 0.9781 
Specificity : 1.0000 


Pos Pred Value 1.0000 
Neg Pred Value 0.9600 
Prevalence 0.6555 


Detection Rate : 0.6411 


Detection Prevalence 0.6411 
Balanced Accuracy 0.9891 
"Positive' Class : benign 
> 
< > 
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Random Forest sur données sur-balancées 


Toujours avec le package caret, exécutons un random forest sur les données sur-balancées et 
construisons sa matrice de confusion: 


R RGui (64-bit) - [R Console] O 


QR File Edit View Misc Packages Windows Help - 16 x 


library("caret") 
set.seed(42) 
ctrl <- trainControl (method = "repeatedcv",number = 10, repeats = 10, 


verboselter = FALSE [sampling = "up" 
model rf over <- train(classes + .,data = train data, method = "rf", 


preProcess = c("scale", "center"),trControl = ctrl) 
final over <- data.frame (actual = test dataS$classes, 

predict (model rf over, newdata = test data, type = "prob")) 
final over$predict <- ifelse(final over$benign > 0.5, "“benign", “malignant") 
(cm _ over <- confusionMatrix(as.factor (final overS$predict), test dataS$classes)) 
Confusion Matrix and Statistics 


VVEVNEVEVVYV 


Reference 
Prediction benign malignant 
benign 134 0 
malignant 3 72 


Accuracy : 0.9856 

95% CI : (0.9586, 0.997) 
No Information Rate : 0.655585 
P-Value [Acc > NIR] : <2e-16 


Kappa : 0.9685 
Mcnemar's Test P-Value : 0.248682 


Sensitivity : 0.9781 
Specificity : 1.0000 

Pos Pred Value : 1.0000 

Neg Pred Value : 0.S9600 
Prevalence : 0.6555 

Detection Rate : 0.6411 
Detection Prevalence : 0.6411 
Balanced Accuracy : 0.9891 


"Positive" Class : benign 
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Random Forest sur données balancées avec ROSE (Random Over- 
Sampling Examples) 


Toujours avec le package caret, exécutons un random forest sur les données balancées avec la 
méthode ROSE et construisons sa matrice de confusion: 


8 RGui (64-bit) - [R Console] 


R File Edit View Misc Packages Windows Help Slt. IE” 


final rose <- data.frame (actual = test data$classes, 

predict (model rf rose, newdata = test data, type = “prob")) 
final roseS$predict <- ifelse(final roseS$benign > 0.5, "benign", "“malignant") 
(cm_ rose <- confusionMatrix(as.factor (final roseS$predict), test data$classes)) 
Confusion Matrix and Statistics 


> library("caret") 

> library("ROSE") 

> set.seed(42) 

> ctrl <- trainControl (method = "repeatedcv", number = 10, repeats = 10, 

+ vorkosetter — FRESE, 

> model rf rose <- caret::train(classes -< .,data — train data,method = "y£", 
+ preProcess = c("scale", "center"),trControl = ctrl) 
> 

+ 

7 

> 


Reference 
Prediction benign malignant 
benign 137 5 
malignant (e) 67 


Accuracy : 0.9761 
95% CI =: (0.:9451, 0.9922) 
No Information Rate : 0.6555 
P-Value [Acc > NIR] : < 2e-16 


Kappa : 0.9461 
Mcnemar's Test P-Value : 0.07364 


Sensitivity : 1.0000 
Specificity : 0.9306 

Pos Pred Value : 0.9648 

Neg Pred Value : 1.0000 
Prevalence : 0.6555 

Detection Rate : 0.655585 
Detection Prevalence : 0.6794 
Balanced Accuracy : 0.9653 


"Positive' Class : benign 
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Random Forest sur données balancées avec SMOTe (Synthetic 
Minority Over-sampling Technique) 


Toujours avec le package caret, exécutons un random forest sur les données balancées avec la 
méthode SMOTe et construisons sa matrice de confusion: 


R RGui (64-bit) - [R Console] . 


R File Edit View Packages Windows Help - EX 


library("caret") 

library ("ROSE") 

set.seed(42) 

ctrl <- trainControl (method = "repeatedcv",number 10, repeats = 10, 

verboselter = FALSE, sampling "smote") 

model _ rf smote <- caret::train(classes - ., data = train data, 
method = "rf", preProcess = c("scale", "center"), 
trControl = ctrl) 

Loading required package: grid | 

Registered $S3 method overwritten by 'quantmod': 


HV VVVYV 


method from 
as.zoo.data.frame zoo 
final smote <- data.frame(actual = test dataSclasses, 


predict (model rf smote, newdata = test data, type = "prob"S 
final smoteS$predict <- ifelse(final smote$benign > 0.5, "benign", "“malignant") 
(cm_ smote <- confusionMatrix(as.factor(final smoteS$predict), test dataS$classes)) 
Confusion Matrix and Statistics 


VV +V 


Reference 
Prediction benign malignant 
|  benign 134 0 
malignant 3 72 


Accuracy : 0.9856 

95% CI : (0.9586, 0.997) 
No Information Rate : 0.6555 
P-Value [Acc > NIR] : <2e-16 


Kappa : 0.9685 
Mcnemar's Test P-Value : 0.248682 


Sensitivity : 0.9781 
Specificity : 1.0000 

Pos Pred Value : 1.0000 

Neg Pred Value : 0.9600 
Prevalence : 0.6555 

Detection Rate : 0.6411 
Detection Prevalence : 0.6411 
Balanced Accuracy : 0.9891 


"Positive' Class : benign 
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Comparaison des résultats 


Maintenant comparons tous les résultats d'abord sous forme graphique: 


QR R Console 


> models <- list(original = model rf, 

+ under = model rf under, 
over = model rf over, 
smote = model rf smote, 
rose = model rf rose) 


resampling <- resamples (models) 
bwplot (resampling) 


QR Graphics: Device 2 (ACTIVE) 


original 
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Ou une comparaison sous forme de tableau: 


R RGui (64-bit) - [R Console] 


ŒR File Edit View Misc Packages Windows Help 


> (comparison <- data.frame (model = names (models), 
+ Sensitivity = rep(NA, length(models)), 
+ Specificity = rep(NA, length(models)), 
+ Precision = rep(NA, length(models)), 
+ Recall = rep(NA, length(models)), 
+ F1 = rep(NA, length(models)))) 
model Sensitivity Specificity Precision Recall F1 
1 original NA NA NA NA NA 
2 under NA NA NA NA NA 
3 over NA NA NA NA NA 
Es smote NA NA NA NA NA 
5 rose NA NA NA NA NA 
> 
> (comparison <- data.frame (model = names (models))) 
model 
1 original 
2 under 
3 over 
4 smote 
5 rose 
> 
> for (name in names (models)) !{ 
+ model <- get (paste0("cem ", name)) 
— 
+ comparison[comparison$model == name, "Sensitivity"] <- model$byClass[["Sensitivity"]] 
+ comparison[comparison$model == name, "Specificity"] <- model$byClass[["Specificity"]] 
+ comparison[/comparison$model == name, "Precision"] <- modelS$byClass[["Precision"]] 
+ comparison[comparison$model == name, "Recall"] <- modelS$byClass{[["Recall"]] 
+ comparison{comparison$model == name, "Fl"] <- model$byClass[["F1"]] 
+ } 
x à 
> comparison 
model Sensitivity Specificity Precision Recall F1 
1 original 0.9781022 1.0000000 1.0000000 0.9781022 0.9889299 
2 under 0.9781022 1.0000000 1.0000000 0.9781022 0.9889299 
3 over 0.9781022 1.0000000 1.0000000 0.9781022 0.9889299 
E smote 0.9781022 1.0000000 1.0000000 0.9781022 0.9889299 
: | rose 1.0000000 0.9305556 0.9647887 1.0000000 0.9820789 
> 


Ou en mettant ce tableau sous forme de graphique: 
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QR À Console 


> library(tidyr) 
> comparison %>% 
- gather(x, y, Sensitivity:Fi) %5>% 
ggplot (aes(x = x, y = y, color = model)) + 
geom_jitter (width = 0.2, alpha = 0.5, size 


o 
+ 
> 
QU R Graphics: Device 2 (ACTIVE) 


model 
w original 
over 
rose 
smote 


under 


Precision Recall Sensitivity Specificity 
X 
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Exemple 335.: Partitionnement 
R 3.02 


La base élémentaire rigoureuse du data mining est de séparer le jeu de données en 3 
ensembles qui sont dans l'ordre: 


1. Entraînement (calibrage) des modèles pour déterminer les paramètres 
2. Validation pour le choix du modèle qui performe le mieux ou pour affiner un modèle 
3. Test du modèle choisi pour vérifier sa précision 


Une manière simple de procéder et d'utiliser la fonction sample() que nous avons déjà 
étudié: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> mydata<-read.csv("C:/tmp/StratifiedSampling.csv",sep=";:",header=T) 
> nrowimydata) 

[1] 253 

> ind<-sample (1:nrow(mydata) ,nrow(mydata) *0.5,replace=FALSE) 

> trainData<-mydatalind,] 

> nrowitrainData) 

[1] 126 

> residual<-mydata[-ind,] 

> nrow(residual) 

[11 127 

> ind<-sampleiil:nrow(residual) ,nrow(residual) *0.5,replace=FALSE) 
> validationData<-residual[ind,] 

> nrow(validationData) 

[1] 63 

> testData<-residual[-ind,] 

> nrow(testData) 

[1] 64 

> | 


Nous reviendrons plus loin sur des techniques plus élaborées lors de notre études des 
techniques exhaustives ou non exhaustives de cross-over à la page 2255. 
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Exemple 336.: OneR (règle unique de classification) 
R 3.0.2 


Nous allons maintenant appliquer l'algorithme élémentaire One Rule rappelons que cet 
algorithme fonctionne avec des variables (qualitatives) nominales et choisit parmi l'ensemble 
des prédicteurs proposés seulement l'unique prédicteur qui en proportion explique le mieux la 
variable d'intérêt. 


Attention l'exemple qui suit ne marche qu'avec la version 32 bits de R!!! 


Reprenons l'exemple vu dans le cours théorique en utilisant la commande OneR() du 
package RWeka: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> library(RWeka) 
> mydata<-read.csv("C:/OneRule.csv",header=T,sep=";:") 
> mydata 
Animal Déplacements Moustaches Mammifère 
Chauve-souris Air Qui Qui 
Ours Terre Oui Qui 
Oiseau Lir Non Non 
Chat Terre Oui Oui 
Chien Terre Oui Oui 
ängquille Eau Non Non 
Éléphant Terre Non Qui 
Poisson Eau Non Non 
Crapaud Terre Non Non 
Insecte Lir Non Non 
Cochon Terre Non Oui 
Lapin Terre Oui Oui 
Rat Terre Qui Oui 
Fhinocéros Terre Non Oui 
Requin Eau Non Non 
> OneR(Hammifère-Déplacements+Moustaches,data-mydata) 
Di@placements: 
Lir -> Non 
Eau -> Non 
Terre -> Oui 
(13/15 instances correct) 


LOJannES DH 


> | 


Comme nous pouvons le constater (c'est tellement simple que même un enfant pourrait mettre 
cet algorithme dans n'importe quel tableur) entre Déplacements et Moustaches, l'unique 
prédicateur qui donne le meilleur résultat est Déplacements. La fonction nous aussi déjà les 
sorties potentielles pour un type de Déplacements donné. 
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Nous pouvons avoir un résumé de la performance du modèle aussi: 


GR RGui (64-bit) - [R Console] : = 


| File Edit View Misc Packages Windows Help  instalir SX 


> modeleOneR<-OneR (Mammifère-Déplacements+Moustaches, data=mydata) 
> summary (modeleOneR) 


=== Summary —=— 

| Correctly Classified Instances 13 86.6667 % 
Incorrectly Classified Instances 2 13:99333 % 
Kappa statistic 0.7222 

Mean absolute error 0.1333 

Root mean squared error 0.3651 

Relative absolute error 27.6423 % 

Root relative squared error 74.5141 % 

Total Number of Instances 15 


=== Confusion Matrix === 


a b <-- classified as 
5 1 | a = Non 
1 8 | b = Oui 


R Statistical Software 2095/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Exemple 337.: A priori 
R 3.4.1 


L'algorithme d'A priori est assez simple mais assez gourmand algorithmiquement parlant. 
Voici un exemple d'application: 


RG G4-bi 
R Fils Edit View ckages Windows Help 


&|#|0 


> library("arules") options (digits=3) 
> mydarac-read.csv("C:/tmp/Apriori.cav",hcader-T,acpr";:") :mydata 
Volé Couleur Type Origine 
Oui Rouge Sports Domestique 
Rouge Sports Domestique 
Rouge Sports Domestique 
Jaune Sports Domestique 
Jaune Sports Importé 
Jaune SUV Importe 
Jaune SUV Importe 
Jaune SUV Domestique 
Rouge SUV Importé 
Oui Bouge Sports Importé 
11 Oui Bouge SUV Domestique 
> rules<-apriori (mydate) 
Apriori 


Fe 9 O0 3 On O1 a Go Da | 


Paremeter specification: 
confidence minval smax arem aval originalSupport maxrime Ssupporc minlen maxlen target ext 
0.8 O.1 1 none FALSE TRUE 5 0.1 1 10 rules FALSE 


Algoritnmic control: 
filter tree heap memopt load sort verbose 
0.1 TRUE TRUE FALSE TRUE 2 TRUE 


Absolute minimum support count: 1 


set item appearances ...[0 item(s)] done (0.00s]. 
get transactions ...[8 item(s), 11 transaction(s)] done [0.O0Os]. 
soxrting and recoding items ... [8 item(s)] done [0.00s]. 
creating transaction tree ... done [0.00s]. 
checking subsets of size 1 2 3 4 dore [0.0C0Gs]. 
writing ... [7 rule(s)] done [0.003]. 
creating Sé object ... done [0.00s)]. 
> inspect (rules) 

1hs zhs confidence lift 
[1] {Couleur=Jaune,Origine=Dcmestique} {Volé=Non} 2.20 
{2] iVolé=Non,Origine=Importé)}) {Type=sSUv} 2.20 
[3] {Volé=Non,Type=Sports} {Origine=Domestique} 1.83 
[41] {Volé=Oui,Couleur=Jaune} > {Origine=Importé} 2.20 
{5] {Type=Sports,Origine=Importé} {Volé=Ou1} 1.83 
[6] (Volé=Oui,Origine=Domestique} {Couleur=Rouge} 1.83 
[7] {Volé=QOui,Type=Sports,Origine=Domestique} {Couleur=Rouge} 1.09 


> | 
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Exemple 338.: ECLAT (Equivalence CLAss Transformation) 
R 3.4.1 


L'algorithme d'A priori est assez simple mais assez gourmand algorithmiquement parlant. 
Nous avons mentionné dans le cours théorique que l'algorithme ECLAT est considéré comme 
plus rapide et plus efficace sur les petits jeux de données. 


Voici un exemple d'application, toujours avec le package arules et le même je de données 
qu'avant mais avec la fonction eclat( ): 


R 
® File Edit View _Misc Packages Windows Help 8 x 


EBCIE | 


> library("arules") 
> mydata<-read.csv("c:/tmp/Apriori.csv",header=T,sep=";") 


> mydata 

Volé Couleur Type Origine 
1 Oui Rouge Sports Domestique 
2 Non Rouge Sports Domestique 
3 Oui Rouge Sports Domestique 
- Non Jaune Sports Domestique 
S Oui Jaune Sports Importé 
6 Non Jaune SUV Importé 
7 Oui Jaune SUV Importé 
8 Non Jaune SUV Domestique 
9 Non Rouge SUV Importé 
10 Oui Rouge Sports Importé 
11 Oui Rouge SUV Domestique 
> rules<-eclat (mydata) 
Eclat 


parameter specification: 
tidLists support minlen maxlen target ext 
FALSE 0.1 1 10 frequent itemsets FALSE 


algorithmic control: 
sparse sort verbose 
7 —2 TRUE 


Absolute minimum support count: 1 


Warning in eclat (mydata) : 
You chose a very low absolute support count of 1. You might run out of memory! Increase minimum support. 


create itemset ... 


set transactions ...[8 item(s), 11 transaction(s)] done [0.00s]. 
sorting and recoding items ... [8 item(s)] done [0.00s]. 
creating bit matrix ... [8 row(s), 11 column(s)] done [0.00s]. 
writing ... [44 set(s)] done [0.00s]. 

+ ss S4 object ... done [0.00s]. 

> 


On peut afficher un résumé de l'analyse: 
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UR RGui (64-bit) - [R Console] (m] 


UR File Edit View Misc Packages Windows Help = 
EBIBEE EE 


> summary (rules) 
set of 44 itemsets 


most frequent items: 


Volé=Oui Type=Sports Origine-Domestique Volé=Non 
13 23 13 11 
Couleur=Jaune (Other) 
se À 32 
element (itemset/transaction) length distribution:sizes 
1 2 3 4 
8 24 11 1 
Min. ist Qu. Median Mean 3rd Qu. Max. 


1.000 2.000 2.000 2.114 3.000 4.000 


summary of quality measures: 
support count 
Min. :0.1818 Min. :2.000 
ist Qu.:0.1818 ist Qu.:2.000 
Median :0.2727 Median :3.000 


Mean :0.2831 Mean 53-114 
3rd Qu.:0.3636 3rd Qu.:4.000 
Max. :0.5455 Max. :6.000 


includes transaction ID lists: FALSE 


mining info: 

data ntransactions support 
mydata 11 0.T 
>| 


Et afficher l'inspection des règles comme nous l'avons fait avant avec l'algorithme A priori: 
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[1] 

[2] 

[3] 

[4] 

| [5] 

[6] 

[7] 

[8] 

[9] 

[10] 
[11] 
[12] 
[13] 
[14] 
[15] 
[16] 
[17] 
[18] 
[19] 
[20] 
[21] 
[22] 
[23] 
[24] 
[25] 
[26] 
[27] 
[28] 
[29] 
[30] 
[31] 
[32] 
[33] 
[34] 
[35] 
[36] 
[37] 
[38] 
[39] 
[40] 
[41] 
[42] 
[43] 
[44] 
>| 


< 


MR RGui (64-bit) - [R Console] 


ŒR File Edit View Misc Packages Windows Help 


EBSOIS 


> inspect (sort (rules, by = "support")) 


items 

{Volé=Oui} 

{Couleur-=Rouge} 

{Type=Sports} 
{Origine-Domestique} 

{Volé=Non} 

{Couleur-=Jaune} 
{Origine-=Importé} 

{Type=SUv} 
{Couleur-=Rouge,Origine=Domestique} 
{Type=Sports,Origine=Domestique} 
{Volé=Oui,Type=Sports} 
{Couleur-Rouge, Type=Sports} 
{Volé=Oui,Couleur-=Rouge} 
{Volé=Non, Type=SUV} 
{Couleur-Jaune, Type=SUv} 
{Type=SUV,Origine=Importé} 
{Volé=Oui,0Origine-=Importé} 
{Couleur=Jaune,Origine=Importé} 
{Volé=Non, Couleur=Jaune} 
{Volé=Non,Origine=-Domestique} 


{Couleur=Rouge, Type=Sports,Origine-=Domestique} 


{Volé=Oui,Couleur=Rouge,Origine=Domestique} 
{Volé=Oui,0Origine=Domestique} 
{Volé=Oui,Couleur-=Rouge, Type=Sports} 
{Volé=Non, Type=SUV,Origine=Importé} 
{Couleur=Jaune, Type=SUV,Origine-=Importé} 
{Volé=Non, Couleur=Jaune, Type=SUV} 
{Volé=Oui, Type=SUV} 

{Couleur-=Rouge, Type=SUV} 
{Type=SUV,Origine=-Domestique} 
{Volé=Oui,Couleur=Jaune,Origine=Importé} 
{Volé=Oui,Type=Sports,Origine-Importé} 
{Couleur-Rouge,Origine-=Importé} 
{Type=Sports,Origine=Importé} 
{Volé=Non,Origine-=Importé} 
{Volé=Non,Couleur-=Jaune,Origine=Domestique} 
{Volé=Oui,Couleur=Jaune} 

{Couleur=Jaune, Type=Sports} 
{Couleur-Jaune,Origine-Domestique} 
{Volé=Non, Type=Sports,Origine-Domestique} 
{Volé=Non, Couleur-=Rouge} 

{Volé=Non, Type=Sports} 


{Volé=Oui,Couleur=Rouge, Type=Sports,Origine-Domestique} 


{Volé=Oui,Type=Sports,Origine-Domestique} 


support 

0.5454545 
0.5454545 
0.5454545 
0.5454545 
0.4545455 
0.4545455 
0.4545455 
0.4545455 
0.3636364 
0.3636364 
0.3636364 
0.3636364 
0.3636364 
0.2727273 
0.2727273 
0.2727273 
0.2727273 
0:2727273 
0.2727273 
0.2727273 
0.2727273 
0.2727273 
0.2727273 
0.2727273 
0.1818182 
0.1818182 
0.1818182 
0.1818182 
0.1818182 
0.1818182 
0.1818182 
0.1818182 
0.1818182 
0.1818182 
0.1818182 
0.1818182 
0.1818182 
0.1818182 
0.1818182 
0.1818182 
0.1818182 
0.1818182 
0.1818182 
0.1818182 
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On peut aussi rapidement faire un plot de toutes les fréquences relatives à l'aide de la fonction 
itemFrequencyPlot( ): 
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> library("arules") 
> mydata<-read.transactions ("c:/tmp/Apriori.csv",header=T, sep=";") 


> itemFrequencyPlot (mydata) 
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ainsi que la rareté des données: 


[> | 
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8 Console = (G; | ba | 
> image (sample (mydata, 10)) 

> 

Fran ee e(5)63) | 


Transactions (Rows) 


2 4 6 8 


ltems (Columns) 


R Statistical Software 2101/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Exemple 339.: Classification par induction CN2 
R 3.4.1 


Dans les règles de classification par induction, celle qui suit immédiatement la OneR (unique 
règle basée sur la fréquence de l'attribut cible pour rappel) est la classification par induction 
avec attributs et règles logiques non hiérarchiques. 


Voyons cela avec le jeu de données suivant: 


&@ File Edit View Misc Packages Windows Help a - x | 


> mydata<-read.csv("c:/tmp/CN2.csv",header=T,sep=";") 


> mydata 

Numéro Couleur Contour Point Forme 
1 à À Vert Pointillé Non Triangle 
2 2 Vert Pointillé Oui Triangle 
3 3 Jaune Pointillé Non Carré 
= = Rouge Pointillé Non Carré 
5 5 Rouge Plein Non Carré 
6 6 Rouge Plein Oui Triangle 
7 7 Vert Plein Non Carré 
8 8 Vert Pointillé Non Triangle 
g a Jaune Plein Oui Carré 
10 10 Rouge Plein Non Carré 
11 11 Vert Plein Oui Carré 
12 12 Jaune Pointillé Oui Carré 
13 13 Jaune Plein Non Carré 
14 14 Rouge Pointillé Oui Triangle 


nan a —_———— 


Ensuite, nous utilisons les fonctions SF.asDecisionTable( ) et RI.CN2Rules.RST() du 
package RoughSets: 
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Window Help - 5 x 


> library (RoughSets) 
> decision.table <- SF.asDecisionTable (dataset = mydata, decision.actcr = 5, indx.nominal = c(L:4]) 
» RI.CNZRules.RST(decision.tcable) 
À set consiscing of € rules: 
1. IF Couleur is Jaune THEN is Carré; 
(svpportSize=4; 1splace=0,833333333333333) 
2. IF Contour is Plein and Point is Non THEN is Carré: 
(supportSize=3;: laplace=0.8} 
3. IF Contour 13 Pointillé and Couleur 19 Vert THEN 15 Iriangle: 
(supportSize=3; laplace=0.8) 
4. IF Numéro 15 4 IHEN is Carré; 
(supportSize=l; laplace=0.66ééccécéécecee7) 
5. IF Couleur is Rouge THEN is Triangle; 
(supportSize=2; laplace=0.75) 
6. IF Numéro is 11 THEN is Carré; 
(supportSize=l; 1aplace=0.666666666666667) 


R Statistical Software 2103/3133 


Vincent ISOZ, Daname KOLANI 


Sciences.ch 


Exemple 340.: Classification par induction ID-3 et PRISM 


R 3.1.2 1386 


Nous allons ici vérifier la technique de clustering ID-3 et PRISM que nous avons étudié dans 


le cours théorique de Méthodes Numériques et calculé à la main. 


Nous allons donc travailler avec le fichier suivant et donc avec les mêmes données que dans 


le cours théorique: 


Fichier Edition Format Affichage 2 


Numéro;Couleur; Contour;Point;F orme 
1;Vert; Pointillé Non;Triangle 
2;Vert; Pointillé Oui, Triangle 

3, Jaune;Pointillé: Non,Carré 

4 Rouge;Pointillé;:Non;Carré 
SRouge;Plein;Non.;Carré 
6;Rouge;Plein; Oui, Triangle 
7,Vett;Plein,Non;Carré 

8; Vert; Pointillé Non;Triangle 
9;Jaune;Plein;,Oui,Carré 
10;Rouge;Plein;Non;Carré 
11;Vert, Plein, Oui,Carré 
12;)Jaune;Pointillé Oui,Carré 
13; Jaune;Plein;Non;Carré 

14 Rouge;Pointillé Oui; Triangle 


et là au jour où j'écris ces lignes 1l faut savoir que: 


1. Je n'ai pas trouvé de méthodes autres que d'utiliser le package RWeka.…. 


2. Cela ne marche que sur la version 32 bits de R 


Les étapes sont directement commentées dans les captures d'écran: 
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RGui (32-bit)-[RC 


| R Fichier Edition Voir Misc Packages Fenêtres Aide 


library(RWeka) 
#on rafraichit le cache de Rieka 
WPM{("refresh-cache") 
#on charge la liste de tous les algos dispos 
WPM("list-packages", "available") 

Installed Repository Loaded Package 


irabicStemmers LightStemmers: $ 
CAR: Context dware Case-Based$é 
CHIRP: CHIRP: à new classifiers 
CLOPE: CLOPE: a fast and effec$ 
CVittributeEval: An Variation $ 
DHNEBtext: Class for building af 
DTNE: Class for huilding and uf 
DilcaDistance: Learning distan$ 
DistributionBasedBalance: Dist$ 
EAR4: Case-Based Regression Lef 
EMlmputation: Replaces missing$ 
EvolutionarySearch: än Evolutif$ 
GPittributeGeneration: Geneticé 
IWSS: Incremental Wrapper Subs$ 


OhHWHOMHH 


QGO0 CD O0 C0 00:00 © © oO & 


OO0O0OH 
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KR Fichier Edition Voir Misc Packages Fenêtres 


> #installation du package contenant 1D3 

> WPM("install-package", "simpleEducationalLearningSchemes") 

Package simpleEducationalLearningSchemes[simpleEducationalLearningSche$ 
[DefaultPackageManager] cleanining installed package: simpleEducationa$ | 
[DefaultPackageManager] removing: C:\Users\1SOZVI-1\A1ppData\Local\ Temp$ 
[DefaultPackageManager] removing: C:\Users\1SOZVI-1\AppDataLocal\ Tempé 
[DefaultPackageManager] removing: C:\Users\1SOZVI-1\AppDataLocal\Temp$ 
[DefaultPackageManager] can't delete file C:\Users\1SOZVI-1\äppDataiLof$ 
[DefaultPackageManager] can't delete directory C:\Users\1SOZVI-1\LpDa$ 
[DefaultPackageManager] removing: C:\Users\1ISOZVI-1\AppDataLocal\ Tempé 
http://prdownloads.sourceforge.net/weka/simpleEducationalLearning$chems 
[DefaultPackageManager] Tmp file: C:\Users\1SOZVI-1\ A1ppDataiLocal\Temp$ 
5% [DefaultPackageManager] downloaded 6 KE 

$%[DefaultPackageManager] downloaded 9 KE 

**[DefaultPackageManager] downloaded 12 KE 

5 [DefaultPackageManager] downloaded 15 KB 

$*[DefaultPackageManager] downloaded 28 KE 

5% [DefaultPackageManager] downloaded 38 KE 

*$[DefaultPackageManager] downloaded 46 KE 

$$[DefaultPackageManager] downloaded 56 KB 

**[DefaultPackageManager] downloaded 67 KE 

$+[DefaultPackageManager] downloaded 76 KE 


« | TT 
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KR Fichier Edition Voir Misc Packages Fenêtres Aide 


#chargement du package 

WPHi"load-package", "simpleEducationalLearningSchemes") 
#préparation du classificateur 

ID3 <- make Weka classifier ("weka/classifiers/trees/ld3") 
fet on l'utilise... 
mydata<-read.csv("C:/tmp/1D3.csv",header=T,sep=";:") 

fon enlève la première colonne qui dérange et qui ne s' à de toute f$ 
#à rien 

mydata<-mydata([,-1] 

ID3 imydataf$Forme-., data = mydata) 

Id3 


> 
> 
> 
> 
” 
> 
> 
> 
> 
? 


Couleur = Jaune: Carri© 

Couleur Rouge 

| Point = Non: Carri© 

| Point = Oui: Triangle 

Couleur = Vert 

| Contour = Plein: Carri© 

| ‘ci = Pointilli@: Triangle 
: 


« | 


Nous n'avons donc pas a priori le niveau de finisse de paramétrage de Tanagra mais bon. 


À comparer avec Tanagra (les résultats sont les mêmes): 


Decision tree 


e Couleur in [Vert] 
e Contour in Pointillé] then Forme = Triangle (100,00 % of 3 examples) 
e Contour in [Plein] then Forme = Carré (100,00 % of Z examples) 
e Couleur in MJaune] then Forme = Carré (100,00 % of 4 examples) 
e Couleur in [Rouge] 
e Point in [Mon] then Forme = Carré (100,00 % of 3 examples) 
e Point in [Oui] then Forme = Triangle (100,00 % of 2 examples) 


et cela est conforme aux résultats obtenus dans le cours théorique. 


Dommage (au même titre que pour Tanagra) qu'il n'y ait pas de diagramme cependant... cela 
aiderait à la compréhension. 


Et pour PRISM il s'agit d'utiliser: 
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R RGui (32-bit) - [R Console] 
CR Fichier Edition Voir Misc Packages Fenêtres Aide 


ÉBSOISESINIE 


> PRISM<-make Weka classifier ("weka/classifiers/rules/Prism") 
> PRISM(imydata$Forme-.,data=mydata) 
Prism rules 


Couleur = Jaune then CarrÀA® 
Contour = Plein 

and Point = Non then CarrÂ® 
Contour = Plein 

and Couleur = Vert then Carrk® 
Couleur = Rouge 


and Point = Non then CarrÂ® 


Couleur = Vert 

and Contour = Pointill1Â® then Triangle 
Couleur = Rouge 

and Point = Oui then Triangle 
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Exemple 341.: Classification par induction C5 


R 3.4.1 


Nous avons parlé de cet algorithme dans le cours théorique. Nous allons voir à quel niveau il 
donne des résultats similaires ou différents de ID3 vu juste précédemment. Pour cela nous 


chargeons le package C50 et le même jeu de données qu'avant: 


OR File Edit 


EÉROBCeCE 


View Misc 


|> library(CS50) 


> mydata<-read.csv("c:/tmp/CS.csv",header=T,sep=";") 


| Numéro Couleur 


|> mydata 

|1 1 
3 3 
| 4 4 
= =) 
6 6 
7 7 
8 8 
g g 
10 10 
11 11 
12 12 
13 13 
14 24 


Vert 
Vert 
Jaune 
Rouge 
Rouge 
Rouge 
Vert 
Vert 
Jaune 
Rouge 
Vert 
Jaune 
Jaune 
Rouge 


Packages 


Windows Help 


Contour Point 


Pointille 
Pointille 
Pointille 
Pointille 
Plein 
Plein 
Plein 
Pointillée 
Plein 
Plein 
Plein 
Pointillé 
Plein 
Pointillé 


Non 
Oui 
Non 
Non 
Non 
Oui 
Non 
Non 
Oui 
Non 
Oui 
Oui 
Non 
Qui 


Forme 
Triangle 
Triangle 

Carré 

Carré 

Carré 
Triangle 

Carré 
Triangle 

Carré 

Carré 

Carré 

Carré 

Carré 
Triangle 


Nous entraînons l'algorithme avec la fonction C5.0( ) : 


OC 
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— (5 


R RGui (64-bit) - [R Console] 


GR File Edit View Misc Packages Windows Help = 


> fle -5 est là pour éliminer la cible du jeu d'entraînement 
> treeModel <-C5.0(x=mydata{,-5],y=mydata$Forme) 
> treeModel 


Call: 
CS5.0.default(x = mydataf, -5], y = mydata$Forme) 


Classification Tree 
Number of samples: 14 
Number of predictors: 4 
Tree size: 5 


Non-standard options: attempt to group attributes 


>| 


Nous affichons le résumé (à comparer avec le résultat de l'algorithme ID3): 
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R RGui (64-bit) - [R Console] — 0 
GR File Edit View Misc Packages Windows Help = x 
> summary (treeModel) : 
Call: 
C5.0.default(x = mydataf, -5], y = mydata$Forme) 
CS.0 [Release 2.07 GPL Edition] Tue Jul 18 14:39:40 2017 
Class specified by attribute ‘outcome' 
Read 14 cases (5 attributes) from undefined.data 
Decision tree: 
Couleur = Jaune: Carré (4) 
Couleur = Rouge: 
:...Point = Non: Carré (3) 
— Point = Oui: Triangle (2) 
Couleur = Vert: 
:...Contour = Plein: Carré (2) 
Contour = Pointillé: Triangle (3) 
Evaluation on training data (14 cases): 
Decision Tree 
Size Errors 
5 0( 0.0%#) << 
(a) (b) <-classified as 
g (a): class Carré 
5 (b): class Triangle 
Attribute usage: 
100.00% Couleur 
35.71% Contour 
35.71% Point 0 


et nous pouvons aussi faire un graphique: 
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&e RGui (64-bit) - [R Console] = Ü 


4 File Edit View Misc Packages Windows Help SE 


> plot (treeModel) 
>| 


Jaune Rouge Ve 
Cm) 


Ce qui donne: 
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Figure 297 Graph de classification par induction C5 
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Exemple 342.: Classification Ascendante Hiérarchique 


(CAH/Dendrogramme) 
R 3.0.2 


Nous allons donc vérifier ici si nous obtenons le même dendrogramme que dans le cours 
théorique (où nous nous étions follement amusé à calculer à la main...) et par la même 
occasion nous pourrons vérifier si Minitab utiliser avec l'OBS une agglomération naïve ou 
non. Nous utilisons donc les mêmes données que dans le cours théorique: 


Fichier Edition Format Affichage 2 
Revenus ;Surface;Propriétaire 


Nous pouvons d'abord avec la commande native dist() afficher la matrice symétrique des 
distances euclidiennes: 
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mé, RGui (64-bit) » [R 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> mydata<-read.csv("C:/HiC.csv",header=T,sep=";") 
dist (mydata[,2:3],method="euclidian",diag=TRUE,upper=FALSE) 
L 2 | 4 5 6 

0.000000 

25.550147 0.000000 
5.768882 21.249235 0.000000 
2.830194 24.331050 3.395585 0.000000 

27.496182 6.963476 22.269908 25.653265 0.000000 

50.106387 24.716796 45.363532 48.626330 23.515314 0.000000 

48.006666 22.514218 43.384790 46.609977 21.840330 2.640076 0.000000 

23.148218 6.216912 18.017769 21.360009 4.368066 27.486906 25.653070 0.000000 
9.141116 16.607439 4.494441 7.542546 18.356470 41.107785 39.073776 14.007141 0.000000 

33.087158 68.500000 28.211345 31.500000 6.621178 17.174691 15.337536 10.324728 24.013330 0.000000 
9.693297 34.609683 13.805796 10.568349 36.035538 59.166291 57.169572 31.802516 18.110770 42.017139 0.000000 
21.060864 5.521775 16.278821 19.516403 6.997142 29.110994 27.106457 3.000000 12.000000 12.026637 30.066593 
15.047923 10.866922 10.394229 13.553228 12.649111 35.102279 33.060551 6.287340 6.013319 18.039956 24.119701 
7.589466 32.943740 12.026637 68.700000 34.314426 57.322334 55.292676 30.042636 16.219741 40.200000 2.163331 
4.947727 20.703664 4.400000 4.883646 23.104112 45.344129 43.201852 18.736061 5.047772 28.428859 14.610955 
16.918629 42.452915 21.633308 18.304371 43.916739 66.910761 64.860466 39.650473 25.803101 49.601606 7.962412 
24.013330 1.700000 19.612241 22.726416 6.708204 26.148996 24.000000 4.947727 15.190787 9.551963 33.292041 
10.829589 36.308814 16.104658 12.709445 36.273228 60.921014 58.600000 33.941125 19.944924 43.916739 4.753946 
2.473863 26.112258 7.779460 5.239275 28.627260 50.800886 48.626330 24.259431 10.400000 33.941125 10.322790 


Bon nous n'y voyons pas toute la matrice (pas assez de place sur la capture d'écran) mais les 
valeurs sont bien les mêmes que celles calculées à la main. Vérifions maintenant que nous 
avons bien le même dendrogramme avec la commande heclust( ) : 


Lo 
Co 
NI 
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À R Console 


dc<-dist imydata[,2:3] ,method="euclidian",diag=TRUE,upper=FALSE) 
hier<-hclust (dc,"single") 
plotihier) 


Cluster Dendrogram 


dc 
hclust ("single") 


et tout est donc bien conforme :-) 
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CAH avec ACP 


Le but ici est de voir quand peut, comme mentionné dans le cours théorique, bien évidemment 
exécuter une ACP avant la CAH. 


D'abord chargeons les données avec une petite ACP classique: 


1 File Edit View Misc Packages Windows Help SE - 6. 


SOS OBICE 


> mydata<-read.csv("c:/tmp/HAC.csv",header=T,sep=";") 
> mydata<-mydatal,2:3] 
> mydata 
Revenus Surface 
L 60.0 18.4 
| 2 85.5 16.8 
3 64.8 21.6 
5 61.5 20.8 
E 87.0 23.6 
6 110.1 19.2 
7 108.0 17.6 
8 82.8 "2 2 
9 69.0 20.0 
10 93.0 20.8 
11 51:0 22.0 
| 12 81.0 20.0 
13 75.0 19.6 
| 14 52.8 20.8 
| 15 64.8 17.2 
116 43.2 20.4 
17 84.0 17.6 
l18 49.2 17.6 
19 59.4 16.0 
La 66.0 18.4 
21 47.4 16.4 
22 33.0 18.8 
23 51.0 14.0 
24 63.0 14.8 
| > 
> library(FactoMinerR) 
> res.pca <- PCA(mydata, ncp = 2, graph=F) 
> 
> library(factoextra) 
> fviz eig(res.pca) 
> fviz pca_ var(res.pca) 
> fviz pca_ind(res.pca) 
> 


Ce qui donne pour la commande fviz_eig() du package factoextra: 
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MR Graphics: Device 2 (ACTIVE) EE) 
Scree plot 


60- 


& 
[=] 
0 


Percentage of explained variances 
B 


Dimensions 


MR Graphics: Device 2 (ACTIVE) 
Variables - PCA 


£ 
LA 
= 
« 
Æ 
[a] 


00 
Dimi (58.6%) 


Et pour la commande fviz_pca_ind() toujours du package factoextra: 
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MR Graphics: Device 2 (ACTIVE) 


Individuals - PCA 
2 _ 


mme le remee—mer) 


Dim2 (414%) 


3 


_— 


ES SE 


Dimi (58.6%) 


Maintenant nous calculons la CAH sur l'ACP avec la fonction HCPC ) : 
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R Console 


> res.hcpc<-HCEC(res.pca) 


Hierarchical Clustering 


MR Graphics: Device 2 (ACTIVE) Css 
Dos== 


00 02 04 06 


Click to cut the tree 


Comme indiqué, nous cliquons là où nous voulons couper l'arbre (je clique environ à 0.6 pour 
cet exemple) ce qui donne comme premier graph: 
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Hierarchical clustering on the factor map 


cluster 1 
cluster 2 


Dim 2 (41.39%) 


height 


Dim 1 (58.61%) 


Figure 298 Graph 3D de classification hiérarcque ascendante (CAH) sur une carte factorielle 


Et pour le deuxième graph (on y voit les centres des deux clusters par rapport au fait que j'ai 
cliqué à la hauteur de 0.6): 
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5 — ——.; 
GR R Graphics: Device 4 (ACTIVE RENE] 
Factor map 
cluster 1 
_ cluster 2 ; 
> 
— = 24, y 
2, 
£ sé 
oo i 
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EN D ÉRRRTR RRS eRe === messe nnm cel Pense se 2#-2-2e 
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Ou avec factoextra et sa fonction fviz_cluster( ) : 
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Dim2 (414%) 


Dimi (58.6%) 


Figure 299 Graph de polygones de classification hiérarchique ascendante (CAH) 


On peut évidemment sortir toutes les data avec leurs clusters respectifs: 
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R RGui (64-bit) - [R Console] 


R File Edit View Misc Packages Windows Help 


> res.hcpc$data.clust 
Revenus Surface clust 
60.0 16.4 
85.5 16.8 
64.8 21.6 
62.5 20.8 
87.0 23.6 
110.1 19,2 
108.0 17.6 
82.8 22% 
69.0 20.0 
93.0 20.8 
51.0 22.0 
81.0 20.0 
75.0 19.6 
52.8 20.8 
64.8 1:22 
43.2 20.4 
84.0 17.6 
49.2 17:60 
59.4 16.0 
66.0 18.4 
47.4 16.4 
33.0 18.8 
51.0 14.0 
63.0 14.8 


© © JO US & 12 


EPP BD EP BB 19 1 1 1 19 1 12 1 12 1 12 12 12 
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CAH avec bagging (bootstrap aggregating) 


Un algorithme d'apprentissage est dit instable si de petits changements dans le jeu 
d'entraînement conduisent à des modèles significativement différents et donc des conclusions 
relativement différentes aussi. 


Des méthodes d'analyses instables peuvent voir leur pouvoir prédictif amélioré par 
perturbations et combinaisons des différentes résultats et en incluant des corrections 
successives via des pondérations et différentes approches empiriques de corrections. L'idée du 
bagging (ou "bootstrap aggrégatif") est donc similaire au boostrapping à la différence que des 
paramètres ajoutés au modèle sont changés à chaque itération. 


Effectuons un bagging du CAH précédent en utilisant une méthode proposée par Simon Raper 
sur le lien suivant: 


https://github.com/SimonRaper/buster 


Ce qui donne: 


” R Console ses 


source{"C:/tmp/huster.R") 
mydata<-read.csv{("C:/tmp/Dendrogranme.csv",header=T,sep=";:") 

bhc<-buster (dist (mydata) ,n=250,k=3,size=0.66,method='single' ,pct.exc=0.07) 
source({"C:/tmp/plot.buster.R") 

pilot {ibhc) 


VVMMVMNN V 


Avec: 
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Dendrogram including unstable observations 


OLD ONF <= 0 09 <— CO OT 
*— —s— CN CN 


ee — 


NO 
Les éléments instables sont donc les éléments @t 7. 
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Exemple 343.: Clustering K-means (kK moyennes en groupe) 
R 3.0.2 


Nous reprenons les données utilisées dans le cours théorique (dont nous avons enlevé 
l'appartenance aux groupes catégoriels connus a priori pour des raisons évidentes de 
simplicité): 


Fichier Edition Format Affichage 2 


Que nous souhaitons associer en trois groupes distincts. Nous utilisons alors la commande 
kmeans ) : 
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FR Fichier Edition Voir Misc Packages Fenêtres Aide 


Bee) 


> setwd{("C:/") 

> mydata<-read.csv("KMeans.csv",header=T,sep=":") 

> kmeans (mydata,3) 

K-means clustering with 3 clusters of sizes 7, 9, 8 


Cluster means: 
Revenus Surface 
1 46.680000 18.57143 
2 64.883333 18.953333 
3 91.42500 19.75000 


Clustering vector: 
CA] 24 93 2 24 4 494 3 2 3 À 3 23 1 2 13 L 2 2 1 1 1 à 


Within cluster sum of squares by cluster: 
[1] 327.4743 229.4400 960.1150 
(between $$ / total 55 = 683.4 $%] 


Available components: 


[1] "cluster" "centers'" "totss" "yithinss" "tot.with$ 


s 
& 
Nous retrouvons donc les mêmes résultats qu'avec Minitab (et a peu près les même que ceux 
calculés à la main dans le cours théorique). 


Voyons si nous pouvons faire mieux avec un visuel: 
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cl<-kmeans (mydata, 3) 

plot imydata,col=cl$cluster) 
points(cl$centers,col=1:5,pch 
grid) 


N 
CN 
[æ 
CN 
(se) 
— 


16 


14 


80 


Revenus 


Figure 300 Graph de classification K-means 


Ou toujours sans packages: 
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R & Console Æ{e(x) 


nbClusters<-3 

cl<-kmeans (mydata,nbClusters) 

plot imydata,col=cl$cluster) 
points(cl$centers,col=1:nbClusters,pch=7,lwud=3) 

for(i in 1:nbClusters)!{ 

segments (mydata[cl$cluster==i,][,1],mydata[cl$cluster==i,][,2], 
cl$centers{[i,1],cl$centers[i,2]) 


VH++NVNNVNNYV 


Revenus 


Et avec un autre visuel un peu plus technique (je dois encore déterminer ce que les nombres 
tout à droite signifient.) en utilisant les commandes daisy( ) et silhouette( ) des packages 
respectifs cluster et HSAUR: 
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library(cluster) 

library (HSAUR) 

km<-kmeans (mydata,3) 
dissE<-daisy(mydata) 
dE2<-dissE*2 
sk2<-silhouette(km$cl, dEZ) 

plot (sk2,main="Silhouette Plot") 


NC NP OO, D 


Silhouette Plot 

n = 24 3 clusters C, 
n | AVeiec 5 
1: 7 | 068 


1 il 


. 9 | 0.82 


ES EE SE 
0.0 0.2 04 0.6 0.8 1.0 
Silhouette width 5, 


Average silhouette width: 0.7 
Figure 301 Graph de silhouette 


ou encore mieux en utilisant la commande clusplot() du package fpc: 
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R R Console sex) 


library(fpc) 

mydata<-read.csv("KMeans.csv",header=T,sep=";") 

clus<-kmeans (mydata,centers=3) 

clusplot (mydata,clus$cluster,color=TRUE,shade=TRUE, labels=2,lines-=0) 


VV V 


ei 
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Component 1 
These two components explain 100 % of the point variability. 


Figure 302 Graph ellipses de clustering par K-Means 


Sinon, chose très importante, il est possible d'assigner un nouvel élément à l'aide de la 
fonction cl_predict() du package clue: 


R Statistical Software 2131/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


QR RGui (64-bit) - [R Console 
R File Edit View Misc Packages Windows Help FX 


ÉBOISOEINE | 


> modele<-kmeans (mydata, 3) 

> library("clue") 

> cl _predict (modele,newdata=data.frame(45,74)) 
Class ids: 

[1] 3 

2 
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Exemple 344.: Clustering K-medoides 
R 3.3.1 


Donc ici le but est de voir comment utiliser l'algorithme que nous avons mentionné dans le 
cours théorique. Nous utilisons donc la commande pam( ) du package cluster: 


library(cluster) 
mydata<-read.csv("c:/tmp/KMeans.csv",header=T,sep=";:") 
cl <- kmeans (mydata, 3) 

kclus <- pam(mydata, 3) 


par (mfrow=c{(1,2)) 

pilot (mydata, col = kclus$clustering, main="Kmedoids Cluster") 
points(kclus$medoids, col = 1:3, pch = 10, cex = 4) 

pilot (mydata, col = cl$cluster, main="Kmeans Cluster") 
points(cl$centers, col = 1:3, pch = 10, cex = 4) 


> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> | 


Ce qui donne: 


Kmedoids Cluster Kmeans Cluster 


Figure 303 Graph de classification K-medoides 
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Sinon il est possible de classer un nouvel élément rapidement avec la fonction cl_predict( ) 
du package clue: 


R 


R File Edit Vieu Misc Packages Windows Help x 


SATOTeCIC 


> modele<-pam(mydata, 3) 
>» cl predict (modele, ,newdata=data.frame(45,74)) 
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Exemple 345.: Clustering K-means (K moyennes en groupe) 
hiérarchisée 
R 3.0.2 


K-means représente l'un des algorithmes de clustering les plus populaires. Cependant, il a 
certaines limites : 1l oblige l'utilisateur à spécifier le nombre de clusters à l'avance et 
sélectionne aléatoirement les centroïdes initiaux. La solution finale de clustering k-means est 
très sensible à cette sélection aléatoire initiale des centres de cluster. Le résultat peut être 
(légèrement) différent à chaque fois que vous calculez k-means. 


L'algorithme se résume comme suit : 
1. Calculer le clustering hiérarchique et découper l'arbre en k-clusters 
2. Calculer le centre (c'est-à-dire la moyenne) de chaque cluster 


3. Calculer k-means en utilisant l'ensemble des centres de cluster (défini à l'étape 2) 
comme centres de cluster initiaux 


La fonction hkmeans( ) du package factoextra, fournit une solution simple pour calculer le 
clustering hiérarchique k-means. Le format du résultat est similaire à celui fourni par la 


fonction standard kmeans( ) elle-même! 


Voyons donc cela: 
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> library("factoextra") 

> mydata<-read.csv("c:/tmp/KMeans.csv",header=T,sep=";:") 

> hkmeans (mydata, 3) 

Hierarchical K-means clustering with 3 clusters of sizes 9, 8, 7 


Cluster means: 
Revenus Surface 
1 64.83333 18.53333 
2 91.42500 19.75000 
3 46.80000 18.57143 


Clustering vector: W 
HI 1211222212321313231L13S331 


Within cluster sum of squares by cluster: 
[1] 229.4400 960.1150 327.4743 
(between _SS / total SS = 83.4 %) 


Available components: 


[1] "cluster" "centers" "Erotus" "wWithinss'" "tot.withinss" 
[6] "betweenss" "size" "viter"” "ifault" "data" 

[11] "hclust" 

> #à comparer avec 

> kmeans (mydata, 3) 

K-means clustering with 3 clusters of sizes 9, 7, 8 


Cluster means: 
Revenus Surface 
1 64.83333 18.53333 
2 46.80000 18.57143 
3 91.42500 19.75000 


Clustering vector: 
111311333313231212321L122221L 


Within cluster sum of squares by cluster: 
[1] 229.4400 327.4743 960.1150 
(between _SS / total 55 = 83.4 %) 


Available components: 


[1] "cluster" "centers" "Lotss" "wWithinss'" "tot.withinss" "betweenss" 
[7] "size" "viter” "ifault" 

>| 

< > 


Dans ce cas simpliste, les deux méthodes donnent le même résultat. 


On peut afficher l'arbre visuellement: 


R Statistical Software 2136/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


| > res.hk <-hkmeans (mydata, 3) 
| > fviz_ dend(res.hk, cex = 0.6, palette = "jco", 


| + | rect = TRUE, rect_ border = "jco", rect_ fill = TRUE) 
> 


Et: 
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> fviz cluster(res.hk, palette = "jco", repel = TRUE, 
+ ggtheme = theme classic()) 


Cluster plot 


Ou: 
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> fviz cluster(res.hk, palette = "jco", repel = TRUE, 

| frame.type = "norm", frame.level = 0.68, ggtheme = theme classic()) 
Warning messages: 

 l: argument frame.type is deprecated; please use ellipse.type instead. 

| "1 argument frame.level is deprecated; please use ellipse.level instead. 

1> 
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Exemple 346.: Clustering K plus proches voisins (KNN: k 


nearest neighbours) 
R 3.0.2 


Rappelons que ce modèle fonctionne particulièrement bien avec un très grand nombre de 
données et surtout si les données utilisées pour la distance sont numériques et continues afin 
de pouvoir calculer la distance euclidienne comme c'est le cas ci-dessous. Dans le cas de 
valeurs nominales ou ordinales, 1l faut avec la plus grande prudence les convertir en facteurs 
numériques. 


Nous reprenons les données utilisées dans le cours théorique: 


FR Fichier Edition Voir Misc Packages Fenétres Aide 


library(class) 
mydata<-read.csv("C:/knn.csv",header=TRUE,sep=";:") 
mydata 
Ingredient Douceur Croquant Catégorie 
raisin [=] 5 fruit 
haricot vert 3 7 légume 
noix 3 6 protéine 
orange 7 3 FEuUIE 
train<-mydata[2:3];:train 
Douceur Croquant 
1 8 5 
2 3 7 
3 3 6 
4 ji: 3 
> test<-c(6,0):test 


[1] 6 O0 

> classe<-factor (mydatal,4]):classe 
[LI FEUIC légume protéine fruit 
+de fruit légume protéine 

> 


Et nous souhaiterions savoir comment selon la distance euclidienne, une tomate de douceur 6 
et de croquant 0 sera donc classifiée. Nous obtenons alors: 
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| Fichier Edition Voir Misc Packages Fenétres Aide 


> Kknni(train,test,classe,k=1,prob=TRUE) 
LL]: TEUIEC 

attri(,"prob"] 

ET À 

Levels: fruit légume protéine 

> Kknnitrain,test,classe,k=2,prob=TRUE) 
[11 fruit 

attri(,"prob") 

L11 À 

Levels: fruit légume protéine 

> Kknnitrain,test,classe,k=3,prob=TRUE) 
LL]. TEULE 

attri,"prob"] 

[1] 0.6666667 

Levels: fruit légume protéine 

> Kknnitrain,test,classe,k=4,prob=TRUE) 
CI] fEuÏit 

attri(,"prob"] 

[1] 0.5 

"ini fruit légume protéine 

F 


Nous voyons que dans tous les cas la tomate est classifiée en tant que fruit (ouf!) que son plus 
proche voisin (modèle 1-nn) fait partie forcément que d'une seule des classes (d'où le 
1=100%). Avec les deux plus proches voisins (modèle 2-nn) nous avons encore une fois deux 
plus proches voisins faisant partie de la même classe (donc 2/2=1=100%). Avec les trois plus 
proches voisins (modèle 3-nn) nous avons 2 éléments de la même classe et 1 de classe 
opposée (donc 2/3=0.66=66%). Avec les 4 plus proches voisions (modèle 4-nn) nous avons 2 
éléments de la même classe et deux éléments de deux autres classes (donc 2/4=0.5=50%). 
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Exemple 347.: Clustering Modèles de mélanges gaussiens 


(gaussian mixtures models) 
R 3.5.1 


Nous n'avons pas étudié en détails ce modèle "lisse" de classification dans le cours théorique 
car c'est principalement un agglomérat d'une succession d'outils statistiques et algorithmiques. 
Cependant nos connaissances des mécanismes sous-jacents sont largement suffisantes pour 
que nous en voyons un cas pratique! 


D'abord nous chargeons le package melust ainsi que le même jeu de données que celui utilisé 
pour les k-means (nous allons donc faire une classification fuzzy non-supervisée*!): 


R 
R File Edit View Ais, = Windows Help #4 


> library("mclust") 


> mydata<-read.csv("c:/tmp/Kmeans.csv",header=T,sep=";") 
> mydata 

Revenus Surface 
l 60.0 18.4 
2 85.5 16.8 
3 64.8 21.6 
= 61-5 20.8 
5 87.0 23.6 
6 110.1 19.2 
7 108.0 176 
8 82.8 22.4 
9 69.0 20.0 
10 93.0 20.8 
11 51:0 22.0 
12 81.0 20.0 
13 75.0 19.6 
14 52.8 20.8 
15 64.8 17:2 
16 43.2 20.4 
17 84.0 17.6 
18 49.2 L72:6 
19 59.4 16.0 
20 66.0 18.4 
21 47.4 16.4 
22 33:0 18.8 
23 51.0 14.0 
24 63.0 14.8 
> | 


35 Le lecteur doit prendre notre qu'il existe aussi une autre package très puissant et complet appelé Rmixmod qui 
permette de faire de la classification fuzzy gaussienne aussi bien supervisée que non-supervisée! 
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D'abord nous lançons une analyse de type BIC avec la fonction melustBIC( ) qui va nous 
montrer en fonction du nombre de clusters et des 14 structures classiques de la matrice de 
covariance, les valeurs du BIC: 


F 


À Console Les) 


> BIC <-mclustBIC(mydata,G=1:20) 
£itting -.-: 


> summary (BIC) 
Best BIC values: 


EEI, 1 EVI, 1 VEI, 1 
BIC —-332.7683 -332.7683 -332.7683 
BIC diff 0.0000 0.0000 0.0000 
> plot (BIC) 
> 
L 
GR À Graphics: Devic NES 


BIC 
-380 -360 


400 


420 


1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 


Number of components 


Nous voyons donc que le choix optimal serait 1 seul et unique cluster et la structure de 
matrice de covariance de type EE. 


Cependant forçons une classification avec 2 clusters à l'aide de la fonction Mclust( ): 
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R RGui (64-bit) - [R Console] 


ŒR File Edit View Misc Packages Windows Help -.#)Ix 


EC] 


> model <-— Mclust (mydata,G=2, x = BIC) 
> summary (model, parameters = TRUE) 


Mclust EEI (diagonal, equal volume and shape) model with 2 components: 


log.likelihood n df BIC ICL 
—158.4601 24 7 -339.1666 -343.2481 


| Clustering table: 
1 2 
16 8 


Mixing probabilities: 
L 2 
0.6528833 0.3471167 


| Means: 

[,1] [2] 
| Revenus 57.31958 89.34892 
Surface 18.499659 19.80282 


Variances: 

| Ler1) 

Revenus Surface 
| Revenus 142.9534 0.000000 
| Surface 0.0000 5.264154 
[rr2] 


Revenus Surface 
Revenus 142.9534 0.000000 
Surface 0.0000 5.264154 
> res what = "classification") 
> 


Et au niveau du plot: 
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GR Graphics: Device 2 (ACTIVE ts et&) 
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16 
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Revenus 


Nous pouvons aussi faire des prédictions: 
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Sciences.ch 


Sz 


[1,1] 
[2,1] 
[3,1] 
[4,1] 
[5,1] 
[6,1] 
[7,1 
[8,1] 
[9,1] 
[10,1] 
[11,1] 
[12,1] 
[13,1] 
[14,1] 
[15,1] 
[16,1] 
[17,1] 
[18,1] 
[19,1] 
[20,1] 
[21,1] 
[22,1] 
[23,1] 
[24,1] 


> | 


Et aussi un graphique des classes prédites: 


| MR RGui (64-bit) - [R Console] 


ui 
0.9782331832 
0.1807900125 
0.8738969022 
0.9465335137 
0.0283486730 
0.0004911505 
0.0011686513 
0.0914859941 
0.8008879960 
0.0150093438 
0.9928150599 
0.2147043947 
0.5366298958 
0.9920217329 
0.9538084102 
0.9991532009 
0.2020658684 
0.9983799185 
0.9893903254 
0.9213647268 
0.9991956887 
0.9999420327 
0.9990068673 
0.9824757746 


attr(,"logarithm") 
[1] TRUE 
attr(,"modelName") 
[1] "EEI" 
attr(,"returnCode") 
[1] © 


> plot (mydata, col 


| R File Edit View Misc Packages Windows Help 
Biel 


> (pred <- predict (model)) 
$‘classification 
[EI L24L 122221212111 71241 1LLTLTL TX 


2 
2.176682e-02 
8.192100e-01 
1.261031e-01 
5.346649e-02 
9.716513e-01 
9.995088e-01 
9.988313e-01 
9.085140e-01 
1.991120e-01 
9.849907e-01 
7.184940e-03 
7.852956e-01 
4.633701e-01 
7.978267e-03 
4.619159e-02 
8.467991e-04 
7.979341e-01 
1.620081e-03 
1.060967e-02 
7.863527e-02 
8.043113e-04 
5.796734e-05 
9.931327e-04 
1.752423e-02 


= pred$classification, pch = predS$classification) 
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Nous pouvons aussi faire une analyse de densité (bien évidemment elle est bivariée dans le 
cas présent): 
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FH 
Q R Console =) CRE 
> model <- densityMclust (mydata,G=2, x = BIC) 
> summary (model) 
Density estimation via Gaussian finite mixture modeling 
Mclust EEI (diagonal, equal volume and shape) model with 2 components: 
log.likelihood n df BIC ICL 
—158.4601 24 7 -339.1666 -343.2481 
Clustering table: 
L. 2 
16 8 
> plot (model, what = "density", data = mydata) 
> | 
Œ À Graphics: Device 2 (ACTIVE) se (&x) 
a 
NT 
o 
ra 
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Nous pouvons même avoir le graph en 3 dimensions: 
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FF mm 
Q R Console ||} El. || 2x 
> plot (model, what = "density", type = "“persp") 
> | 
QU KR Graphi evice 2 (ACTIVE Ss|g|Xx| 


Le) 
® 
= | 
D 
Æ 
< 


Voyons un autre exemple condensé 
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R RGui (64-bit) - [R Console] = X 


ŒR File Edit View Misc Packages Windows Help __F x 


> library("mclust") 

> data("geyser", package="Mass") 
> mcl <- Mclust (geyser) 

ÉTEtIENg :-: 


Mclust VVI (diagonal, varying volume and shape) model with 4 components: 


log-likelihood n df BIC ICL 
—1330.13 299 19 -2768.568 -2798.746 


Clustering table: 
L 2 3 4 
90 17 98 94 
par (mfrow = c(1, 2)) 
plot( mcl, what="classification") 
legend("bottomleft", legend=paste("Cluster", 1:4), bty='n', 
pch=mclust.options ("classPlotSymbols")[1:4], 
col=mclust.options ("classPlotColors")[1:4]) 
uncert <- which.max( mcl$uncertainty) 
points( geyser[uncert,], cex=2, lwd=2) 
round( mclS$z[which.max(mclSuncertainty),], 3) #prob of belonging to cluster 
[1] 0.535 0.001 0.464 0.000 
> plot( mcl, what="density", type="persp") 
> mclS$parametersS$pro #mixture weights pi _k 
[1] 0.29283469 0.07968364 0.33392296 0.29355871 | 
| > 


VVNVN++VVV 


< > 


Ce qui donne graphiquement: S 


dati 


+ + Aa aa auaua  @e 


a 


LR + + + 
L Cluster 1 
o Cluster 2 
ll a Cluster 3 
+ Cluster 4 0 
T T T T T T T 
50 60 70 80 90 100 110 
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Exemple 348.: Clustering par Mean Shift 
R 3.6.3 


Pour traiter de ce sujet, nous allons utiliser le package LPCM et son jeu de données faithful et 
sa fonction ms( ) suivant: 


mR'! Cénsole 


> library("LPCM") 

> data(faithful) 

> head(faithful) 
eruptions waiting 


ms(faithful, h=0.2) 


1 
2 
3 
4 
5 
6 
> 
> 


1.0 


eruptions 


Et on peut faire des analyses supplémentaires sur le résultat: 
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€ RGui (64-bit) - [R Console] 


CR File Edit View Misc Packages Windows Help 


SC 


> summary(fit) 

Length Class 
cluster.center = —-none- 
cluster.label 272 —none- 
closest.label 272 —-none- 

h 2 -none- 
data 3 data.frame 
scaled 1 —-none- 
scaled.by 2 -none- 
all.trajectories 272 -none- 
> fitScluster.center 

[1] [2] 
1.2362565 1.511791 
0.5790965 1.024694 
fitSdatal["classification"] <- fitScluster.label 
head(fitS$data,20) 


VV 


1 
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8 
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eruptions 
1.0285714 
0.5142857 
0.9522857 
0.6522857 
1.2951429 

.8237143 

.3428571 

-0285714 

.5571429 
1.2428571 
0.5237143 
1.1191429 
1.2000000 
0.5000000 
1-3425571 
0.6191429 
0.5000000 
1.3714286 
0.4571429 
1.2142857 


waiting classification 


1.4905660 
1.-0188679 
1.3962264 
1.1698113 
1.6037736 
1.0377358 
1.6603774 
1.6037736 
0.9622642 
1.6037736 
1.01688679 
1.5849057 
1.4716981 
0.8867925 
1.5660377 
0.9811321 
1.1698113 
1.5849057 
0.9811321 
1.4905660 
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Exemple 349.: Clustering DBSCAN 
R 4.3.2 


Nous avons u dans le cours théoriquement que le DBSCAN est un algorithem de clustering 
non-linéaire très simple. Nous allons voir ici comment le mettre en pratique. 


Nous chargeons le jeu de données suivant: 


D] dscan.csv - Notepad 


| File Edit Format View Help 

"ID" » és" 7Y” ; "shape" 

"1",-0.803739264931451, -0.853052609097935,1 
"2",0.852850728148773,0.367618436999606,1 
"3",0.927179506105653,-0.274902437566225,1 
"4",-0.752626056626365,-0.511565170496435,1 
"5",0.706846224294882,0.81067919693492,1 
"6",1.0346985222527,0.394655023166806 ,1 
"7",-0.475845197699957,0.989760805249143,1 
"8",-0.460301566967151,-0.858997792847955,1 
"9",-0.680301544955355,-0.66149481321353,1 
"10",-1.03196929988978, -0.0219935446644728,1 
"11",-0.242498372239704,-1.05033275558452,1 
"12",-0.892258364269624, -0.339169233215386,1 
"13",-0.802034403520755,-0.77416776747668,1 
"14",-0.0471955691399568, -1.01613798584755,1 
"15",1.19470426661764, -0.269002460987329,1 
"16",-0.221487390175705,-0.919131895891675,1 
"17" ,-0.410475320013416,0.964479004794388,1 
"18",-0.838935270223631,-0.407979035023443,1 
"19",-0.889147510805223,0.614016108166731,1 
"20",0.905564127260602,0.184568396547991,1 
"21",-0.00579485156131487,-0.884430709419748,1 
"22",-0.703810394965576,0.54749249234897,1 
"23",-1.07081570617814,-0.158982746612178,1 
"24",1.00723761879231,0.385175352050115,1 
"25",-0.584861589344916,0.700117705614835,1 
"26",-0.881140152628223,-0.0118887593850608,1 
"27",0.326995042961589,0.998908556122335,1 
"28",-1.04762113766461,0.118543573060775,1 
"29",-0.119960489461039,-1.03541072663439,1 
"30",-0.785532935689462,0.713418469247788,1 
"31",0.64626878403344, -0.643552160711392,1 
"32",-0.224939369705449, -0.883275717806866,1 
"33",-0.719297745948344, -1.0133377180508,1 
"34",-0.495498158632031, -0.919302400100962,1 
"35",-0.865554333876342,-0.255682821707783,1 


"36".-0.48027576/487044.0.734425872156833.1 
Ln 1, Col4 100% Windows (CRLF) 


Voyons à quoi cela ressemble visuellement dans un premier temps: 


UTF-8 
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R R Console 


> mydata<-read.csv("c:/tmp/dbscan.csv", header=T) 
> plot (mydata[,2], mydataf,3],col =mydatalf, 4], pch = 19, cex = 0.8) 


mydatal, 2] 


Faisons d'abord un clustering avec la méthode des k-means juste pour voir. : 
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Fr 


RE Console = | E || & | 
> df <- mydataf, 2:3] 
> 
> library("factoextra") 
> km.res <- kmeans(df, S, nstart = 25) 
> fviz cluster (km.res, df, ellipse = FALSE, geom = "point") 
> | 
RR Graphics: Device 2 (ACTIVE) +55) 
Cluster plot 
1- 
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Bref vu la non-linéarité du jeu de données, nous ne sommes pas trop étonnés de la médiocrité 
du résultat. 


Essayons maintenant avec la méthode DBSCAN: 
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> library("fpc") 
> dbscan<-dbscan(df, eps = 0.15, MinPts = 5) 
> dbscan 
dbscan Pts=1100 MinPts=5 eps=0.15s 
(e) 1 2 4 + 3 
border 31 24 1 5 T\Æ 
seed 0 386 404 99 92 50 
total 31 410 405 104 99 51 
> és df, main = "DBSCAN", frame = FALSE) 
> 


DBSCAN 


C'est beaucoup mieux et ce sans surprises! 
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Nous pouvons aussi voir à quel cluster appartient quel ligne de notre jeu de données comme 


suit: 


C° RGui (64-bit) - [R Console] 


R File Edit View Misc Packages Windows Help 


> dbscan$clu 
2 


EE) 2e 
[39] 2 0 0 


R 
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Exemple 350.: Classification bayésienne naïve 
R 3.0.2 


Classification bayésienne naïve binomiale 


Nous allons ici encore et encore une fois utiliser les mêmes données que dans le cours 
théorique: 


_ |NaiveBayes.csu-E 
Fichier Edition Format Affichage 2 


Exemple;Couleur;Type;Origine;volé 
l'Rouge; Sports; Domestique ; Ou 
2;Rouge; Sports ; Domestique ; Non 
3;Rouge; Sports; Domestique; Oui 

4; Jaune; Sports; Domestique; Non 
5;Jaune; Sports; Importé; Ou 

6; Jaune; SUV; Importé; Non 


7;Jaune; SUV; Importé;Oui 
8;Jaune; SUV; Domestique;Non 
9; Rouge ; SUV; Importé ; Non 
10; Rouge ; Sports ; Importé ; Oui 
11; Rouge ; SUV; Domes tique ;Oui 


Ÿ 
& 
et comparer le résultat avec ceux calculés à la main. 


Pour cela, nous allons utiliser la commande naiveBayes() du package e1071. 


Attention!!! Le package e1071, ne s'installera pas dans R3.0.2 ou d'autres versions si vous ne 
spécifiez pas le serveur source comme étant l'Autriche (Austria) qui est le pays d'origine de 
ceux qui ont développé ce package. 


Nous utilisons ensuite la commande naïveBayes() pour entraîner le modèle et la commande 
predict(}) pour le test sur la dernière ligne: 
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> library("e1071") 
> mydata<-read.csv{("C:/NaiveBayes.csv",header=T,sep=";") 
> mydata<-mydata[1:11,2:5] 
> strimydata) 
'data.frame!: 11 chbs. of 4 variables: 
$ Couleur: Factor w/ 2 levels "Jaune","Rouge": 2221111122 


$ Type : Factor w/ 2 levels "Sports","SUV": 1 1 1 1 
$ Origine: Factor w/ 2 levels "Domestique","Importé": 
$ Volé : Factor w/ 2 levels "Non","Oui": 2121212112 

> model<-naiveBayes(Volé- .,data=mydata[1:10,]) 

> predict imodel,mydata[11:11,]) 

[1] Non 

Levels: Non Oui 

> | 


122242 1... 
LL ide sé de a 


Nous obtenons donc le même résultat que dans le cours théorique. 


Nous pouvons même faire un contrôle sur les données d'entraînement elles-mêmes: 


. [R: 
R Fichier Edition Voir Misc Packages Fenétres Aide 


> predict (model,mydata[1:11,]) 

[1] Oui Oui Oui Non Oui Non Non Non Non Oui Non 
Levels: Non Oui 
> mydata[1:11,4] 


[1] Oui Non Oui Non Oui Non Oui Non Non Oui Oui 
Levels: Non Oui 
> | 


Nous réutiliserons cette fonction lors de notre étude du Texte Mining pour l'analyse de 
sentiments (voir page 2779). 


Donc comme nous pouvons le voir... un modèle sur une technique empirique reste une 
modèle et de plus avec aussi peu de données... 
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Classification bayésienne naïve gaussienne 


Nous allons ici encore et encore une fois utiliser les mêmes données que dans le cours 
théorique: 


% 
x 


R File Edit View Misc Packages Windows Help = 
ÉBSOISEBIOIE 


> (mydata<-read.csv("c:/tmp/NaiveBayes gaussian.csv",header=T,sep=";")) 
Individu Hauteur Masse Taille Pied 


1 homme 182.88 81.64 30.48 
2 homme 180.44 86.18 27.94 
3 homme 170.07 77.11 30.48 
4 homme 180.44 74.84 25.40 
5 femme 152.40 45.35 15.24 
6 femme 167.64 68.03 20.32 
ri femme 165.20 58.96 17.78 
8 | femme 175.26 68.03 22.86 
> 


R File Edit View Misc Packages Windows Help - Ex] 


> (nb_gauss<-naive bayes(Individu - ., mydata)) 


| Call: 


RP $ 
Laplace smoothing: © 
Gr mo s 
À priori probabilities: 
femme homme 
0.5 0.5 
ER EE PP RE $ 
Tables 
Se ed nn PR NÉ CR de, oh pe Ne en pr y < S s 
Hauteur (Gaussian) 
SR et Re Sen Eee ca ere me $ 
Hauteur femme homme 
mean 165.125000 178.457500 
sd 9.503941 5.708744 
Séance RSS ane io Sat ac on utnr RS ESS me Renan nero s 
Masse (Gaussian) 
mn $ 
Masse femme homme 
mean 60.092500 79.942500 
sd 10.718079 5.028137 
1 1 Oo s 
Taille Pied (Gaussian) 
a EE 
Taille Pied femme homme 
mean 19.050000 28.575000 
sd 3.279126 2.431865 
PR PER RE REP S LR SP RER ARE RER EE ES PE P RESTE EI EN Us $ 
>| 
< > 


R Statistical Software 2160/3133 


Vincent ISOZ, Daname KOLANI 


Sciences.ch 


On peut prédire maintenant sur le jeu de données initial pour le fun et obtenir les fonction de 
probabilités conditionnelles utilisées par le package: 


R File Edit View Misc Packages Windows Help 


PTE) 


> predict(nb gauss, mydata{[,2:4], type = 


"Class" 


[1] homme homme homme homme femme femme femme femme 


Levels: femme homme 


> predict(nb gauss, mydata[,2:4], type = 
femme homme 

[1,] 2.160647e-05 9.999784e-01 

[2,1 1.773608e-04 9.998226e-01 

[3,1] 5.574902e-04 9.994425e-01 

[4,] 1.395292e-02 9.860471e-01 

[5,] 1.000000e+00 2.766105e-20 

[6,1] 93.997782e-01 2.218205e-04 

[7,] 1.000000e+00 3.045018e-09 

[8,] 9.334768e-01 6.652318e-02 

> get_cond dist (nb gauss) 

Hauteur Masse Taille Pied 


"Gaussian" ‘"Gaussian" "Gaussian" 
>| 


“prob") 


Et mettons faisons cela sur notre individu test: 


M RGui (64-bit) - [R Console] 


OR File Edit View Misc Packages Windows 


: 


[1] femme 
Levels: femme homme 


femme homme 
[1,] 0.9999885 1.145187e-05 
> 


Nous retombons bien exactement sur le résultat obtenu dans le cours théorique! 


Help 


> test <- data.frame (Hauteur = 182.88, 
_ Masse = 58.96, 

- Taille Pied = 20.32 
+ } 


> predict(nb gauss, test, type = "class") 


> predict (nb gauss, test, type = "prob") 
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Exemple 351.: Classification SVM (Support Vector Machine) 
R 3.2.1 x86 


Nous allons commencer comme dans le cours théorique avec le cas linéaire. Les données 
seront donc les mêmes et dans ce cas particulier réduit à un exemple à deux dimensions 
seulement: 


R RGuï (32-bit) - [R Console] — 0 »4 


R File Edit View Misc Packages Windows Help ALLIE: 


> mydata<-read.csv("c:/tmp/LinearSupportVectorMachine.csv",sep=";:",header=T) 


> mydata 

xX1 x2 class 
L À 3 1 
2 -1 3 1 
dE #6 1 
4 -1 6 À 
5 6 < -1 
6 1 0 -1 
7 -1 0 -1 R 
8 O -1 -1 
> | 


* 


Ensuite nous utilisons la fonction svm( ) du package e1701 pour créer le modèle: 


> library(e1071) 

> model<-syvm(factor (class)-.,data=mydata) 
> plot (model,mydata,grid=1000) 

> | 


Ce qui nous donne: 
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SVM classification plot 


Figure 304 Graph classification SVM 


Outre le fait que le résultat est esthétiquement mauvais (certains points sont sur la bordure, il 
n'y a pas de grille, ni d'axes...), nous remarquerons que par rapport au cours théorique la 
fonction intégrée prend immédiatement un modèle quadratique. Même si le résultat est 
toutefois OK il n'est pas possible à ce jour d'obtenir exactement le résultat du cours théorique 
étant donné qu'il n'existe pas d'option pour forcer un modèle linéaire simple. 


Nous pouvons avec la fonction predicted() vérifier le résultat obtenu: 


R RGui (32-bit) - [R Console] — O X 
KR File Edit View Misc Packages Windows Help _|F|x 


> predicted<-predict (model,mydata) 
> predicted 
123À567e 
1 1 1 1-1 -1 -1 -1 


Levels: -1 1 
> | 
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Nous pouvons maintenant avoir une approche plus "Data Mining" avec un jeu d'entraînement 
et un jeu de test: 


R RGui (32-bit) - [R Console] vu [| X 
KR File Edit View Misc Packages Windows Help 5x 
> index <- l:nrow(mydata) 
> testindex <- sample(index, trunc(length(index)/3)) 
> testset <- mydata[testindex,] 
> trainset <- mydata{[-testindex,] 
> testset N 
x1 x2 class 
5 0 1 -1 
4 -1 6 1 
> trainset 
x1 x2 class 
1 1 3 1 
2 -1 3 1 
3 1 6% 1 
6 1 0 -1 
7 -1 0 -1 
8 O -1 -1 
>| 


Si | —— 
Et nous avons donc dans notre cas présent les 6ômmandes suivantes pour notre mini matrice 
de confusion (ben oui étant donné la taille du jeu de test... les valeurs qui sont dedans ne sont 
pas bien grandes): 
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R RGui (2-bit) - [R Console] — D  X 
R File Edit View Misc Packages Windows Help - 8 x 


| 


> model <- sym(factor(class)-., data = trainset) 

> prediction <- predict (model, testset{,-3]) 

> tab <- table(pred = prediction, true = testset{,1]) 
> tab 


Nous pouvons faire la même chose avec le jeu de données non linéaire du cours théorique: 


mydata<-read.csv("c:/tmp/NonLinearSupportVectorMachine.csv",sep=";:",header=T}) 
mydata 

x1 x2 class 

2 

-2 


-1 

-1 -1 

1 -1 

model <- sym(factor(class)-., data = mydata) 
plot (model,mydata,grid=1000) 


1 
2 
3 
4 
5 
6 
7 
8 
> 
> 
> | 


Ce qui donne: 
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R R Graphics: Device 2 (ACTIVE) 
SVM classification plot 

2 
1 æ— 

x O0 
1 s 
-2 

2 4 0 1 2 
x2 


Il est donc dommage que nous n'ayons pas automatique un plot de l'espace de projection tel 
que vue dans le cours théorique. Sinon nous voyons aussi que la fonction choisie n'est pas la 
même que dans le cours théorique mais que le résultat test toutefois le même. 
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Exemple 352.: Classification CART (arbres de régression et 


de classification) 
R 3.02 


Arbre de classification 


Nous allons ici encore et encore une fois utiliser les mêmes données que dans le cours 
théorique: 


Fichier Edition Format Affichage 2 


et comparer le résultat avec ceux calculés à la main et obtenus avec Tanagra. 


Rappel: Les techniques de classification (segmentations) par arbres sont souvent utilisées en 
marketing pour analyser les cibles répondant le mieux à certaines campagnes marketing. Les 
praticiens du marketing appellent cela des "modèles uplift" et certains statisticiens des 
"partionnement récursif”. 


Pour cela, nous allons utiliser la commande rpart(}) du package rpart avec des paramètres 
qui comme nous allons le voir sont loin d'être triviaux à deviner. 


D'abord nous indiquons le minimum syndical: 


R Statistical Software 2167/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> library(rpart) 

> mydata<-read.csv("C:/ArbreRegressionCcART.csv",header=T,sep=";") 

|> progstat<-factor (mydata$Propriétaire, levels=1:2,labels=c("Proprio", "Non Proprio")) 
> rpart (progstat-Revenus+Surface,data=mydata,method="class") 

n= 24 


node), split, n, loss, vyval, (yprob) 
* denotes terminal node 


1) root 24 12 Proprio (0.5000000 O.5000000) 

21 Revenus>=59.7 16 5 Proprio (0.6875000 0.3125000) * 

3) Revenus< 59.7 8 1 Non Proprio (0.1250000 0.8750000) #* 
> | 


Comme nous pouvons le voir, le résultat n'est vraiment pas intuitif si nous comparons avec ce 
que nous avons fait dans le cours théorique. Comme c'est choquant, nous allons donner un 
poids plus grand à la surface qu'aux revenus: 


Edition “Voir Misc Packages Fenêtres Aide 


> library(rpart) 

> mydata<-read.csv("C:/ArbreRegressionCcART.csv",header=T,sep=";") 

| progstat<-factor (mydata$Propriétaire, levels=1:2,labels=c("Proprio", "Non Proprio")) 
> rpart (progstat-Revenus+Surface,data=mydata,method="class",cost=c(1,0.9)) 

n= 24 


node), split, n, loss, vyval, (yprob) 
* denotes terminal node 


1) root 24 12 Proprio (0.5000000 O.5000000) 

21 Surface>=19.8 10 2 Proprio (0.8000000 0.2000000) * 

3) Surface< 19.8 14 4 Non Proprio (0.2857143 0.7142857) # 
> | 


et là c'est parfait!!! Par contre l'arbre s'arrête bien trop vite. Nous allons donc chercher à 
l'étendre: 
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KR Fichier Edition Voir Misc Packages Fenêtres Aide 


library(rpart) 
mydata<-read.csv{("C:/ArbreRegressionCART.csv",header=T,sep=";") 
progstat<-factor (mydata$Propriétaire, levels=1:2,labels=c("Proprio", "Non Proprio")) 
rpart (progstat-Revenus+Surface,data=mydata,method="class",cost=c(1,0.9), 
control=rpart.control(minbucket=1)}) 

n= 24 


node), split, n, loss, yval, (yprob) 
* denotes terminal node 


1) root 24 12 Proprio (0.50000000 O.50000000) 
2) Surface>=19.8 10 2 Proprio (0.680000000 0.20000000) 
4) Revenus>=57.15 7 O Proprio (1.00000000 0.00000000) * 
5) Revenus< 57.15 3 1 Non Proprio (0.33333333 0.66666667) 
10) Surface>=21.4 1 O Proprio (1.00000000 0.00000000) * 
11) Surface< 21.4 2 O Non Proprio (0.00000000 1.00000000) * 
3) Surface< 19.8 14 4 Non Proprio (0.28571429 0.71428571) 
6) Revenus>=684.75 3 O0 Proprio (1.00000000 0.00000000) * 
| 7) Revenus< 84.75 11 1 Non Proprio|V0.09090909 0.90909091) * 
> 


et là encore c'est parfait!!! 


Pour information, minbucket=1 signifie que l'algorithme s'arrête s'il y a moins d'une feuille 
dans la branche. Si vous utilisez le paramètre minsplit=10 (pas présent dans l'exemple ci1- 
dessus) cela signifie que l'algorithme ne coupera pas une branche s'il y a moins de 10 


éléments dedans. SE 


Ÿ 
& 
Mais nous avons vu dans le cours théorique que nous pouvons creuser l'arbre encore plus. 
Alors qu'en est-il avec ce package? Essayons: 
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&] 


> mydata<-read.csv{("C:/àArbreRegressionCART.csv",header=T,sep=";:") 

> progstat<-factor (mydata$Propriétaire,levels=1:2,labels=-ci"Proprio", "Non Proprio")j) 
> rpart (progstat-Revenus+Surface,data=mydata,method="class",cost=c(1,0.9), 

+ control=rpart.control(minbucket=0)) 

n= 24 


node), split, n, loss, vyval, (yprob) 
* denotes terminal node 


1) root 24 12 Proprio (0.50000000 0.S50000000) 
2) Surface>=19.68 10 2 Proprio (0.80000000 0.20000000) 
4) Revenus>=57.15 7 O Proprio (1.00000000 0.00000000) * 
5) Revenus< 57.15 3 1 Non Proprio (0.33333333 0.66666667) 
10) Surface>=21.4 1 O Proprio (1.00000000 0.00000000) * 
11) Surface< 21.4 2 O Non Proprio (0.00000000 1.00000000) * 
3) Surface< 19.8 14 4 Non Proprio (0.28571429 0.71428571) 
6) Revenus>=84.75 3 O Proprio (1.00000000 0.00000000) * 
7) Revenus< 84.75 11 1 Non Proprio (0.09090909 0.90909091) 
14) Surface>=18 4 1 Non Proprio (0.25000000 0.75000000) 
28) Surface< 18.6 2 1 Proprio (0.50000000 0.50000000) 
56) Revenus< 63 1 O Proprio (1.00000000 0.00000000) #* 
57) Revenus>=63 1 O Non Proprio (0.00000000 1.00000000) 
29) Surface>=18.6 2 O Non Proprio (0.00000000 1.00000000) * 
15) Surface< 18 7 O0 Non Proprio (0.00000000 1.00000000) * 


> | 


2212 


CO 
à S s à 
Que céééé beau! Nous obtenons donc la même,ëhose que dans le cours théorique et avec un 
niveau de détail supérieur à celui de Tanagra. 


Remarquons que la commande rpart() utilise bien par défaut l'indicateur de Gini pour vu 
dans le cours théorique séparer les données. Effectivement, si nous les spécifions: 
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> mydata<-read.csv("C:/AirbreRegressionCART.csv",header=T,sep=";") 

> progstat<-factor (mydata$Propriétaire,levels=1:2,labels=c("Proprio","Non Proprio")) 
> rpart (progstat-Revenus+Surface,data=mydata,method="class",cost=c(1,0.9), 

+ control=rpart.control(minbucket=0) ,parms=list (split="gini")) 

n= 24 


node), split, n, loss, yval, (yprob) 
* denotes terminal node 


1) root 24 12 Proprio (0.50000000 O.50000000) 
21 Surface>=19.8 10 2 Proprio (0.80000000 0.20000000) 
4) Revenus>=57.15 7 O Proprio (1.00000000 0.00000000) # 
5) Revenus< 57.15 3 1 Non Proprio (0.33333333 0.66666667) 
10) Surface>=21.4 1 O Proprio (1.00000000 0.00000000) * 
11) Surface< 21.4 2 O Non Proprio (0.00000000 1.00000000) * 
3) Surface< 19.8 14 4 Non Proprio (0.28571429 0.71428571) 
6) Revenus>=84.75 3 O Proprio (1.00000000 0.00000000) * 
7) Revenus< 84.75 11 1 Non Proprio (0.09090909 0.90909091) 
14) Surface>=18 4 1 Non Proprio (0.25000000 0.75000000) 
28) Surface< 18.6 2 1 Proprio (0.50000000 0O.S50000000) 
56) Revenus< 63 1 O Proprio (1.00000000 O.00000000) #* 
57) Revenus>=63 1 O0 Non Proprio (0.00000000 1.00000000) * 
29) Surface>=18.6 2 O Non Proprio (0.00000000 1.00000000) * 
15) Surface< 18 7 O Non Proprio (0.00000000 1.00000000) * 


> | 


Nous obtenons bien les mêmes données. Ÿ 


Nous pouvons faire un graph du résultat contrairement à Tanagra: 
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el 
Ê 
FI 


fr 
R R Console 


library(irpart) 

mydata<-read.csv("C:/ArbreRegressionCcART.csv",header=T,sep=";")] 

progstat<-factor (mydata$Propriétaire, levels=1:2,labels=c("Proprio", "Non Proprio")) 
modele<-rpart (progstat-Revenus+Surface,data=mydata,method="class",cost=c(1,0.9), 
control=rpart.control(minbucket=0)) 

plot (modele,uniform=TRUE,main="CaRT") 

text (modele,use.n=TRUE,all=TRUE,cex=0.8) 


VVNVHNNNY 


R R Graphics: Device 2 (ACTIVE) 


« 


Q” 


Sinon avec le package rpart.plot et sa fonction rpart.plot() nous pouvons obtenir quelque 
chose de très élégant: 
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1) 


Console SEE 


model<-rpart (progstat-Revenus+Surface, data=mydata,method="class",cost=c(1,0.9), 
control=rpart.control (minbucket=1)) 


library("rpart.plot") 
rpart.plot (model) 


| 


VV vvv+v 4 


(0 
û 
F 


Surface >= 20 


Non Proprio 


Revenus >= 57 
067 
12% 


Revenus >= 85 
| Surface >= 21 | 


Cependant ce serait sympathique de réobtenir le même résultat visuel que dans le cours 
théorique avec le graph 2D dont l'aire est partitionnée, nous pouvons obtenir cela avec le 
package tree et ses fonctions tree( ) et partition.tree( ) mais qui cependant n'offrent pas (a 
priori!) le même niveau de flexibilité que la fonction rpart( ) utilisée précédemment, ce qui 
fait que nous n'arriverons pas à obtenir le même résultat que dans le cours théorique (toutefois 
le résultat correspond bien à celui retourné par le premier exemple où nous avons utilisé 
rpart( )): 


R Statistical Software 2173/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


R RGui (64-bit) - [R Console] - (| 


R File Edit View Misc Packages Windows Help NE 


> library("tree") 
> Tree<-tree (Propriétaire-Revenus+Surface,data=-mydata, 
+ control=tree.control(24, mincut = 1, minsize = 2, mindev = 0.01)) 
> Tree 
node), split, n, deviance, yval 
* denotes terminal node 


1) root 24 6.0000 1.500 
2) Revenus < 59.7 8 0.8750 1.875 
4) Surface < 21.4 7 0.0000 2.000 * 
5) Surface > 21.4 1 0.0000 1.000 * 
3) Revenus > 59.7 16 3.4380 1.312 
6) Surface < 19.8 9 2.2220 1.556 
12) Revenus < 84.75 6 0.8333 1.833 
24) Revenus < 61.5 1 0.0000 1.000 * 
25) Revenus > 61.5 5 0.0000 2.000 * 
13) Revenus > 84.75 3 0.0000 1.000 * 
7) Surface > 19.8 7 0.0000 1.000 * 
> plot (mydata$Revenus,mydata$Surface) 
> text (mydataS$Revenus,mydata$Surface, c("P", "NP") [mydataSPropriétairel) 
> At 
> 


Ce qui donne graphiquement le résultat attendu (outre les couleurs et le type de points qui 
peuvent être bien évidemment rajoutés): 
S 
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Maintenant faisons du "tree post-pruning". C'est-à-dire, prendre l'arbre qui minimise l'erreur 
de catégorisation. Pour cela, nous allons d'abord lister les arbres possibles à l'aide de la 


commande printcp( ) : 
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ÉBOISGE 


library(rpart) 

mydata<-read.csv("C:/ArbreRegressionCcART.csv",header=T,sep=";") 

progstat<-factor (mydata$Propriétaire, levels=1:2,l1abels=ci"Proprio","Non Proprio"j) 
modele<-rpart (progstat-Revenus+Surface,data=-mydata,method="class",cost=c(1,0.9), 
control=rpart.control(minbucket=0) ,parms=list (split="gini")) 

printcpimodele) 


Classification tree: 

rpart (formula = progstat - Revenus + Surface, data = mydata, 
method = "class", parms = listisplit = "gini"), control = rpart.control(minbuckets$ 
cost = c(i, 0.9)) 


Variables actually used in tree construction: 
[1] Revenus Surface 


Root node error: 12/24 = 0.5 


n= 24 


CP nsplit rel error xerror xstd 


.- 500000 0 1.000000 1.58333 0.165850 
.-250000 .- 500000 1.08333 0.20341 
.-083333 -250000 1.00000 0.20412 
-027776 -083333 0.683333 0.20127 
-010000 -000000 0.683333 0.20127 


© 
Donc il y aurait deux arbres qui minimisent la a&rror qui sont respectivement celui à 4 et 7 
sectionnements. Si nous voulions voir celui à 4 (plutôt que de chercher par tâtonnement) il 
suffit alors de spécifier un CP à l'algorithme compris entre 0.010000 et 0.08333. Voyons cela 
en utilisant la commande prune( ) : 
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ÉBSOISEE 


> modèle.élagué<-prune (modele,cp=0.03) 
> modèle.élaqué 
n= 24 


node), split, n, loss, vval, (yprob) 
* denotes terminal node 


1) root 24 12 Proprio (0.50000000 0.50000000) 
2) Surface>=19.68 10 2 Proprio (0.80000000 0.20000000) 
4) Revenus>=57.15 7 O Proprio (1.00000000 0.00000000) * 
5) Revenus< 57.15 3 1 Non Proprio (0.33333333 0.66666667) 
10) Surface>=21.4 1 O0 Proprio (1.00000000 0.00000000) * 
11) Surface< 21.4 2 OO Non Proprio (0.00000000 1.00000000) * 
Surface< 19.8 14 4 Non Proprio (0.28571429 0.71428571) 
6) Revenus>=84.75 3 O0 Proprio (1.00000000 0.00000000) * 
| 7) Revenus< 84.75 11 1 Non Proprio (0.09090909 0.90909091) * 
> 


et ainsi de suite... Ÿ 


On peut ensuite faire des prédictions de clustering avec des données test en utilisant la 
commande predict( ) : 


newSample<-as.data.frame (chind(Revenus=c(43,43) ,Surface=c(17,60))) 
newSample 
Revenus Surface 

43 17 

43 60 


pred<-predict (modèle.élagué,newdata=newSample,type="class") 
pred 


1 2 
Non Proprio Proprio 
Proprio Non FProprio 
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Nous pouvons même faire un test sur notre propre jeu de données d'entraînement et construire 
la matrice de confusion (rappelez-vous que nous avons "1" qui signifie "Proprio" et "2" qui 
signifie "Non Proprio"): 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> pred<-predict (modèle.élagué,nevdata=mydata,type="class") 
| > table (mydata$Propriétaire,pred) 
pred 
Proprio Non Froprio 
11 L 
12 
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> mo<-table (mydata$Propriétaire,pred) 
> err<-1-(imc[1,1]-H0c[2,2])/sumimc) 

> err 

[1] 0.04166667 

> | 
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Arbre de régression 


Pour les arbres de régression, la démarche est exactement la même qu'avant à la différent 
qu'on va mettre method="anova" au lieu de methode="class”. 


Voyons un exemple avec un jeu de données qui nous est déjà connu (...): 


R 5 64-bhit 
R File Edit View Misc Packages Windows Help 


BBSOISEESIOIE 


> library("rpart") 
> library("rpart.plot") 
> mydata<-read.csv("c:/tmp/RegressionLineaireMultiple.csv",header=T,sep=";") 
> mydata 
Mois Couts CoutA CoutB CoutC 
44439 515 541 928 
43936 929 692 711 
44464 800 710 824 
41533 979 675 758 
46343 1165 1147 635 
44922 651 939 901 
43203 847 755 580 
43000 942 908 589 
40967 630 738 682 
10 48582 1113 1175 1050 
11 45003 1086 1075 384 
12 44303 843 640 828 
13 42070 500 752 708 
14 44353 813 989 804 
15 45968 1190 823 304 
16 47781 1200 1108 1120 
17 43202 731 590 1065 
18 44074 1089 607 1132 
19 44610 786 513 839 
> (model<-rpart (Couts - CoutA + CoutB + CoutC, method="anova", data=mydata, 
+ control=rpart.control (minbucket=1))) 
n= 19 


© © -J Oo Un & WW N +4 


node), split, n, deviance, yval 
* denotes terminal node 


1) root 19 66397490.0 44355.42 
2) CoutA< 1101 15 21807070.0 43605.27 
4) CoutC< 781 6 6262270.0 42451.50 
8) CoutA< 738.5 2 608304.5 41518.50 * 
9) CoutA»>=738.5 4 3042498.0 42918.00 
18) CoutA>=960.5 1 0.0 41533.00 * 
19) CoutA< 960.5 3 484864.7 43379.67 * 
5) CoutC>=781 9 2233030.0 44374.44 
10) CoutC>=1024.5 2 380192.0 43638.00 * 
11) CoutC< 1024.5 7 458222.9 44584.86 * 
3) CoutA>=1101 4 4495789.0 47168.5S0 
6) Coutc< 977 2 70312.5 46155.50 * 
7) CoutC>=977 2 320800.5 48181.50 * 
> “ts 
> 


Et avec le graphique d'arbre correspondant: 
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#Æ 
MR R Graphics: Device 2 (ACTIVE) [S | E) | 


44e+3 
100% 


outA < 1101 
44e+3 
719% 
CoutC < 781 CoutC < 977 
42e+3 44e+3 
32% 47% 
CoutA < 739 CoutC >= 1025 
43e+3 
21% 


CoutA >= 961 


42e+3 42e+3 43e+3 44e+3 
11% 5% 16% 11% 


Le reste (prédiction, validation, etc.) est exactement identique à ce que nous avons vu 
précédemment! 
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Exemple 353.: Random Forests (CART Boostrap) 
R 3.0.2 


Donc comme nous l'avons mentionné dans le cours théorique, les Random Forests (forêts 
aléatoires, appelées aussi "bootstrap Forests") ne consistent qu'en un bootstrapping de la 
population initiale et ne garde à la fin que le modèle ayant le meilleur pouvoir prédictif! 


Le package randomForest bien que fonctionnant très bien ne représente pas les données sous 
forme structurée du meilleur arbre. Pour cela, nous allons utiliser le script suivant: 


AK RH EX XX XX KR KH EX XX XX KE EH X 


#Build tree structure for Random forest 
#Author: Andrea DAL POZZOLO 

AK RH HE XX XX KR EH KE XX XX KE KE KE X 
getConds<-function(tree)f{ 

store all conditions into a list 
conds<-list() 
start by the terminal nodes and find previous conditions 


id.leafs<-which(tree$status-=-1) 
j<-0 
for(i in id.leafs)!{ 
j<-3+1 


prevConds<-prevCond(tree,i) 
conds[{[j]]<-prevConds$cond 
while (prevConds$id>1){ 
prevConds<-prevCond(tree,prevConds$id) 
conds[[j]]<-paste(conds[[j]]," & ",prevConds$cond) 
if (prevConds$id==1){ se 
conds[{[j]l<-paste(c@ds[[j]]," => ",tree$prediction{il]) 
break) 


} 
} 
return (conds) 


} 


prevCond<-function(tree,i)t{ 
if(i $in$ tree$right daughter){ 
id<-which(treeS$right daughter==i) 
cond<-paste (treeS$split varlid],">",tree$split point{idl]) 
} 
if(i $in$ tree$left daughter)!{ 
id<-which(tree$left daughter==i) 
cond<-paste (treeS$split varlid],"<",tree$split point[idl]) 
} 
return(list((cond=cond,id=id)) 


} 


#fremove spaces in a word 

collapse<-function(x){ 
x<-sub (" Br x) 
return(x) 
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Pour étudier cela dans un contexte ultra-simplifié, nous allons utiliser le jeu de données 
suivant: 


M arbreregression 
| Fichier Edition Format Affichage 2 
Revenus; Surface;Propriétaire 


NJ NNINJ 
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source ("C:/RandomForestStructure.R") 

library(randomForest) 
mydata<-read.csvy("C:/ArbreRegressionCART.csv",header=T,sep=";") 
progstat<-factor (mydata$Propriétaire,levels=1:2,labels=c("Proprio", 
mod.rf <- randomForest (progstat-Revenus+Surface, data=mydata) 
tree<-getTree({mod.rf, k=1, labelVar=TRUE) 

#rename the name of the column 

colnames (tree) <-sapply(colnames (tree) ,collapse) 

rules<-getConds (tree) 

> print (rules) 

C[1]] 

[1] "Surface < 19" 


"Non Proprio"j)) 


NNONONONONON NV 


[[2]] 


[1] "Revenus Surface => Non Proprio" 


[131] 


[1] "Revenus Revenus .1 € Surface > 19 => Proprio" 


[41] 


> 47.1 € Surface > 19 => 


[1] "Revenus 


CTS1] 


[1] "Surface 


[C6]] 


[1] "Surface 


> | 


« 


Revenus 


Revenus 


ie 


Revenus 


£ Revenus 


< 78.9 


< 78.9 


& 


€ 


Revenus 


Revenus 


> 47.1 


> 47.1 


£ 


£ 


Proprio" 


Surface > 19 


Surface > 19 


=> 


=> 


Non Proprio" 


Proprio" 
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Nous pouvons aussi vérifier que les random Forest performent très bien à la classification 
pour les surfaces seules par exemple: 


KR Fichier Editiôn Voir Misc Packages Fenêtres Aide 


> prediction<-predict (mod.rf,mydatafSurface) 
> table (mydata$Propriétaire,prediction) 
prediction 
Proprio Non Proprio 
1 12 0 


2 (a) 12 
> prop.table (table (mydata$Propriétaire,prediction)) 
prediction 
Proprio Non Proprio 
0.5 0.0 
0.0 0.5 


Nous pouvons également bien évidemment observer le résultat d'une des étapes 
intermédiaires: 


R RGui (64 R Console . O 


R File Edit View Misc Windows Help #4 x 


> library(randomForest) 

> mydata<-read.csv("C:/tmp/ArbreRegressionCART.csv",header=T, sep=";") 

> progstat<-factor (mydata$Propriétaire,levels=1:2,labels=c("Proprio","Non Proprio")) 
> randomForest (progstat-Revenus+Surface, data=mydata) 


Call: 
randomForest (formula = progstat + Revenus + Surface, data = mydata) 
Type of random forest: classification 
Number of trees: 500 
No. of variables tried at each split: 1 


00B estimate of error rate: 33.33% 
Confusion matrix: 
Proprio Non Proprio class.error 


Proprio 8 4 0.3333333 
Non Proprio a: 8 0.3333333 
> | 


On peut aussi rajouter quelques graphiques (je sais qu'une majorité de gens aiment bien 
malheureusement lire certains graphiques...). Mais pour cela on relancera le modèle avec un 
paramètre supplémentaire: 
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R RGui (64-bit) - [R Console] 
OR File Edit View Misc Packages Windows Help - #6 x] 


od.rf<-randomForest (progstat-Revenus+Surface,proximity=TRUE, data=mydata) 


* à 


Et allons-y pour le premier graphique: 


FH 


Q R Console te LE || 2 
> varImpPlot (mod.rf) 
> | 
QR KR Graphics: Device 2 (ACTIVE) Le || ei || 2 
mod.rf 
Revenus 
Surface 
0 1 2 3 4 5 6 
MeanDecreaseGini 


Ensuite pour le deuxième.….: 
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MR Console 


> #Multi-Dimensional Scaling Plot Of Proximity Matrix 
> MDSplot (mod.rf, progstat) 


R R Graphics: Device 2 (ACTIVE) 


Et le dernier graphique: 
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F | 


QR R Console Ss|e | = | 
> x <—- 2 #fnombre de variables 
> variable.names <- colnames (mydata) 
> rk <- order (mod.rf$importance, decleasing = TRUE) [1 : x] 
> par(mfrow = c{(i, x)) 
> Tor(i in rK)i 
+ partialPlot (mod.rf, mydata, variable.names{i], main = variable.names!{i], 
+ xlab = variable.names[i], ylab = "“Partial Dependency", col = "red") 
+} 
>| 
R À Graphics: Device 2 (ACTIVE S|OD|Xx 
Revenus Surface 

ST 

ee] [ 
S > 
e e 
® Co] 
TD D 
 æ E — 
® © 
Q o 
® ® 
ae [a 
T T 
E € 
œ œ 
Q Q o 

o 

LT bi 

40 60 80 100 14 16 18 20 22 
Revenus Surface 


Et je vais m'arrêter là à ce jour pour les graphiques car cela me saoule… 
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Exemple 354.: Comparaison d'apprentissage de modèles 
R 3.4.2 


Il peut être très utile pour des objectifs d'enseignements, ou de présentations à un comité, ou 
pour faire une analyse qualitative, de comparer différents modèles de Machine Learning qui 
sont entraînés sur un même jeu de modèle et voir comme ces derniers prédisent sur le même 
jeu de modèles en question. 


Pour cela il existe un magnifique package nommé DALEX et sa fonction explain(). Voyons 
comment cela fonctionne en reprenant à l'identique l'exemple donnée dans la vignette du 
package par l'auteur lui-même (quand l'exemple est parfait. faut pas réinventer la roue!). 


Considérons pour l'exemple la fonction suivante à 5 arguments: 
FG)=2(x 1) +sin(10x,)+x° +(2x, -1)+| 2x, -1| 


où chacune des 5 variables suit une loi uniforme continue sur l'intervalle [0,1]. Simulons 250 
échantillons de chaque et générons la fonction: 


R 
fe File Edit Vie Misc Packages Windows Help 


| 


set.seed(13) 

N <- 250 

X1 <- runif(N) 
X2 <- runif(N) 
X3 <- runif(N) 
X4 <- runif(N) 
<— runif(N) 


£ <- function(xil, x2, 13, x4, x5) ! 

((x1-0.5)*2)"2-0.5 + sin(x2*10) + x3°6 + (x4-0.5)*2 + abs(2*xS-1) 
} 

y <— £f(X1, X2, X3, X4, XS) 


VV+H+HVVVVVVVYV V 
ne * 
un 


Maintenant comparons 5 modèles: 


Random forest 

Modèle linéaire 

Support Vector Machine 
Restricted Cubic Spline regression 
Réseau de neurones feed-forward 
Le modèle "vrai" lui-même... 


36 


36 qui pour rappel ne marche pas avec Im( ) mais seulement avec ols( ) 
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Voyons cela: 


MR RGui (64-bit) - [R Console El 


ŒR File Edit View Misc Packages Windows Help x 


library (randomForest) 
library (DALEX) 
library(e1071) 
library (rms) 

library (neuralnet) 


df <- data.frame(y, X1, X2, X3, X4, XS) 


model rf<-randomForest(y-., df) 

model svm<-svm(y-+., df) 

model _1lm<-lm(y-+., df) 

model_nn<-neuralnet (y-X1+X2+X3+X4+X5,df,hidden=1) 


VE VVVVNVVVVVVN VV NN NN NN NN NN NN NN NN 


dd <- datadist(df) 
options (datadist="dd") 
model_rms <- ols(y - rcs(X1) + rcs(X2) + rcs(X3) + rcs(X4) + rcs(XS), df) 


ex_rf<-explain(model rf) 
ex_svm<-explain (model svm) 
ex_lm<-explain (model 1m) 
ex_rms<-explain(model rms, label = "rms", data = df{, -1], y = df$y) 
ex_nn<-explain(model_nn,data = dff, -1],y = dff, 1],predict_ function = function(x, y) compute(x, y)S$net.result) 
ex_tr<-explain(model_ 1m, data = df{,-1], 
predict_function = function(m, x) £(x[,1], x[,2], x(,3], x[,4], x[,5]), 
label = "True Model") 


library (ggplot2) 

plot (single variable(ex_rf, "X1"), 
single variable(ex_svm, "X1"), 
single _variable(ex_lm, "x1"), 
single _variable(ex_ nn, "X1"), 
single variable(ex_rms, "X1"), 
single _variable(ex_tr, "X1")) + 

ggtitle ("Responses for X1") 


% 


Ce qui donne: 


€ 


MR Graphics: Device 2 (ACTIVE) S | QIX 
Responses for X1 


12 


09 randomForest 


<> 


rms 
True Model 


OS DES En 0 


0.6 


0.00 0.25 0.50 0.75 1.00 
X1 


Voilà! Un jolie petit outil pour diagnostiquer qualitativement un modèle! 


R Statistical Software 2188/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Exemple 355.: Chi-squared Automated Interaction Detection 


(CHAID) 
R 3.1.1. 


Nous avons parlé dans le cours théorique de cette méthode empirique (à la base conçue pour 
ne fonctionner que pour des variables catégorielles) de partitionnement/classification. Il n'y 
avait rien à démontrer mathématiquement car elle n'utilise que des éléments statistiques 
triviaux. 


Voyons-en un exemple pratique avec le jeu de données suivant où puisqu'il y a des variables 
non catégorielles nous allons devoir fractionner les valeurs continues et catégories en nous 
basant sur notre retour d'expérience (pour rappel il s'agit là de la faiblesse majeure de cette 
méthode): 


108:17.6;1 
828,22.4:1 
69:20;1 
93:208;1 
51:22;1 


81:20;1 
75:19.6:2 
52.8:20.8:2 
64.8:17.2;2 
43.2;20.4:2 
84:17 .6:2 


Nous téléchargeons d'abord le fichier *.zip de ce package depuis le site web suivant car à ce 
jour il ne peut pas être installé depuis l'interface directement: 


R Statistical Software 2189/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


7 1 ://r- .--project. 7 _i } + Rechercher avec Goo | ‘#& (@) 


Below is a list of all packages provided by project CHAID. 


Important note for package binaries: R-Forge provides these binaries only for the most recent 
version ofR, but not for older versions. In order to successfully install the packages provided on R- 
Forge, you have to switch to the most recent version ofR or, alternatively, install from the package 
sources (.tar.gz). 


CHAID CHi-squared Automated Interaction Detection 


This package offers an implementation of CHAID, a type of decision tree 
technique for a nominal scaled dependent variable published in 1980 by 
Gordon V, Kass. CHAID stands for Chi-squared Automated Interaction 
Detection and detects interactions between categorized variables of a data 
set, one of which is the dependent variable, The remaining variables may 
or may not be ordered. An algorithm for recursive partitioning is 
implèemented, based on maximizing the significance of a chi-squared 
statistic for cross-tabulations between the dependent variable and the 
predictors at each partition. The data are partitioned into mutually 
exclusive, exhaustive subsets that best describe the dependent variable. 
Multiway splits are used by default. 


Version: 0.1-1 | Last change: 2013-09-08 21:49:33+02 | Rev.: 12 


Download: & Ctar.a7) | A (io) | Build status: Current 


R install command: install.packages("CHAID", repos="http://R- 
Forge.R-project.org") 


Show/Hide extra Info 


Build status codes 
OO æ © http;//download.r-forge.r-project.org/bin/windows/contrib/3.0/CHAID_0.1-Lzip 


Une fois ceci fait, nous installons le package directement: 


RGui (32-bit) - [R 


Edition Voir Misc Fenêtres Aide 
Charger package. 


Choisir le site miroir de CRAN... 


Choisir les entrepôts. 


Installer le(s) package(s).… 


Mettre à jour les packages... 


Instal y le(s) package(s) depuis des fichiers zip... 


et nous pouvons poursuivre comme à l'habitude. 


D'abord nous préparons les variables: 
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mé, RGui (32-bit) - [ 


R Fichier Edition Voir Misc Packages Fenétres Aide 


> library(CHAID) 
> mydata<-read.csv{"C:/tmp/CHAID.csv",header=T,sep=";:") 
> RevenusCat<-ifelse (mydatafRevenus<=55,1,ifelse( (mydata$Revenus>=680),3,2)) 
> table (RevenusCat) 
RevenusCat 
L 2.9 
798 
> SurfaceCat<-ifelse (mydatafSurface<=19,1,2) 
> table (SurfaceCat) 
SurfaceCat 
L 2 
12 12 
> Cible<-as.factor (mydata$Propriétaire) 
> Revenus<-as.factor (RevenusCat) 
> D ES 
> 


Nous reconstruisons un data frame en correspondance: 
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Sciences.ch 


R Fichier Edition Voir Misc Packages Fenétres Aide 


> mydataCHiID<-data.frame(Cible,Revenus,Surface) :mydataCHAID 
Cible Revenus Surface 
1 2 


© © Jo ii & © D H 


HHH 
© kb © 


H H 
ün 


H 
-J 
HÉHBHHBEHNEN NN NN N N HN NN N° h H 


£ 
L 
1 
1 
1 
1 
L 
L 
L 
1 
1 
13 2 
2 
2 
2 
2 
2 
2 
2 
2 
2 
2 
2 


IN OH H Hi N ON) Hi 00 Ha IN Ha IN CO Ha C0 IN CO CO Co to NON to 


Et enfin nous construisons l'arbre: 
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R R Console a | © | & 


chaid.tree<-chaid(Cible-Surface+Revenus,data=mydataCHiID) 
plot (chaid.tree) 


VV 


1 2 


4 


Node 2 fn = 12 Node 3 in = 12 


Le résultat n'est guère convaincant avec ce package. Au fait nous pouvons deviner qu'il utilise 
le package rpart et donc il s'arrête au premier niveau pour les mêmes raisons que celles vues 
à la page 2168 (SPSS fait de même): 
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> print {chaid.tree) 


Model formula: 
Cible - Revenus + Surface 


Fitted party: 
[1] root 


| [2] Surface in 1: 2 (in = 
| [3] Surface in 2: 1 in 


Number of inner nodes: À 
Number of terminal nodes: 2 
> | 


Mais ici comme nous ne pouvons a priori définir des poids nous sommes coincés pour cet 
exemple scolaire. 


Dès lors, prenons un jeu de données par défaut du package CHAID et jouons avec: 


> summary (USvote) 
votez gender ager empstat educr marstat 

Gore:5558 male :4777 18-24: 559 yes 16773 <H$ : 614 married :6133 

Bush:5087 female:5568 25-34:1521 no :1740 HS 2570 widowed :1006 
35-44:2471 retired:2132 >H$ :3293 divorced :1499 
45-54:2172 College :2744 never married:1717 
55-64:1796 Post Coll:1404 Ni's : 290 
65+ :2096 Ni's : 20 
Ni's : 530 


Et les commandes vues plus haut: 


> library("CHAID'") 
> USvoteS <- USvote[sample(il:nrow(USvote), 1000),] 


> chaidUS <- chaid(ivote3 + ., data = USvotes) 


> plot ichaiqdaus) 
> | 


4 


Ce qui donne: 
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R Fichier Historique Redimensionnement Fenêtres 


1 
marstat 


married widowed, divorced, never married 


male female 


1825-34, 35-44, 55-64, 65+ 


[6] 
(ou) 18-24, 25-34, 35-44,55-64 65+ 
he HS, >College, Fe Coll 
Node 2 {n = 565 ; Node 5 {n = 15 Node 7 in= . 1 . 8 in =33 Node 9 {n =35 1 Node 11 {n = 150) 1 Node 12 {n = 120 

0.8 . 0.8 . 08 0.8 . 
06 06 06 06 06 06 06 
04 04 04 04 04 04 04 
5 02 02 02 02 02 02 02 

a 0 0 0 


0 


Gore 
Gore 
Gore 
Gore 
Gore 
Gore 
Gore 


Bush 

Bush 
Bush 
Bush 

Bush 
Bush 


Nous n'avons malheureusement pas le temps dans le cours théorique de vérifier que le résultat 
soit juste... La comparaison avec SPSS montre que le résultat test très différent entre les deux 


logiciels... mais cela est du au fait que nous avais pris un échantillon de taille 1'000. Si nous 
prenons tout le jeu de données cela nous donné: 


feu) _S divorced, never married 101 
e female T4 


3 24, 25- 4 25 à 102 ls 

gender mpstat gender empstat Î ager 
71 643 37 fqale-—female, 1463 103 "D 142 kg159 TER, 183k#1198 4,65+ 1205 
me) e Pen Co) . marstat . arstal educr empsté empstat Lee 
4 3 <HS, HP, (es 6 108 lmarried 28 Ca! 16 1HS, PAT 184 kH 19199 kired 1206 Colleget227 Coll 

Ge empstai g né em x) ager é e ad mars er empstat marstat 
< 8-24, 2518-2418-24, -34, 4109 112 K64, (35-4A144<HS, HComarriedneL178 H[1<HS, HP4201 H207/21in4228 he1231243 Rd 
educr der (trs ed ag agerl edu {rt (na ed oi empst: és 
41 et 14971 18-24, 25-45, >HS, Colno <HA23h0 2454 


À dmarst marstat| mar marstal e empstl ager 
St -mariemaried, mamiedneyel18- 24, 25-34, 3654 -SamariedHiS, > >HS sell 249 K5. 


18-24, 25- 


Ï UOTE NN 
Cl 18-24, 25- 34, 3B5vretin DéHS, > He, Colle mars! a>HS, (18-2:18-24, 25-34 >married, wmmarried Wigaivo mars| ma a agel educr 
8 


CIM KQ LES WA 
-24, 2:55-64, 6 | 24, 25- 2er 44, 45- pmariedever manféd | meried wi 222 es, nCo 251 


Ce qui est illisible (contrairement à SPSS) mais qui correspond par contre au niveau des 
nœuds à ce que donne SPSS dont voici un morceau à la page suivante: 


IMTTIT 
18-:1818-24, 25-34 3654, 


1 | 


ou] 


widu18-24, 25-34, <HS, HPo{empstai 


EE ee 
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Hode 0 


Caepy _% n 
Gun 478 S7 


BE Gore S22 5553 
Taal 100 0 10625 


Haus 
14 . P.valuer 0000, C hk square 200. 


#9. d-2 
dhrarced: never marked: widowed HA, 
ne 3choal 
DA . P-aluer 0.000, € hkzquaner Bt, 193. DA . P-valuer 0000. € hkzquarer 54.127, 
d=1 d-2 


Hade 20 


Caegsy _% n 
8 Gun Na 3% 


105 1119 
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Exemple 356.: Analyse d'affinité (affinity analysis) 
R 3.1.1 


L'analyse d'affinité est très utilisée sur les sites Internet implémentant des modèles naïfs de 
proposition d'articles par rapport aux achats précédents de consommateurs. 


Voyons en quoi consiste l'idée en partant du fichier suivant où chaque ligne représente un 
panier commandé par un client donné (certains clients sont revenus plusieurs fois pour des 
paniers différents) et où les colonnes représentées les articles achetés et les composantes les 
quantités correspondantes: 


Fichier Edition Format Affichage 2 


Clients, AST Intel 150;Compaq Presario 100,4ST Intel 200:TBM 500 
100:13:12;4;3 
101:0:32:17:;5 
102:0:5:4;7 
103;14;14:0:12 
104:12:12:;8:,2 
105:0,19:0;15 
106:9:11;,16;4 
107:6;,0;0;0 
108:0:15:35:0 
109:27,42:0;0 
110:0:0;21;0 
111:0:16:,2;4 
112:8:6,5:0 
113:3,4,0,23 
114:,0:13:9:0 
115:0,23:0;3 
116:0,21,0,9 
117:8:13:0;,5 
118:0:5,5;,16 
119:2:0:23:2 
120:2:0:0;12 
121:7:13:30; 
122:0:0;,15:0 
123:,41:6,6;8 
124:0;11,8:0 
125:0,236,4 
126:24:12:0;0 
127:0:,7:10;,7 
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D'abord nous importons les données et vérifions que celles-ci soient bien importées et 
extrayons le nombre de colonnes: 


RE RGui (64-bit) - [RG 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> mydata<-read.csv("C:/tmp/aiffinity.csv",header=T,sep=";") 
> mydata<-mydatal[,-1] 
> dimimydata) 
[1] 28 4 
> mydata[1:8,] 
AST.Intel.150 Compag.Presario.100 AST.Intel.200 IBM.500 
12 4 
32 
5 


© -J on O1 & © ND H 


> di<-ncol (mydata) 
> | 


Une fois ceci fait, nous préparons la matrice d'affinité et nous renommons les colonnes au 
passage pour que leurs intitulés soient plus petits: 


RGui (64-bit} - [RC 
KR Fichier Edition Voir Misc Packages Fenêtres Aide 


afmat<-matrix(0, di, di) 
rownames (afmat)<-c{('AST1S50!,'Compag','AST200','IBM') 
colnames (afmat) <-c ('AST150! ,'Compaq','AST200!','IBM') 
afrmat 
AST150 Compaq AST200 IBM 
AST150 (a) (a (a) (a) 
Compaq 0 [a] [a] 
AST200 (a (a) (a) 
IBM (a (a) (a) 


> | 
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Maintenant vient le point névralgique de la méthode (c'est la partie "difficile"): 


K Fichier Edition Voir Misc Packages Fenêtres Aide 


#Les deux boucles qui suivent sont le noyau de la méthode: 
#nous construisons la matrice d'affinité! 
#Nous remplisson pour chaque ligne en bouclant sur les colonnes les affinités 
Tor (il in 1:4a1)1 
Tor tié in l:d1)\ 
#multiplication composante par composante 
test<-mydata[, 11] ‘mydatal[, i2] 
#Nous normalisons en $ mais en sommant que sur le fait binaire 
#fque les composantes sont supérieurs à zéro ou égales 
afmat[i2, ii] = 100*sumitest[]>0)/nrowi(mydata) 
#par symétrie nous avons 
afmat[iil, i2] = afmat[iz, ii] 
} 
afmat{[il, ii] O #la diagonale doit étre nulle 
} 
afmat 


> 
> 
> 
> 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
k 
+ 
+ 
+ 
> 


AST150 Compaq AST200 IBM 
A5T150 0O.00000 39.228571 25.00000 35.71429 
Compaq 39.258571 O0O.00000 53.57143 60.71429 
A15T200 25.00000 53.57143 O0.00000 42.685714 
% 35.71429 60.71429 42.685714 0O.00000 
u 


Pour le confort de lecture de cette matrice de distance nous allons trier les colonnes de plus 
influentes au moins influentes et en refaire une matrice de distance (mais cette petite 
transformation est totalement facultative et n'est pas une nécessité pour les graphiques que 
nous verrons plus loin): 
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Fichier Edition Voir Misc Packages Fenêtres Aide 


> colSum<-sort (colSum, index.return=TRUE, decreasing=TRUE) :colSum 
$x 

Compaq IBM AST200 AST150 
153.5714 139.2857 121.4286 100.0000 


Six 
HA ÆE2 À 


> 
> afmatSortedNonDiagonal=afmat.(,colSums$ix];: 
> afmatSortedNonDiagonal 
Compaq IBM ASTZ200 A5T150 
AST150 39.268571 35.714229 25.00000 0.000000 
Compaq 0O.00000 60.71429 53.57143 39.285711 
AST200 53.57143 42.585714 0O.00000 25.00000 
IBM 60.714299 0.00000 42.85714 35.71429 
> #astuce pour obtenir à nouveau une matrice de distance 
> afmatSortedDiagonal=afmatSortedNonDiagonal[colSuméiix,]; 
> afmatSortedDiagonal 
Compaq IEM AST200 AST150 
Compaq 0O.00000 60.714229 53.57143 39.286571 
IBM 60.714299 0.00000 42.85714 35.71429 
A5T200 53.571453 42.685714 0O.00000 25.00000 
AST150 39.28571 35.71429 25.00000 0O.00000 


> | ! 
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Et nous pouvons aussi faire quelques graphiques: 


R R Graphics: Device 2 (ACTIVE) 


Cluster Dendrogram 


> d <- as.dist (afmat) 
[> fit <- hclust id) 
> plot (fit) 


et pourquoi pas un petit nuage de mots: 
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> colSum<-apply(afmatSortedDiagonal,2,sumi) 
> library(wordcloud) 
> wvordcloud{colnames (afmatSortedDiagonal) ,colSum) 


> | 


AB 00 


Compaq 
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Exemple 357.: Positionnement multidimensionnel 
R 3.1.1 


Nous avons étudié dans le cours théorique le positionnement multidimensionnel simple 
("Multidimensional scaling" ou "M.D.S." en anglais) utilisant le coefficient de stress 1 de 
Kruskal. 


Nous avons calculé "à la main" dans Microsoft Excel la matrice des distances et les vecteurs 
de position plongé dans un cas particulier de R° à partir d'une matrice de dissimilarité et le 
but ici va être de vérifier si quelques fonctions disponibles dans R à cet effet donnent les 
mêmes valeurs ou permettent au moins d'arriver aux même conclusions (sachant qu'il de 
nombreuses méthodes empiriques d'implémentation). 


Le fichier brut utilisé sera le même que dans le cours théorique: 


Fichier Edition Format Affichage 


Brésil, C ongo;Cuba;Égypte;:France;Inde;Israel;] apon;Chine;Russie:U.S5.4.: Yougoslavie 
Brésil,0:4.17:3.72:5.56,428:45:517:5.56.61;,5.94:361:583 
Congo;4.17:0;4.44:4:5:417:5.67,5.61:5;5.61:6.61;,5.5 
Cuba;3.72,4.44:0:3.83:489:5:5.39:6.06;3.5:3.56,5.83;3.89 
Égypte;5.56;4,3 83:0,4.22:3.17,433:5.17;461;461,5.67;4.72 
France:4.28:5:4.89:422:0:5.56,5;4.78:5.33:3 943 064.28 
Inde;4.5:4.17:5:3.17:5.56:0;4.89;:4.5:489:4.5:472:5 
Israel,5.17:5.67:5.39:433:5:4.89:0:4.17:6,4.83;3.06;4.56 
JTapon,5.5:5.61:6.06,5.17,4.78:4.5:4.17:0,4.83:4.39:294:4.72 
Chine:6.61:5,3.5:4.61:533:489:6:4.83:0;3.28:6.44,3.94 
Russie:5.94:561:3.56,4.61,3.94:4.5:483:439:328:0:42.33 
US.4.361:661;583:5.67,3.06,4.72,3.06;2 94:6.44;4:0;5.44 
Yougoslavie;5.83:5.5:3.89:472:4.28:5:4.56:4.72:3.94:2.33;:5.44:0 
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Voyons la première fonction cmdscale() qui est une fonction native à R: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 
Blelo] 


mydata<-read.csv("C:/tmp/MultidimensionalScaling.csv",header=T,sep=";:") 
fit<-cmdscale (mydata, k = 2) 

x<=ftitl;. 1] 

y<-fit[, 2] 

fit 


[;1] [;2] 
Brésil .4532781 -97005225 
Congo .-6174716 . 69946260 
Cuba .-0599391 . 72063502 
Égypte .23568299 . 78860569 
France -0563522 -09247781 


Inde -2278169 .-09634294 

Israel .9192863 .44702841 

Japon .7141597 .-36923619 

Chine .7844451 .59374562 

Russie .6789029 .25244658 

D:5.:.A. .5516469 .57154906 

Yougoslavie -1.0903176 .94861464 

> ploti(x, y, xlab="Coordinate 1", vylab="Coordinate 2", 

+ main="MetricHDS",type="n") D 
> abline(v={(seg(0,100,25)j), col="lightgray", lty="dotted") 
> æabline(h={(seq(0,100,25)), col="lightgray", I1ty="dotted) 
> texti{x, y, labels = row.names (mydata), cex=.7) 

> 


et graphiquement: 


cs: Device 2 (A CT 
MetricMDS 
Russie 
N Yougoslavie 
hine 
Japon 
= 
a Israel 
2 © France 
= 
T 
S : 
8 Cuba Égypte 
O ! Inde 
CN] 
Ù 
Congo 
Cp] Brésil 
T T T T T 
-3 -2 -1 0 1 2 
Coordinate 1 
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Donc a posteriori aussi au niveau des coordonnées obtenues nous sommes très loin de ce que 
nous avons obtenu dans le cours théorique mais au niveau qualitatif du graphique nous 
sommes très proches. Voyons cela visuellement avec la fonction layout.mds() du package 
igraph: 


Gui (64-bit) - [R 
R Fichier Edition Voir Misc Packages Fenétres Aide 


library{igraphi) 

g<-graph.fullinrow(mydata)) 
Vig)i$label<-row.names (mydata) 
layout<-layout.mds(g, dist = as.matrix (mydata)) 
layout 


[;1] [,2] 
[1,] 1.45327681 -2.97005225 
[2,1] -1.6174716 -2.69946260 
[3,] -2.0599391 -0.72063502 
[4,] -1.2358299 -0.76660569 


[S;] 
[6,] 
[7,] 
[8,] 
[3;] 
[10,] 
[11;,] 


1.0563522 
-0.2276169 
.9192863 

. 7141597 
.7844451 
.6759029 
-5516469 


0.09247781 
-1.09634294 
0.44702841 
1.36923619 
.59374582 
.25244658 
-57154906 


[12,] -1.0903176 1.94861464 
> plotig,layout=layout ,vertex.size=3) 
> | 


Et visuellement: 


Russie 


Yougeslavie 
Chine: 
Jagon 
Het T8. 
Fraice 
Cha Égyfte 
Inde 
[e. ofgo | 
Brésil 
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Donc bien que les coordonnées ne soient pas conformes au cours théorique (car le modèle à 
nouveau était le plus simpliste existant), les associations sont conformes. 


Et maintenant voyons que les coordonnées peuvent vraiment varier suivant la méthode mais 
que la conclusion qualitative reste bien la même. L'avantage des fonctions du package vegan 
que nous allons voir maintenant est que nous retrouvons la fameuse variable de Stress 
explicitement avec l'optimisation relativement à sa minimisation (nous nous passerons de la 
construction du graphique qui est la même qu'avec la première méthode): 


R Fichier Edition Voir Misc Packages Fenétres Aide 


EROISEE 


> library(vegan) 
> mydata.mds <- metaMDS (mydata,distance="euclidean",k=2,trymax=50,autotransform=FALSE) 
Run 0 stress 0.157047 
Run 1 stress 0.2121577 
Run 2 stress 0.2401753 
Run 3 stress 0.1652695 
. New best solution 

procrustes: rmse 0.1140501 max resid 0.2595875 

4 stress 0.2526773 
5 stress 0.1870469 
6 stress 0.2919485 
7 stress 0.2149442 
8 stress 0.2150155 
9 stress 0.1852697 
procrustes: rmse 0.0003156707 max resid 0.0006367365 
Solution reached 


> mydata.mds$points 

HDS1 MDS2 
Brésil —-0.3648896 .-5273650 
Congo 2.6223382 .3642638 
Cuba .9250912 .1378244 
Égypte .3413254 .2757922 
France .7394160 .-0437486 
Inde .4122471 . 6324083 
Israel .-2986472 .04588986 
Japon . 5988549 .-4328300 
Chine .6316472 .3483642 
Russie -0681928 -8370226 
U.S.1. .9903688 .8296758 
Yougoslavie -1277203 -3167296 


« 


Ce dernier est par ailleurs le plus proche de MATLAB. 
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Exemple 358.: Analyse discriminante linéaire (ADL) 
R 3.0.2 


Nous allons voir ici si nous retombons avec R sur les calculs effectués dans le cours théorique 


où nous avons utilisé la LDA avec le discriminant de Fisher. 


Nous utiliserons donc les mêmes données et pour des raisons pédagogiques nous allons 


d'abord le faire sans package: 


ne, RGui (64-bit} - [R Ce 


FR Fichier Edition Voir Misc Packages Fenêtres Aide 


XM1<-matrix(data=c(4,2,2,4,2,3,3,6,4,4)j ,ncol=2,hyrow=TRUE) 
XM2<-matrix (data=c(9,10,6,8,9,5,8,7,10,8) ,ncol=2,hbyrow=TRUE) 
mii<-apply(XM1, MARGIN=2, FUN="mean") 
mi2<-apply(XM2,MARGIN=2, FUN="mean") 
Sb<-(mii-miz)$#$t (mii-miz) 
sum.cov<-{(cov{(XM1)+cov (XM2)) 
SwuSb<-solve (sum.cov) $*$Sh 
> eg<-eigen(SwSb) :eg 
$fvalues 
[1] 1.220066e+01 8.881784e-16 


$fvectors 

[;1] [,2] 
[1,] 0.9087856 -0.5754934 
[2;:] 0.4172634 0.8178064 


> #meilleur vecteur propre 
> eg$vectors[,1] 

[1] 0.9087856 0.4172634 

> | 


Nous retrouvons donc exactement la même valeur et le même vecteur propre que dans les 


calculs effectués à la main dans le cours théorique. 


Faisons maintenant une représentation graphique de cela avec le package ggplot2: 
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mdf<-as.data.frame(rbind(XM1,XM2)) 

names (md£f)<-ci"xi","x2") 
madf$f<-cirepi"a",nrowiXM1)),rep{i"b",nrow(XM2))j) 
rd£ 

ss 


VV OV 


* 


H 
Jin 0 OO & om € ED © 


1 
4 
2 
2 
3 
4 
9 
6 
9 
5 


oo 0 D 0 9% D D À Hh 


10 
library(ggplotz) 

ggplot imdf,aes(x=x1,y=x2,col=£f) )+ 

geom point (size=4,aes (shape=f) + 

geom abline (slope=eg$vectors([2,1]/eg$vectors{[1,1],colour="green") + 

scale shape manual (values=c(16,15))+ 

expand limits(y=0,x=0) + 

labsititle=paste("LDÀ projection vector with highest eigenvalue=",round{(eg$values([1],2)))+ 
theme bwi) 


VO + + + + + + V VE (0 © Ho 01 Bb © NH 
co 


Ce qui donne: 
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Maintenant voyons avec la fonction Ida( ) intégrée à R: 


KR Fichier Edition Voir Misc Packages Fenêtres Aide 


> library(MisSs) 
> mdf 
x1 


+ 


QD Joanne D EH 
© (0 on (0 æ © © © 
D 0 0 D © 2% % % À À 


10 10 
> mlda<-lda(f-.,data=mdf) :mlda 
Call: 

ldaif - ., data = mdf) 


Prior probabilities of groups: 
a b 
0.5 0.5 


Group means: 
Xi x2 

.0 3.8 

4 6 


a 3 3 

b 8.4 7. 

Coefficients of linear discriminants: 
LD1 

xi 0.6913549 

X2 0.3174452 

> | 


« 


A priori nous ne retrouvons pas le vecteur propre mais en réalité 1l n'en est rien. C'est juste 
qu'avec la méthode vue dans le cours théorique le vecteur propre était normalisé alors qu'ici 
ce n'est pas le cas. Nous pouvons vérifier que le vecteur LDI est bien colinéaire au vecteur 
propre obtenu avec la méthode vue dans le cours théorique: 
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ne, RGui (64-bit} - [RC 
R Fichier Edition Voir Misc Packages Fenétres Aide 


> #notre vecteur propre 
> eg$vectors[,1i] 
[1] 0.9087856 0.4172634 
> #le vecteur propre seul de la fonction LDA 
> mldafscaling 
LD1 


xi 0.6913849 
x2 0.3174452 
> #le ratio pour montrer que c'est bien colinéaire 
> mlda$fscaling/eg$vectors[,1] 
LD1 
xi 0.7607789 
x2 0.7607789 
> | 


C'est donc bien colinéaire! 


Maintenant voyons qu'il est possible d'utiliser la LDA pour faire de la classification (via la 


distance à la moyenne des groupes) et obtenons par la même occasion une matrice de 
. CO 

confusion: D 

& 
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> #nous faisons de la prédiction en réutilisant le jeu d'entraînement lui-même 
> ldap<-predict (mlda,mdf[,1:2]) 
> table (mdf$f,ldap$fclass) 


Avec la commande partimat() du package klaR nous pouvons afficher les polygones de 
séparation des groupements: 


R Statistical Software 2210/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


R Fichier Edition Voir Misc Packages Fenêtres Aide - 


> mydata<-data.frame(xi,x2,f) 


L 
2 
3 
4 
5 
6 
“ 
8 
9 


C0 10 On 10 Æ © D D 
Oo © 0 OÙ % D D D À Hh 


10 10 
> libraryiklaR) 

> partimat (f-x1+x2,data=mydata,method="lda") 
> 


LE 
Partition Plot 


app. error rate: 0 
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Exemple 359.: Réseaux de neurones feed-forward (FFNN) 
R 3.0.2 


Réseaux de neurones FFNN avec fonction d'activation logistique 
(binomiale) 


Le but ici va être de comparer le modèle de neurones construit dans le cours théorique avec le 
tableur Microsoft Excel (avec pour avantage que l'on peut construire un réseau de neurones 
multicouches avec n'importe quelle fonction de cut-off) par rapport à celui que nous allons 
obtenir ci-dessous avec la commande neuralnet(}) du package neuralnet (il y a d'autres 
package comme nnet, RSNNS ou encore AMORE) en utilisant le même jeu de données: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> library(neuralnet) 
> mydata<-read.csv{("C:/ReseauNeurone.csv",header=T,sep=";:") 
> mydata 

Semaine y x1 X2 X3 x4 xS5 
03.01.1997 .50 9.25 “oÙ .38 . 63 .88 
10.01.1997 .50 8.88 .00 .50 PA A 13 
17.01.1997 -.00 3.00 . 63 .00 .38 13 
24.01.1997 .63 8.63 . 63 29 .25 .50 
31.01.1997 13 9.38 . 63 .50 .88 .00 
07.02.1997 529 9569 “o0 .50 .13 re 
14.02.1997 +5 ‘ls 75 .75 . 63 .50 A 
21.02.1997 13 7:98 36 0 13 .50 
28.02.1997 06 9.85 .38 “9 .00 .88 
07.03.1997 529 0619 . 63 36 .88 . 63 
14.03.1997 13 9.50 .50 .88 .50 .00 
21.03.1997 ‘th 9589 .88 “o0 .25 .00 
27.03.1997 .88 8.50 19 “22 .25 .25 
31.03.1997 .38 8.25 .25 «36 .00 .38 


LOJnnEeU D H 


9 
8 
9 
8 
8 
8 
7 
7 
8 
8 
8 
8 
8 
8 


Notez qu'au jour où nous écrivons ces lignes, ces packages ne prennent pas en compte les 
variables catégorielles (si non recodées en valeurs entières: "hot encoding"). 


Nous ne nous attarderons pas trop longtemps sur cette fonctionnalité dans R car les neurones 
à choix (quel que soit le package) sont très basiques et le manque de flexibilité de 
construction fait que même un tableur performe souvent mieux (c'est d'ailleurs ce que nous 
allons pouvoir constater 1ci). 


Un réseau de neurones à une couche nous donnera dans le cas présent: 
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EE 
> nn hi<-neuralnet (y-x1+x2+x3+x4+x5,data=mydata,hidden=1) 
> nn h1 
Call: neuralnet (formula = y + x1 + x2 + x3 + x4 + xS5S, data = mydata, hidden = 1) 


1 repetition was calculated. 


Error Reached Threshold Steps 
1 3.960200004 0.0003203286332 182 


> plotinn hi) 
> | 


Remarque: La fonction neuralnet() ne prend pas en compte au jour où nous écrivons ces 
lignes la syntaxe y-. Donc si vous avez un long data frame, le mieux est d'utiliser l'astuce 
suivante (ce qui au passage est un superbe exemple d'application de as.formula() D: 


R RGui (64-bit) - [R Console] — 


R File Edit View Misc Packages Windows Help #12 


ROIS 


> n<-names (mydata) 
> f<-as.formula(paste("y-",paste(n{!n $in$ "pred con"],collapse="+"))) 
> RS = 


ÿY — y + X1 + X2 + X3 + X4 + XS 
> 


Et finalement avec le graphique associé (n'oubliez pas qu'à chaque fois que vous 
relancerez le modèle sans utiliser un seet.seed( ), les poids ne seront pas les mêmes!): 


R Statistical Software 2213/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


15.62615 


9 
es 
o® 


Error: 3.9602 Steps: 182 


Figure 305 Graph régeau de neurones 
Ÿ 


< 
La somme des carrés des erreurs est de 3.9602 donc plus élevé que ce que nous avons obtenu 
avec le tableur. Faisons donc un réseau à deux couches: 


> nn h2<-neuralnet {(y-x1+x2+x3+x4+Xx5, data=mydata,hidden=2) 
> nn h2 
Call: neuralnet (formula = y + x1 + x2 + x3 + x4 + x5S, data = mydata, 


1 repetition was calculated. 


Error Reached Threshold $teps 
1 3.960201924 0.007339769443 115 


> plotinn h2) 
> | 
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Error: 3.960202 Steps: 115 


Aucune amélioration significative. et nous pourrions continuer ainsi longtemps sans obtenir 
aucune amélioration. 


Regardons cependant si ce modèle performe mieux sur un jeu de test n'étant pas inclus dans le 
jeu d'entraînement. Nous allons utiliser le même jeu que dans le cours théorique: 
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02 


[1;] 
[Z;] 
[3;] 
[4,] 
[5;] 
C6,] 


[1;] 
[Z;] 
[3,1 
[4;] 
[S;] 
[6,] 


[1,1 
[2,1 
[3,1 
[4,1 
[S;] 
[6,1 


04. 
11. 
18. 
25: 


09. 
> compute (nn_ 
$neurons 
$neurons[[1]] 


$net. 


RGui (64-bit) - 
KR Fichier Edition Voir Misc Packages Fenêtres Aide [-Is|x] 


> mydata test 


Semaine 


04. 
04. 
04. 
04. 
05. 
05. 


1 


1997 
1997 
1997 
1997 
1997 
19014 


XL 

.25 39. 
.00 37. 
.13 38. 
.00 39. 
.63 41. 
.25 42. 


$neurons[[Z2]] 


[1] [,2] 


L 


result 


32 
32 
32 
32 
32 


C;1] 


-.43949125 
-.43949125 
«43949125 
.43949125 
.43949125 
32. 


43949125 


x1 
2 
.00 
LS 
.00 
. 63 
9.25 


mydata test[,3:7]) 


39. 
37. 
36. 
39. 
41. 
.25 


42 


X2 
13 
63 
88 
13 
38 


X3 
51.00 
50.25 
Saces 
51:63 
53.38 
53.88 


Comme nous pouvons le voir, ce réseau de neurone a un problème puisqu'il considère chaque 
entrée comme une valeur binaire. Ainsi, s'il existe un nombre en entrée il met celle-ci à la 
valeur 1 et ensuite il multiplie par le poids et fait la somme des biais, raison pour laquelle on 
se retrouve toujours avec la même valeur en sortie dans le cas présent. En réalité ce package 
est plutôt fait pour de la classification et moins pour prédire des valeurs des continues... 


Cela n'empêche toutefois pas que nous pouvons normaliser les données en entrée et les 
dénormaliser ensuite en sortie: 
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QR RGui (64-bit) - [R Console] — 0 


R File Edit View Misc Packages Windows Help -_ sx 


> library("neuralnet") 
> 
> mydata<-read.csv("C:/tmp/ReseauNeurone.csv",header=T,sep=";") 
> 
> norm.fun = function(x){(x - min(x))/(max(x) - min(x))} 
> train _data= apply (mydatal,2:7], 2, norm.fun) 
> à 
> nn_ffd<-neuralnet (y-x1+x2+x3+x4+x5,data=train data,hidden=2) 
> 
> mydata<-read.csv("C:/tmp/ReseauNeuroneTest.csv",header=T, sep=";") 
> 
> test_data= apply(mydata[,3:7], 2, norm.fun) 
> 
> output _data<-compute (nn_ffd,test_data)$net.result 
> 
> denormalized output _data<-data.frame('y'=(min(mydatal, 'y'}]) 
+ + output data* (max(mydatal, ‘y'])-min(mydatal, 'y'])))) 
> 
> denormalized output data 
Y 
1 33.84199638 
2 32.71658907 
3 36.09684932 
4 34.96983876 
S 35.98005059 
6 36.22073714 
>| 


avec le diagramme correspondant où on peut voir que cette fois l'erreur est significativement 
inférieure: 
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R RGui (64-bit) - [R Graphics: Device 2 (ACTIVE)] _ x 


R File History Resize Windows -_ 4x 


OIIE) 2 


Error: 0.047832 Steps: 127 


Nous allons voir si nous pouvons faire mieux avec un autre package, nommé nnet (n'oubliez 
pas qu'à chaque fois que vous relancerez le modèle, les poids ne seront pas les mêmes!) 
et sa fonction nnet( ): 


?nnet 
libraryinnet) 
mydata<-read.csv{("C:/ReseauNeurone.csv",header=T,sep=";") 
mnnet<-nnet (y-x1+x2+xX3+x4+x5, data=mydata,size=5,skip=TRUE, linout=TRUE, decay=0.025) 
veights: 41 
initial value 3733.721913 
iter 10 value 5.112277 
iter 20 value 2.200506 
iter 30 value 2.076809 
iter 40 value 2.063702 
iter SO value 1.923754 
iter 60 value 1.856845 
iter ‘70 value 1.844442 
1.827647 
1.813017 
iter 100 value 1.811880 
final value 1.811850 
 — after 100 iterations 
> 


iter 60 value 
iter 90 value 
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Ensuite, comparons déjà la valeur prédite aux valeurs originales pour le jeu d'entraînement: 


; = [Ses 
> 
> result<-as.data.frame(chindimydataf$y,predict (mnnet,mydata[,3:7]))) 
> names(result)i<-ci"Valeurs originales","Valeurs prédites") 
> result 
Valeurs originales Valeurs prédites 
1 32.50 32.54855144 
2 33.50 33.37719399 
3 33.00 33.08323113 
4 33.63 33.74447270 
5 32.13 32.79131699 
6 32.25 31.97742705 
7 32.75 32.77867100 
8 33.13 33.18870976 
9 32.88 32.65281475 
10 32.25 31.68170711 
11 32,13 32.12829152 
12 31.75 31.76838707 
13 30.88 31.39874607 
14 31.38 30.99853430 


> ErreurQuadratique<-sum((result[,1]-result[,2])*2) 
> ErreurQuadratique 
[1] 1.342899524 


Ce qui pour cette exécution est moins bon que ce que nous avons obtenu avec le tableur mais 
si vous exécutez plusieurs fois vous verrez que la valeur peut diminuer en-dessous de 0.8 que 
nous avions obtenu avec Microsoft Excel. Il est aussi possible d'augmenter le nombre d'unités 
dans la couche neuronale. 


Nous pouvons comparer aussi avec le même jeu test: 
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mydata test<-read.csv("C:/ReseauNeuroneTest.csv",header=T,sep=";"] 
mydata test<-read.csv{("C:/ReseauNeuroneTest.csv",header=T,sep=";") 
result<-as.data.frame(chindimydata test$y,predict (mnnet,mydata test[,3:7]))) 
names (result)<-c("Valeurs originales","Valeurs prédites") 
result 
Valeurs originales Valeurs prédites 

30.88 30.95488298 

32.25 30.30051776 

34.25 31.18967699 

34.25 30.98574011 

34.75 31.65250404 

36.63 31.95606444 
ErreurQuadratique<-sumi(result[,1]-result[,2])"2) 
ErreurQuadratique 
* 54.96910505 
> 


L'AL ANS E J2 


1 
2 
3 
4 
5 
6 
> 
> 


Donc nous faisons juste un peu moins bien... mais c'est le hasard car si vous relancez vous 
verrez que vous ferez mieux que le réseau de neurone créé dans le cours théorique. 
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Réseaux de neurones FFNN avec fonction d'activation Softmax 
(multinomiale) 


Nous allons reprendre l'exemple pris lors de notre étude la régression logistique multinomiale: 


GR RGui (64-bit) - [R Console] — 


R File Edit View Misc Packages Windows Help # x 


> mydata<-read.csv("c:/tmp/Iris.csv",header=T,sep=",") 
> head(mydata) 
Sepal.Length Sepal.Width Petal.Length Petal.Width Species 


1 S:1 3:5 1.4 0.2 setosa 
| 2 4.9 3.0 1.4 0.2 setosa 
| 3 4.7 3:2 1:3 0.2 setosa 
| 4 4.6 SL 4:5 0.2 setosa 
5 5:90 3.6 1.4 0.2 setosa 
| 6 5-4 3-9 1-7 0.4 setosa 
> summary (mydata) 
| Sepal.Length Sepal.Width Petal.Length Petal.Width Species 
| Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100 setosa :50 


ist Ou-:5:100 ist Qu.:2.800 ist Qu.:1.600 ist Qu.:0.300 versicolor:50 
Median :5.800 Median :3.000 Median :4.350 Median :1.300 virginica :50 
Mean :5.843 Mean 23-057 Mean 23-7958 Mean st:199 
3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800 
Max. 27-900 Max. :4.400 Max. :6.900 Max. :2.500 


Nous entraînons le réseau de neurones avec la fonction multinom( ) du package nnet: 
Ne) 
QŸ 
R RGui (64-bit) - [R Console] — O 


R File Edit View Misc Packages Windows Help - 


EROISOSN =) 


> library("nnet") 
> fit <- multinom(Species-.,data=mydata) 
# weights: 18 (10 variable) 
initial value 164.791843 
iter 10 value 16.177348 
iter 20 value 7.111438 
iter 30 value 6.182999 
iter 40 value 5.984028 
iter S0 value 5.961278 
iter 60 value 5.954900 
iter 70 value 5.951851 
5 
= 


ui 
x 


iter 80 value 5.950343 
iter 90 value 5.949904 

iter 100 value 5.949867 
final value 5.949867 

stopped after 100 iterations 

> summary(fit) 


Call: 
multinom(formula = Species + ., data = mydata) 
Coefficients: 

(Intercept) Sepal.Length Sepal.Width Petal.Length Petal.Width 
versicolor 18.69037 —5.458424 -8.707401 14.24477 —3.097684 
virginica —23.83628 -7.:923634 -15.:370769 23.65978 15:136530T 


Std. Errors: 

(Intercept) Sepal.Length Sepal.Width Petal.Length Petal.Width 
versicolor 34.97116 89.89215 157.0415 60.19170 45.48852 
virginica 35.76649 89,.91153 157.1196 60.46753 45.93406 


Residual Deviance: 11.89973 
AIC: 31.89973 
>| 
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Nous pouvons voir comment le réseau de neurones entraîne prédit de nouvelles données ou 
les données d'entraînement elles-mêmes toujours à l'aide de la fameux fonction predict( ): 


R File Edit View Misc Packages Windows Help 5 x 


> predicted scores <- predict (fit , mydatal,-5], "probs") # predict on new data 


> predicted class <- predict (fit, mydatal,-5]) 
> #Confusion Matrix 
> table (predicted class, mydata$Species) 


predicted class setosa versicolor virginica 


setosa 50 0 0 
versicolor (e) 49 L 
virginica (e) 1 49 
| > #Misclassification Error 
>» mean(as.character (predicted class) != as.character (mydata$Species)) 
[1] 0:01333333 


>| 


Le lecteur remarquera que nous avons ajouté la matrice de confusion et l'erreur moyenne de 
mauvaise classification. 
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Réseaux de neurones FFNN auto-régressif 


Il s'agit ici d'un réseau de neurones assez classique on dans la série temporelle on choisit que 
les p dernières valeurs et k le nombre de nœuds du réseau de neurone FFNN à une couche 
masquée (les nœuds sont des fonctions sigmoïdes) qui au final passent toutes par une fonction 
linéaire (il y plein de schémas sur internet qu'on peut trouver). 


Voici un exemple avec un jeu de données que nous réutiliseront beaucoup dans le chapitre sur 
les séries temporelles: 


Fe 


R ts) 
Le library("forecast") 
> data<-c(143,152,161,139,137,174,142,141,162,180,164,171,206,193,207,218,229,225, 
+ 204,227,223,242,239,266) 
> fréseau de neurone NNAR(p,Kk) 
> #p le nombre des dernières valeurs à prendre en compte 
> #k le nombre de noeuds (nodes) dans la couche cachée 
> fit <- nnetar(data, lambda=0) 
> #prédiction avec intervalles de prédictions (PI) simulés 
> #(attention la simulation peut être longue) 
> autoplot ((forecast(fit, PI-TRUE, h=6)) 
> | 
L 
R [s|g|x 
Forecasts from NNAR(1,1) 
300 - 
| | 
level 
œ 
& 80 
TD 
95 
200 - 
150 - f 
0 10 20 30 
Time 
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Exemple 360.: Réseaux de neurones récurrents Vanilla RNN, 


GRU et LSTM 
R 3.6.2 


En un seul script, voyons comment entraîner les trois réseaux de neurones dont nous avons 
parcouru quelques éléments mathématiques dans le cours théoriques: 


e Vanilla RNN (Recurrent Neural Network) 
e  GRU (Gated Recurrent Unit) 
e  LSTM (Long-Short Term Memory) 


L'exemple est pris et adapté du lien suivant (Ivo Dinov): 


http://www.socr.umich.edu/people/dinov/courses/DSPA_notes/18_BigLongitudinalDataAnal 
ysis_RNN.Rmd 


Voyons d'abord comment importer des données les données climatiques 2009-2017 de 
l'Institut Max Planck de Jena, en Allemagne: 


R : 
R File Edit View Misc Packages Windows Help ILE 


SE) tele) els] 


|> rm(list=ls()) 

> fle fichier est aussi disponible en local sous le nom: ClimateData 2009 2017 Jena Germany MaxPlanck.zip 
> clim data url <- "https://umich.instructure.com/files/8014703/download?download_frd=1" 

> clim data_zip_ file <- tempfile(); download.file(clim data url, clim data _ zip file, mode="wb") 

trying URL 'https://umich.instructure.com/files/8014703/download?download frd=1" 

Content type ‘'application/x-zip-compressed' length 15173218 bytes (14.5 MB) 

downloaded 14.5 MB 


> climate data <- read.csv(unzip(clim data zip file)) 
> str(climate data) 


"data.frame': 473111 obs. of 15 variables: 

$ Date Time : Factor w/ 472784 levels "1/1/2009 0:10",..: 1 23 4 5 6 7 8 9 10 ... 
$ p_mbar : num 997 997 997 997 997 ... 

$ T_degC s aum =6.02 =6,:41 =6:51 =8.31 =-60,27 =0:05 =7:62 =7:62 =7.91 -8:43 
$ Tpot_K : num 265 265 265 265 265 ... 

$ Tdew_degC : num -89.9 -9.28 -9.31 -9.07 -9.04 -8.78 -8.3 -8.36 -8.73 -9.34 ... 

$ rh percent : mum 93:93 99:4:93:9 98.2 94,1 94.4 94:90 94:4 93.8 93H: 

$ VPmax_mbar =: num 3-33 3.23 3.21 3.26 3.27 3.33 3.44 3.44 3.36 3.23 

$ VPact mbar : num 3.11 3.02 3.01 3.07 3.08 3.14 3.26 3.25 3.15 3 ... 

$ VPdef _mbar s aum 0,22 0.21 0-2 0.19 0.19 0.19: 0:18 0:19 0,21 0.22 ::. 

$ sh_g_kg : mum 1:94 1.89 1.88 1:92 1.92 1:96 2.04 2:03 1.97 1:88 :.. 

$ H20C mmol mol: num 3.12 3.03 3.02 3.08 3.09 3.15 3.27 3.26 3.16 3.02 ... 

$ rho_g m3 : num 1308 1310 1310 1309 1309 ... 

$ wv_ ms = um 1:03 0.72 0-19 0:34 0-32 0.21. 0-18 0-19 0.28 0:59 

$ max _wv ms : aum 1.75 1.5 0.63 0.5 0.63 0.63 0.63 0.5 0.75 0-88 

$ wd_deg : num 152 136 172 198 214 ... 


> head(climate data) 
Date _ Time p_ mbar T_degC Tpot_K Tdew_degC rh percent VPmax mbar VPact mbar VPdef mbar 

1 1/1/2009 0:10 996.52 -8.02 265.40 8.90 93.3 3.33 3.11 0.22 
2 1/1/2009 0:20 996.57 -8.41 265.01 9.28 93.4 3:23 3.02 0.21 
3 1/1/2009 0:30 996.53 -8.51 264.91 =9-31 93.9 3-21 3.01 0.20 
4 1/1/2009 0:40 996.51 -8.31 265.12 9.07 94.2 3.26 3.07 0.19 
5 1/1/2009 0:50 996.51 -8.27 265.15 9.04 94.1 3.27 3.08 0:19 
6 1/1/2009 1:00 996.50 -8.05 265.38 -8.78 94.4 3:33 3.14 0.19 

sh_g kg H20OC mmol mol rho qg m3 wv m s max wv m_ s wd_ deg 
1 1.94 3:12 1307:75 1:03 É:75 152:3 
2 1.89 3.03 1309.80 0.72 1.50 136.1 
3 1.88 3.02 1310.24 0.19 0-63. 171-6 
4 1:92 3.08 1309.19 0.34 0.50 198.0 
5] 1.92 3.09 1309.00 0.32 0.63 214.3 
6 1-96 3.15 1307.86 0.21 0:63 -192:7 
> unlink(clim data zip file) 
> | 
< > 


Voici le contenu du fichier *.csv pour les curieux: 
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aa 


File Edit Format View Help 


d_deg 
| 1/1/2009 0:10,996.52,-8.02.,265.4.-8.9,93.3,3.33.3.11,0.22,1.94,3.12,1307.75,1.03,1.75,152.3 
1/1/2009 0-20,996.57,-8.41,265.01,-9.28,93.4,3.23,3.02,0.21,1.89,3.03,1309.8.0.72,1.5,136.1 
1/1/2009 0-30,996.53.,-8.51,264.91,-9.31,93.9,3.21,3.01,0.2,1.88,3.02,1310 24,0.19,0.63,171.6 
11/1/2009 0:40,996.51,-8.31,265.12.-9.07,94.2,3.26,3.07,0.19,1.92,3.08,1309 19,0.34,0 5,198 
1/1/2009 0:50,996.51.,-8.27,265.15,-9.04,94.1,3.27,3.08.,0.19,1.92,3.09,1309,0 32,0.63,2143 
1/1/2009 1-00,996.5.-8.05,265.38.-8.78,94 4,3.33,3.14,0.19,1.96,3.15,1307.86,0.21,0.63,192.7 
1/1/2009 1:10,996.5,-7.62,265.81.-8.3,94.8,3.44,3 26.0 18.2.04,3 27,1305.68,0.18,0.63,166.5 
1/1/2009 1-20,996.5,-7.62.265.81.-8.36,94.4,3.44,3.25,0.19,2.03,3.26,1305.69,0.19,0.5,118.6 
1/1/2009 1:30,996.5,-7.91,265.52.-8.73,93.8,3.36,3.15,0.21,1.97,3.16,1307.17,0.28,0.75,188.5 
1/1/2009 1:40,996 53,-8.43,264.99.-9 34,93 1,3.23,3,0.22,1.88,3 02,1309 85,0 59,0 88,185 
1/1/2009 1:50,996.62.-8.76.264.66.-9.66,93.1,3.14,2.93,0.22,1.83,2.94,1311.64.0 45,0.88.183.2| 
1/1/2009 2-00,996.62,-8.88,264.54,-9.77,93.2,3.12,2.9,0.21,1.81,2.91,1312.25,0.25,0.63,190.3 
1/1/2009 2:10,996.63.,-8.85,264.57,-9.7,93.5,3.12,2.92,0.2,1.82,2.93,1312.11.0.16,0.5,158.3 
1/1/2009 2-20,996.74.-8.83,264.58,-9.68,93.5,3.13,2.92,0.2,1.83,2.93,1312.15,0.36.0.63.1848 
1/1/2009 2:30,996 81.-8.66,264.74,-9 46,93 9,3.17,2.98.0.19,1.86.,2.99,1311.37,0.33.,0.75,155.9 
Li mnna 2-40 Q0k 01 @ KA DKA TA QEOKI17907N 79 1 RE D OR 1211 IRNNTNEIIIA 


|Date_Time,p_mbar,T_degC, Tpot_K.Tdew_degC.rh_percent, VPmax_mbar, VPact_mbar, VPdef_mbar,sh_g_ kg. H20C_mmol_molrho_g_ m3.wv m_smax_wv_m_s.w * 


| 
Le_ 


En bref, ces données de séquence représentent des séries chronologiques météorologiques 
enregistrées à la station météorologique de l'Institut Max Planck de biogéochimie à Jena, en 
Allemagne. Les données comprennent la date-heure et 14 mesures / caractéristiques 
climatiques (par exemple, la pression atmosphérique, la température et l'humidité), qui sont 


enregistrées toutes les 10 minutes sur 9 ans. 


Maintenant on fait un peu de nettoyage et d'extraction des données qui nous intéressent: 
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R RGui (64-bit) - [R Console] = 


ŒR File Edit View Misc Packages Windows Help F5 x 


> fon convertit la colonne de dates (caractères) en POSIXct 

> climate time <- as.POSIXct (climate data$Date Time, format = "%d/%m/%$Y $H:%M") 

> head(climate time,10) 
[1] "2009-01-01 00:10:00 CET" "2009-01-01 00:20:00 CET" "2009-01-01 00:30:00 CET" 
[4] "2009-01-01 00:40:00 CET" "2009-01-01 00:50:00 CET" "2009-01-01 01:00:00 CET" 
[71 “2009-01-01 01:10:00 CET" "2009-01-01 01:20:00 CET” “2009-01-01 01:30:00 CET” 

[10] "2009-01-01 01:40:00 CET" 

> length(climate time) 

[1] 473111 

> 

> library("zoo") 

Fi 

> #on extrait les éléments uniques qui nous intéressent 

> #Température 

> climate data ts temp <- zoo(climate data$T degC[!duplicated(climate time)], 

+ climate time[!duplicated(climate time)]) 

> head(climate data _ ts temp) 

2009-01-01 00:10:00 2009-01-01 00:20:00 2009-01-01 00:30:00 2009-01-01 00:40:00 


—8.02 —8.41 —8.51 =8:31 
2009-01-01 00:50:00 2009-01-01 01:00:00 

-8.-27 -8.-05 
> length(climate data ts temp) 


[1] 472731 
> #Pression 
> climate data ts pressure <- zoo(climate data$p mbar{!duplicated(climate time)], 
+ climate time[!duplicated(climate time)]) 
> head(climate data ts pressure) 
2009-01-01 00:10:00 2009-01-01 00:20:00 2009-01-01 00:30:00 2009-01-01 00:40:00 
996.52 996.57 9596.53 996.51 
2009-01-01 00:50:00 2009-01-01 01:00:00 
996.51 996.50 
> length(climate data _ ts pressure) 
[1] 472731 
> fHumidité 
> climate data ts humid <- zoo(climate data$sh g kg{!duplicated(climate time)], 
+ climate timel[!duplicated(climate time)]) 
> head(climate data ts humid) 
2009-01-01 00:10:00 2009-01-01 00:20:00 2009-01-01 00:30:00 2009-01-01 00:40:00 


1.94 1.89 1.88 1:92 
2009-01-01 00:50:00 2009-01-01 01:00:00 
1-92 1.96 
> length(climate data_ts_humid) 
[1] 472731 
> | 


Faisons maintenant un plot de toutes ces données: 
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climate data ts aggregate = chind(climate data ts temp, 
climate data ts pressure, climate data ts humid) 
plot(climate data ts aggregate, main="Climate TS Data (Temperature, Pressure, Humidity)", 
col=c("red", "green", "blue"), lty=1, lwd=2) 
legend("center", legend=c("Temperature", "Pressure", "Humidity"), 
col=c("red", "green", "blue"), lty=1, lwd=2, cex=0.6, x.intersp=0.5) 


lv +V+VvV +v # 
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Normalisons les données ci-dessus et préparons aussi des fonctions de dé-normalisation: 
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File Edit View Misc Packages Windows Help Es x 


#Now we can proceed with the RNN time-series modeling and prediction. 
#fRecall: Bivariate Input=(X,Y); Univariate Outcome (Z) 

X <- climate data ts pressure 

Y <- climate data ts humid | 
Z <- climate data ts temp 


#RNN requores standardization in the interval 0 - 1 | 
min _x <- min(X); min y <- min(Y); min z <- min(Z) 
max x <-— max(X); max y <- max(Y); max z <- max(Z) 


fGeneric transformation: 
fforward (scale), for raw data, and reverse (unscale), for predicted data 
my.scale <- function (x, forward=TRUE, input="x") { 
if (input=="x" &e forward) { # X=Input==predictors & Forward scaling 
x <— (x - min x) / (max x - min x) 
} else if (input=="xX" &e !forward) { # X=Input==predictors & Reverse scaling 
x <= x * (max x - min x) + min x 
} else if (input=="Y" &e forward) { # Y=Input==predictors & Forward scaling 
| x <— (x - min y) / (max y - min _ y) 
} else if (input=="y" €&s !lforward) { # Y=Input==predictors & Reverse scaling 
X <— x * (max _ y - min y) + min y 
} else if (input=="Z" &s forward) { # Z=Output==predictors & Forward scaling | 
x <= (x = min Zz) / (max z - min 2) | 
} else if (input=="Z" çe !lforward) !{ # Z=Output==predictors & Reverse scaling | 
X <- x * (max z - min z) + min _z 
} 


return (x) | 
} {l 


VVYVN NV VER EE FERRER ES ET ENVV NV VV VV VV 


fSave these transform parameters; center/scale, so we can invert the transforms 
fafter we get the predicted values. 

X <- my.scale(X, forward=TRUE, input="x") 

Y <-— my.scale(Y, forward=TRUE, input="y") 

Z <- my.scale(Z, forward=TRUE, input="Z") 


Une fois ceci fait, rappelons que nous avons 9 années de données, en supposant 365.25 jours 
par année, 24 heures, par jour et 6 mesures par heures, cela devrait nous faire grossièrement 
un total de points de mesure de: 


GR RGui (64-bit R Console] ( 


UR File Edit View Misc Packages Windows Help = EU DE 


> 365:-25*24*6*9 
[1] 473364 
? 


Mais nous avons moins de points donc il y a des lacunes (certaines journées ou heures non 
mesurées) comme l'atteste cette capture d'écran: 
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R 
BR File Edit Viev l 


ABRIS 


> length({(X) 
[1] 472731 
> length(Y) 
[1] 472731 
> length(2) 
[1] 472731 
> | 


Windows Help 


Voyons comment faire un graphique temporel à partir des ces tenseurs avant de passer à la 
partie sur l'entraînement du réseau de neurones: 


L:! 
0] 
€) 
x 


| > X ts <- zoo(as.vector(XY tensor! , , 1]), climate time[!duplicated(climate time)]) 

NL > Y ts <- zoo(as.vector(XY tensor[ ,; , 2]), climate time[!duplicated(climate time)]) 

| > Z ts <- zoo(as.vector(Z[ ,; ]), climate time[!duplicated(climate time)]) 

| > 

| > plot(X ts,col='green',type='l',ylab="X-tensor, Z",main="Renormalized Input (X-tensor),Output (Z)",lwd=2) 
> lines(Y_ ts, col = "blue", lty=1, lwd=2) 

N > lines(Z ts, col = "red", lty=1, lwd=2) 

| > legend("topright", c("X-tensor (Pressure)", "X-tensor (Humid)", "Z(Temp)"), 

| + _ = c("green", “"blue","red"}), lty = c(1, 1, 1), lwd = c(2,2,2), cex=0.6, x.intersp=0.5) 
> 
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Maintenant on entraîne les trois différentes familles de réseaux de neurones avec la même 
fonction d'activation que celle vue dans le cours théorique (tangente hyperbolique) et en 
précisant aussi le /earningrate qui est un paramètre obligatoire dans la fonction trainr( ) du 
package rnn (le lecteur pourra ajouter un set.seed s'il souhaite pouvoir reproduire ses résultat 
sur son propre ordinateur). 


Coemme la fonction trainr( )veut des arrays en entrée basés sur des vecteurs il va d'abord 
nous falloir faire une petite transformation de nos trois facteurs: 
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| RGui (G4-bit [R Console] | | D L ‘ | 


R File Edit View Misc Packages Windows Help 8x 


> X<-as.vector(X) 
> Y<-as.vector(Y) 
> Z<-as.vector(Z) 
> | 


Maintenant entraînons les trois différents types de réseaux de neurones vu dans le cours 
théorique avec la fonction d'activation Tangente Hyperbolique et avec 40% du jeu de données 
complet pour l'entraînement (observez bien la syntaxe de transformation des vecteurs en array 
— surtout la deuxième transformation - c'est crucial pour être autonome par la suite*7!!!): 


[ 


 RGuï (54-bit) - [R Console] C 
QR File Edit View Misc Packages Windows Help He 


> #on entraîne le Vanilla RNN 
> ptm <- proc.time({) 


> model rnn vanilla <- rnn::trainr(Y = array(X,dim=c(0.4*length(X),1)), 

+ X = array(c(Y, Z),dim=c(0.4*length(X),1,2)), 

+ learningrate = 0.06, | 
+ network type = "rnn",sigmoid="tanh") 

Trained epoch: 1 - Learning rate: 0.06 


Epoch error: 0.0730551660066364 
> proc.time() - ptm 
user system elapsed 


407.21 0.43 412.33 
> 
> #on entraîne le GRU RNN | 
> ptm <- proc.time() 
> model rnn gru <- rnn::trainr(Y = array(X,dim=c(0.4*length(X),1)), 
+ X = array(c(Y, Z),dim=c(0.4*length(X),1,2)), 
o learningrate = 0.06, 
+ network type = "gru",sigmoid="tanh") | 
Trained epoch: 1 - Learning rate: 0.06 | 


Epoch error: 0.080278059938591 
> proc.time() - ptm 

user system elapsed 
1233.23 214.50 1454.35 


*on entraîne le LSTM RNN 
ptm <- proc.time() 
model rnn lstm <- rnn::trainr(Y = array(X,dim=c(0.4*length(X),1)), 
X = array(c(Y, Z),dim=c(0.4*length(X),1,2)), 
learningrate = 0.06, 
+ network type = "lstm",sigmoid="tanh") 
Trained epoch: 1 - Learning rate: 0.06 
Epoch error: 0.0819917378472324 
> proc.time() - ptm 
user system elapsed 
2034.69 616.83 2671.08 
> 
> | 


+HHVVVV 


37 En particulier la partie c(0.4*length(X),1,2) où le "1" signifie que l'on UN paramètre de sortie et le "2" signifie 
que l'on a DEUX paramètres d'entrée. 
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Ensuite, nous pouvons faire une prédiction sur les bases des réseaux de neurones construits. 
Prédiction se faisant sur le jeu de données d'entraînement + sur la partie non utilisée: 


R RGui (54-bit) - [R Console —  OE 


OR File Edit View Misc Packages Windows Help | #x 


#Predicted RNN Vanilla values 
ptm <- proc.timel() 
pred_Z rnn <- rnn::predictr (model rnn_ vanilla, array(c(Y, Z),dim=c(length(X),1,2))) 
proc.time() - ptm 
user system elapsed 
0.23 0.02 0.27 


VMVUVNV 


fPredicted RNN GRU values 
ptm <- proc.timel() 
pred_ Z lstm <- rnn::predictr (model rnn lstm, array(c(Y, Z),dim-c(length(X),1,2))) 
proc.time() - ptm 
user system elapsed 
1:33 0.01 1.38 


VNNNYV 


#fPredicted RNN LSTM values 
ptm <- proc.time() 
pred_ Z gru <- rnn::predictr (model rnn gru, array(c(Y, Z),dim=c(length(X),1,2))) 
proc.time() - ptm 
user system elapsed 
0.75 0.02 0.76 


VVYVNV NV 


On peut comparer l'histogramme des prédiction pour le fun: 


rc x 


M R Console OR ES 
> par(mfrow=c(1,3)) 
> hist (pred_ Z_ rnn) 
> hist (pred_ Z 1stm) 
> hist (pred_ Z_ gru) 
> 
c » 
M À Graphics: Device 2 (ACTIVE ICI ES 
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ou on peut aussi comparer la performance de chacun des réseaux en calculant sa RMSE (root 
mean square error): 


R 
R File Edit View Misc Packages Windows Help 


ÉBOISESIOIE 


> library("Metrics") 

> rmse(Z, pred Z rnn) 
[1] 0.2471156 

> rmse(Z, pred Z 1lstm) 
[1] 0.2644014 

> rmse(Z, pred Z gru) 
[1] 0.2628956 


Maintenant voyons graphiquement la comparaison entre les trois réseaux de neurones 
entraînés avec les données réelles normalisées: 


= CIE 
> plot(as.vector(Z), col = 'black', type = 'l', main = "Normalized Small Data: Actual vs predicted", 

+ ylab = "Z, pred Z", lwd=1) 

> lines(as.vector(pred Z rnn), type = 'l', lty=1, col = 'blue', lwd=2) 

> lines(as.vector(pred Z gru), type = 'l', lty=1, col = 'green', lwd=2) 

> lines(as.vector(pred Z lstm), type = 'l', lty=1, col = 'red', lwd=2) 

> legend("topright", c("Predicted RNN","Predicted GRU","Predicted LSTM", "Real"), 

+ col = c("blue","green","red","black"), lty = c(1,1), lwd = c(2,2), cex=0.6, 

- x-intersp=0.5) 

& CRIE 
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Les résultats ne sont guère mieux avec les biais: 
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MR RGui (64-bit) - [R Console] 
GR File Edit View Misc Packages Windows Help 


#on entraîne le Vanilla RNN 
ptm <- proc.time() 


X = array(c(Y, Z),dim=c(0.4*length(X),1,2)), 
learningrate = 0.06, use bias = T, 
+ network type = "rnn",sigmoid="tanh") 
Trained epoch: 1 - Learning rate: 0.06 
Epoch error: 0.0698041840375521 
> proc.time() - ptm 
user system elapsed 
394.76 6.33 401.27 


7 
> 
> model rnn vanilla <- rnn::trainr(Y = array(X,dim=-c(0.4*length(X),1)), 
+ 
+ 


#on entraîne le GRU RNN 
ptm <- proc.time() 


X = array(c(Y, Z),dim=c(0.4*length(X),1,2)), 
learningrate = 0.06, use bias = T, 
+ network _ type = "gru",sigmoid="tanh") 
Trained epoch: 1 - Learning rate: 0.06 
Epoch error: 0.0656295816455269 
> proc.time() - ptm 
user system elapsed 
1230.48 418.36 1649.55 


+H+VVVV 


#on entraîne le LSTM RNN 
ptm <- proc.time() 


X = array(c(Y, Z),dim=c(0.4*length(X),1,2)), 
learningrate = 0.06, use bias = T, 
+ network _ type = "lstm",sigmoid="tanh") 
Trained epoch: 1 - Learning rate: 0.06 
Epoch error: 0.0674019914193665 
> proc.time() - ptm 
user system elapsed 
Sais 868.61 3002.00 
> 


++VVVV 


Ce qui donne graphiquement: 


model _rnn_ gru <- rnn::trainr(Y = array(X,dim=c(0.4*length(X),1)), 


model rnn_lstm <- rnn::trainr(Y = array(X,dim=c(0.4*length(X),1)), 
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Et ce n'est pas mieux non plus avec les autres fonctions d'activation! 


Et pour ceux qui ont la patience de faire l'entraînement sur 80% (ici sur un Alienwaer Area 
5 Im avec toutes les options!): 
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MR RGui (64-bit) - [R Console] — (| 


R File Edit View Misc Packages Windows Help ex 


[sl 


> +on entraîne le Vanilla RNN 
> ptm <- proc.time() 
> model rnn_vanilla <- rnn::trainr(Y = array(X,dim-c(0.8*length(X),1)), 
+ X = array(c(Y, Z),dim=c(0.8*length(X),1,2)), 
+ learningrate = 0.06, 
+ network _ type = "rnn",sigmoid="tanh") 
Trained epoch: 1 - Learning rate: 0.06 
Epoch error: 1.73984623077949 
> proc.time() - ptm 
user system elapsed 
1579.86 166.09 1746.43 
ps 
> *#on entraîne le GRU RNN 
> ptm <- proc.time() 


> model rnn gru <- rnn::trainr(Y = array(X,dim=c(0.8*length(X),1)), 
+ X = array(c(y, Z),dim=c(0.8*length(X),1,2)), 

+ learningrate = 0.06, 

+ network _ type = "gru",sigmoid="tanh") 

Trained epoch: 1 - Learning rate: 0.06 


Epoch error: 0.0707554277135555 
> proc.time() - ptm 
user system elapsed 

6572.83 3569.42 10152.42 
> 
> +on entraîne le LSTM RNN 
> ptm <- proc.time() 
> model rnn_lstm <- rnn::trainr(Y = array(X,dim=c(0.8*length(X),1)), 
+ X = array(c(Y, Z),dim=c(0.8*length(X),1,2)), 


+ learningrate = 0.06, 
+ network type = "lstm",sigmoid="tanh") 
Trained epoch: 1 - Learning rate: 0.06 


Epoch error: 0.0770917660633883 
> proc.time() - ptm 
user system elapsed 
Se 5094.91 13594.31 
> 


C'est la catastrophe (surtout pour le réseau RNN...!): 
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On est typiquement dans un cas de sur-apprentissage. Relaxons alors un peu tout cela 
significativement en faisant l'entraînement que sur un très faible je de données: 
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GR File Edit View Misc Packages Windows Help 


> #on entraîne le Vanilla RNN 

> ptm <- proc.time() 

> model rnn_vanilla <- rnn::trainr(Y = array(x,dim-c(0.005*length(X),1)), 
+ X = array(c(Y, Z),dim=c(0.005*length(X),1,2)), 

+ 


learningrate = 0.1, 
| + network _ type = "rnn",sigmoid="tanh") 
Trained epoch: 1 - Learning rate: 0.1 


Epoch error: 0.173648405886723 
> proc.time() - ptm 

user system elapsed 

0.42 0.00 0.47 


> 

> #on entraîne le GRU RNN 

> ptm <- proc.time() 

> model rnn gru <- rnn::trainr(Y = array(X,dim=c(0.005*length(X),1)), 
+ X = array(c(Y, Z),dim=c(0.005*length(X),1,2)), 

+ learningrate = 0.1, 

+ network type = "gru",sigmoid="tanh") 

Trained epoch: 1 - Learning rate: 0.1 


Epoch error: 0.184089208000808 
> proc.time() - ptm 

user system elapsed 

0.73 0.03 0.80 


*#on entraîne le LSTM RNN 

ptm <- proc.time() 

model rnn_ lstm <- rnn::trainr(Y = array(X,dim=c(0.00S*length(X),1)), 

X = array(c(Y, Z),dim=-c(sample*length(X),1,2)), 
learningrate = 0.01, 

+ network type = "lstm",sigmoid="tanh") 

Trained epoch: 1 - Learning rate: 0.01 

Epoch error: 0.312666452204006 

> proc.time() - ptm 

user system elapsed 

0.91 0.02 0.95 


+THVVVV 


> 
>| 


| MR RGui (64-bit) - [R Console] — (mn 


Le réseau LSTM performe relativement bien ici comme on peut le constater: 


MR RGui (64-bit) - [R Console] = mn 


R File Edit View Misc Packages Windows Help #4) x 


> rmse(Z, pred Z rnn) 
[1] 1.545632 

> rmse(Z, pred Z lstm) 
[1] 0.1252094 

> rmse(Z, pred Z gru) 
[1] 0.3673251 

>| 


Il semble difficile de faire mieux: 
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Remettons à l'échelle d'origine: 
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R sex) 
> plot(my.scale(Z, forward=FALSE, input="Z"), 
+ col = 'red', type = 'l', main = "Small Data: Actual vs predicted (orig-temp-domain)", 
+ ylab = "Celsius Temperature (Observed Z vs. Predicted Z", lwd=1) 
> lines (my.scale(as.vector(pred Z lstm), forward=FALSE, input="Z"), 
+ type = 'l', lty=1, col = 'blue', lwd=2) 
> legend("topright", c("Predicted LSTM", "Real"), col = c("blue","red"), 1lty = c(1,1i), 
+ lwd = c(2,2), cex=0.6, x.intersp=0.5) 
>| 
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et avec le bon axe: 
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le 


MR Cons ICE 
> obs Temp_Z ts <- zoo(my.scale(Z, forward=FALSE, input="Z"), 
— climate time) 
Warning message: 
In zoo(my.scale(Z, forward = FALSE, input = "Z"), climate time) 
some methods for “zoo” objects do not work if the index entries in ‘ord$ 
> pred Temp Z ts <- zoo(my.scale(as.vector(pred Z Ilstm), 
+ forward=FALSE, input="Z"), climate time) 
Warning message: 
In zoo(my.scale(as.vector (pred Z lstm), forward = FALSE, input = "Z"), 
some methods for “zoo” objects do not work if the index entries in ‘ord$ 
> plot((obs Temp Z ts, col = "'red', type = 'l', 
: main = "Actual vs predicted", 
+ ylab = "Celsius Temperature (Observed Z vs. Predicted Z", lwd=1) 
> lines (pred Temp _Z ts, type = 'l', lty=1, col = 'blue', lwd=2) 
> legend("topleft", c("Predicted LSTM", "Real"), col = c("blue","red"), 
+ lty = c(1,1), lwd = c(2,2), cex=1.0, x.intersp=0.4) 
>| 
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Cet exemple nous apprends a priori quelque chose que l'on savait déjà: Un modèle complexe 
et moderne ou à la mode, n'est pas nécessairement mieux qu'un modèle simple! 
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Exemple 361.: Réseaux de neurones convolutionnels GAN 


(Generative Adversial Networks) 
R 3.63 


Nous allons faire un exemple de GAN ici sur de l'imagerie et plus particulièrement sur un 
exemple et jeu de données académique fameux qu'est le MNIST: 


http://yann.lecun.com/exdb/mnist/ 


BB MNIST handwritten digit d X + 


< C #8 | © Notsecure  yann.lecun.com/exdb/mnist, 


| THE MNIST DATABASE 


" of handwritten digits 


Yann LeCun, Courant Institute, NYU 
> Corinna Cortes, Google Labs, New York 
Christopher J.C. Burges. Microsoft Research, Redmond 


ED The MNIST database of handwritten digits, available from this page, has a training set of 60,000 examples, and a test set of 
10,000 examples. It is a subset of a larger set available from NIST. The digits have been size-normalized and centered in a fixed- 
size image. 


It is a good database for people who want to try learning techniques and pattern recognition methods on real-world data while 
£ peop ) £ q P £ 
(ER spending minimal efforts on preprocessing and formatting. 


Four files are available on this site: 


O 
train-images-idx3-ubyte.gz: training set images (9912422 bytes) 
train-labels-idx1-ubyte.gz: training set labels (28881 bytes) | 
t10k-images-idx3-ubyte.gz: test set images (1648877 bytes) 
t10k-labels-idx1-ubyte.gz: test set labels (4542 bytes) 


please note that your browser may uncompress these files without telling you. Ifthe files you downloaded have a larger size 
than the above, they have been uncompressed by your browser. Simply rename them to remove the .gz extension. Some people 

have asked me "my application can't open your image files". These files are not in any standard image format. You have to write 
your own (very simple) program to read them. The file format is described at the bottom of this page. | 


The original black and white (bilevel) images from NIST were size normalized to fit in a 20x20 pixel box while preserving their | 
aspect ratio. The resulting images contain grey levels as a result of the anti-aliasing technique used by the normalization 

algorithm. the images were centered in a 28x28 image by computing the center of mass of the pixels, and translating the image 

50 as to position this point at the center of the 28x28 field. 


With some classification methods (narticuarlv temnlate-based methods such as SVM and K-nearest neichhors) the error rate di 


La base de données MNIST pour Mixed National Institute of Standards and Technology, est 
une base de données de chiffres écrits à la main. C'est un jeu de données très utilisé en 
apprentissage automatique. 


La reconnaissance de l'écriture manuscrite est un problème difficile, et un bon test pour les 
algorithmes d'apprentissage. La base MNIST est devenu un test standard. Elle regroupe 
60'000 images d'apprentissage et 10'000 images de test, issues d'une base de données 
antérieure, appelée simplement NIST. Ce sont des images en noir et blanc, normalisées 
centrées de 28 pixels de côté (soit 28 x 28 = 784 points): 
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28x28=784 
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LANRUALRUPNO 


L’exemple qui va suivre vient d'un article de blog de Sigrid Keydana: 


https://tensorflow.rstudio.com/guide/keras/examples/eager_dcgan/ 
dont on peut encore trouver normalement la source ici: 
https://tensorflow.rstudio.com/guide/keras/examples/eager_dcgan/ 
ou ici: 
https://oithub.com/rstudio/keras/blob/master/vignettes/examples/eager_dcgan.R 


Pour ceux qui souhaitent apprendre à créer des jeux d'images de ce type à partir de leur propre 
bibliothèque, nous les renvoyons à le lecteur sur la gestion de listes R (voir page 296) et du 
Traitement d'images dans R (voir page 3005). 
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Voici l'ensemble du code en text brut qui fonctionne sur R 3.6.3: 


library("keras'") #pour charger les jeux de données 

library("tensorflow") #pour le CNN 

#tensorflow::install tensorflow() 

#Notons que pour utiliser la version GPU de tensorflow (ou de keras...): 
#install tensorflow(version = "gpu") 

library("tfdatasets") #pour adapter les données R au format TensorFlow 


#on charge les données en ligne détaillées précédemment 
mnist <- keras::dataset mnist() 


Voici ce que contient ce jeu de données dont nous avons au besoin (si la source en ligne 

venait à disparaître) une copie locale dans un fichier RData: 

©@mnist Large list (2 elements, 209.6 Mb) 
train:List of 2 
..$ x: int [1:60000, 1:28, 1:28] 0000 
..$ y: int [1:60000(1d)] 5 O0 4 19213 
test :List of 2 
..$ x: int [1:10000, 1:28, 1:28] 
..$ y: int [1:10000(1d)] 7 2 1 0 


nl =] 


Œ@ MNIST_handwriting_dataset.RData 


on crée un jeu de données contenant les données pour entraîner le CNN 
c(train images, train labels) %<-% mnist$train 


avant l'entraînement, faisons juste un plot des 64 premières images (8x8) 
du jeu de test pour les images ayant cokime label "5" 

c(c(trainx, trainy), c(testx, testy)) È<-3 mnist 

trainx <- trainx[trainy == 5,,] 

par(mfrow = c(8, 8), mar = rep(0, 4)) 

for (i in 1:64) plot(as.raster(trainx[i,,], max = 255)) 
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#préparation du jeu de données au format Tensorflow 
train images <- train images %>% 

k expand dims() %>% 

k cast(dtype = "float32") 


#on normalize les niveaux de gris (255/2=127.5) 
train images <- (train images - 127.5) / 127.5 


buffer size <- 60000 #les 60000 images 
batch size <- 256 #le nombre d'images que l'on souhaite traiter par EPOCH 
batches per epoch <- (buffer size / batch size) %>% round() 


#on utilise le package tfdatasets encore une fois pour préparer les données 
train dataset <- tensor slices dataset (train images) %>% 

dataset shuffle(buffer size) %>% #on randomize le dataset 

dataset batch(batch size) #on la randomisation dans un batch 


generator <- 
function(name = NULL) { 
keras model custom(name = name, function(self) { 
self$fcl <- layer dense(units = 7 * 7 * 64, use bias = FALS] 
self$batchnorml <- layer batch normalization() 
self$leaky relul <- layer activation leaky relu() 


E] 
— 
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Sciences.ch 


self$convi <- 
layer conv 2d Etranspose( 
filters = 64, 


kernel size = c(5, 5), 
strides = c(1l, 1), 
padding = "same", 


use bias = FALSE 
) 
self$batchnorm2 <- layer batch normalization() 
self$leaky relu2 <- layer activation leaky relu() 


self$conv2 <- 
layer conv 2d transpose( 
filters = 32, 


kernel size = c(5, 5), 
strides = c(2, 2), 
padding = "same", 


use bias = FALSE 
) 
self$batchnorm3 <- layer batch normalization() 
self$leaky relu3 <- layer activation leaky relu() 


self$conv3 <- 
layer conv 2d transpose( 
filters = 1, 


kernel size = c(5, 5), 

strides = c(2, 2), 

padding = "same", 

use bias = FALSE, 

activation = "tanh" Ke 
| S 


function(inputs, 
mask = NULL, 
training = TRU 
self$fcl(inputs) %>% 
self$batchnormi (training = training) %>% 
self$leaky relul() %>% 


(ea 
— 
_ 


k reshape(shape = c(-1, 7, 7, 64)) %>% 
self$convl() %>% 


self$batchnorm?2(training = training) %>$% 
self$leaky relu2() %>% 


self$conv2() %>% 
self$batchnorm3(training = training) %>% 
self$leaky relu3() %>% 


self$conv3() 
} 
}) 
} 


discriminator <- 
function(name = NULL) { 
keras model custom(name = name, function(self) { 
self$convl <- layer conv 2d({ 
filters — 64, 
kernel size = c(5, 5), 
strides = c(2, 2), 
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padding = "same" 
) 
self$leaky relul <- layer activation leaky relu() 
self$dropout <- layer dropout (rate = 0.3) 


self$conv2 <- 
layer conv 2d({ 
filters — 128, 


kernel. size:=:6(5,;:5);,; 
strides = c(2, 2), 
padding = "same" 


) 
self$leaky relu2 <- layer activation leaky relu() 
self$flatten <- layer flatten() 
self$fcl <- layer dense(units = 1) 


function(inputs, 
mask = NULL, 
training = TRUE 
inputs $>% selfS$convli( 
self$leaky relul() % 
self$dropout (training = training) %>% 
self$conv2() %>% 
self$leaky relu2() 
self$flatten() %>% 
self$fcli) 


) { 
) 6>% 
> 


$ 


} 
}) 


C 
K 
Ÿ 


generator <- generator () Q 


discriminator <- discriminatori) 


generator$call <- tf$'function  (generator$call) 
discriminator$call <- t£f$ function (discriminator$call) 


(ea 
— 


cross entropy = tf$keras$losses$BinaryCrossentropy(from logits = TRUI 


discriminator loss <- function(real output, generated output) { 
real loss <- cross entropy(k ones like(real output), real output) 
generated loss <- cross entropy(k zeros like(generated output), 
generated output) 
real loss + generated loss 


} 


generator loss <- function(generated output) { 
cross entropy(tf$ones like(generated output), generated output) 


} 


discriminator optimizer <- tf$optimizers$Adam(le-4) 
generator optimizer <- tf$optimizers$Adam(le-4) 


num epochs <-— 150 
noise dim <- 100 
num examples to generate <- 25L 


random vector for generation <- 
k random normal(c(num examples to generate, 
noise dim)) 
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generate and save images <- function(model, epoch, test input) { 
predictions <- model(test input, training = FALSE) 
png (paste0("c:/tmp/images epoch ", epoch, ".png")) 
par(mfcol = c(5, 5)) 
par(mar = c(0.5, 0.5, 0.5, 0.5), 
xaxs = 'i', 
yaxs = 'i') 
for (i in 1:25) { 
img <- predictions{i, , , 1] 
img <- t(apply(img, 2, rev) 
image ( 
1:28, 
128, 
img * 127.5 + 127.5, 
col = gray((0:255) / 255), 


C] 


xaxt = 'n', 
yaxt = 'n' 
) 
} 
dev.offi{) 


} 


train <- function(dataset, epochs, noise dim) { 
for (epoch in seq len(num epochs)) { 
start <- Sys.time() 
total loss gen <- 0 
total loss disc <- 0 
iter <- make iterator one shot(train dataset) 


until out of range({ 
batch <- iterator get next(iter) ,& 
noise <- k random normal(c(batchSSize, noise dim)) 
with(tf$GradientTape() %as$ gen tape, { 
with(tf$GradientTape() %as% disc tape, { 
generated images <- generator (noise) 


disc real output <- discriminator (batch, training = TRU 
disc generated output <- 

discriminator (generated images, training = TRU 
gen loss <- generator loss(disc generated output) 
disc loss <- 


(ea 


) 


C] 


discriminator loss(disc real output, disc generated output) 


}) 
}) 


gradients of generator <- 


gen tapeS$gradient (gen loss, generator$trainable variables) 


gradients of discriminator <- 


disc tape$gradient (disc loss, discriminator$trainable variables) 


generator optimizer$apply gradients (purrr::transpose(list( 
gradients of generator, generator$trainable variables 


))) 


discriminator optimizer$apply gradients (purrr::transpose ( 


list (gradients of discriminator, discriminator$Strainable variables) 


)) 


total loss gen <- Eotal loss gen + gen loss 
total loss disc <- total loss disc + disc loss 
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cat ("Time for epoch ", epoch, ": ", Sys.time() - start, "\n") 
cat ("Generator loss: ", 

total loss gen$numpy() / batches per epoch, 

Ha) 
cat ("Discriminator loss: ", 

total loss disc$numpy() / batches per epoch, 


“\Kn\n") 
#if (epoch %% 10 == 0) 
generate and save images (generator, 


epoch, 
random vector for generation) 


num epochs <- 200 

ptm <- proc.time() 

train(train dataset, num epochs, noise dim) 
(proc.time() — ptm)[1]/60 


Comme on peut le voir il faut plusieurs heures pour faire les 200 EPOCH: 


Re RGui (64-bit) - [R Console 
R File Edit View Misc Packages Windows Help 


BASE) 


| Time for epoch 195 : 4.03525 
Generator loss: 1.144268 
Discriminator loss: 1.115611 


| Time for epoch 196 : 4.050525 
Generator loss: 1.15871 
Discriminator loss: 1.106253 


Time for epoch 197 : 4.016815 
Generator loss: 1.135829 
Discriminator loss: 1.110199 
Time for epoch 198 : 4.047784 


Generator loss: 1.146968 
Discriminator loss: 1.106935 


Time for epoch 199 : 4.445962 
Generator loss: 1.156667 


Discriminator loss: 1.11567 
Time for epoch 200 : 4.068348 
| Generator loss: 1.170783 
Discriminator loss: 1.107387 


> (proc.time() - ptm)[1]/60 
| user.self 

2183.478 

> | 


On peut voir l'évolution de l'apprentissage du réseau de neurone convolutionnel ci-dessous: 
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images_epoch 4 
O.png 


images_epoch 


images_epoch_9 


$ 
images_epoch_1 h och_ images_epocl 
0 74, 


images epoch 1 images 
94.png S.png 


Vous pouvez demander l'ensemble du code dans un fichier unique nommé GANR au 
formateur ou copier/coller l'ensemble du code à partir de la page suivante: 
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#1 This 12 the companton code to the post 
A: "cenerating digits with Keras and Fensorrlon eager execution" 
4: on the Tensorrlow for R blog 

Hi 

HI 


library {tkeras") 
library ("cenaortlou 

naor flou: +install_rensor£lou(} 
Aotons que pour utiliser la version GPU de tensorflow (ou de 
Hinstall_tensorflou(version = "gpu} 
Library (Fefdatasets") 


mnist <- keraa:+datanet_mnist () 
eltrain images, train labels) 4e-t mniets 


Huet for the plot 
Glcttraine, trainy), c(teatx, teaty}) 4-4 mnist 
tratné <= traine[trainy = 5,,] 

parimérou = G(8, 8), mar = rep(O, 4)) 

for (1 in 1264) plot (as-raster(traina(i,,], max - 265) 
Aéinian about the plot 


train_images <- train_images 45 
k_expand dimo() 24 
ÉLcast (dtype = "Élost32") 


train_images <= (train images = 127,5) / 127.5 
bufter_size < 60000 


batch size <- 256 
batches_per_epoch <- (buffer _aize / batch_eize) 434 round() 


aset <- rensor_alices_dataset (train images) 4% 
set_ shuffle (buffer_a12e) 23 
bateh{bateh_s12e) 


generator < 
fonction (nane = NULL) { 
Xeras_model_custam(nane - name, function (self) { 


sel£stel 2- layer dense(unire = 7 * 1 * 61, use biac = FALSE) 


Sel£ébatchnorm! <= 1ayer_bateh normalizatiôn() 
seif$leaky_relui <- layer activation_lesky_relu() 


sefsconvi <- 
layer conv_24_transpose( 
Fliters = 64, 
kernel_size = e(5, 5h, 
strides = efl, 1), 
padding = "sane", 
üse_bias = FALSE 
; 
selsbatchnorn? <= 1ayer_bateh_normalization(} 
seif$leaky_relu? <- layer activation_lesky_relu() 


se1fsconv2 <- 
layer conv_24_transpose( 
Fliters = 32, 
kernel_size = e(5, 5h, 
strides = e(2, 2), 
padding = "same", 
de bias = FALSE 
; 
selsbatchnorn3 <= 1ayer_bateh_normalization(} 
seif$leaky_relu3 <- layer activation_lesky_relu() 


selticonvs <- 
layer conv_24_transpose( 

Fiiters = 1, 
kernel_size = e(5, 5h, 
strides = e(2, 2), 
padaing = “same”, 
üse_bias = FALSE, 
activation = ‘can 


function (Anputs, 
mask = QUIL, 
training + TRUE) ( 
aeLtéfel (imputs) +4 
seltébatchnoënt (training = training) 43 
Se1f$leaky_relui () > 
Kreshape(shape = ef-l, 7, 7, 64) 44 


se1ffeonvi (254 
se1tibatonorn? (training = training) 23 
Se1f$leaky_relu2() 58 


se1ffconv2( +4 
se1tébatehnorns (training = training) 23 
se1t$leaky_relu3(} 458 


se1fconvs () 
0 
n 
' 


discriminator < 
function (nane = NULL) ( 
Xeras _model_custam(nane - name, function (self) À 
SelEfconvi <= layer conv 24 
filters = 64, 
Kernel_size 2 (5, 5), 
atrides - c(2, 2), 
padding = "same" 
; 
Se1f$leaky_relui <- layer_activation_lesky_relu() 
se1tfdropout <= layer dropout{rate = 0.3) 


seiffconv2 <- 
Layer conv_24( 
Filtees = 128, 
kernel_size =" e(5, 5h, 
strides = e@, 2), 
padding = "same" 


; 
seit$leaky_relu2 <- layer_activation_lesky_relu() 
seitsriatten <= layer flatten() 

seit$tel <= layer dense(units = 1) 


function (Anputs, 
mask = EULL, 
training = TRUE) ( 
Anpute 43% selégconvt () 394 

selt$leaky_relui () 454 

se1tsdropout (training = tratning) 54 

Seliconv2( 54 

se1t$leaky_relu2() 45% 

seitériateen() 44 

se1t$te() 


: 
n 
' 


generator <- generater {) 
diserininator <= discriminator(} 


generatorgeail <- tfÿ° function: (generatorScal1} 
discriminatorseall <- Ef$ function  (discriminatorseall} 


diseriminator 10s8 <- function(real_output, generated output) { 


real_loss <= cross _entropy(k_ones like (real output}; real_output) 
ed ose <- er0ss_entropy(k-2er0s_ Like (generated output}, generated output} 


gene: 
real loss + generated 182 


: 


generator_loss <- function (generated output} { 


eroas_entrepy{rf$ones_11ke (generated output], generated output) 


0 


diserininator optinizer <- téSoptintzeresadam(le-d) 
generator optimiser <= tfoptimizeresAdam(le-d) 


aum_epochs <= 150 
noige din <= 100 
nun_examples_to_generate <- 261 


random vector_for_ generation € 
X_ random normal Te (num examples _to_generate, 


noise din} 
generate_and_save_images <- funetion (model, epoch, teat_input} 
predictions <- model (test_input, training = FALSE) 


Png (paste0 ("e:/Emp/Lmages_epoch Fra 


par(mteol = 6{5, 51) 


+ epocs 


par(mar = e(0.5, 0.5, 0.5, 0.5), 
saxs = t1i, 
yaxs = tit) 
for (fin 1:28) | 
img < predictions(4, ; ; 1] 
img <= E(apply ing, 2, rev} 
image 
1228, 
1228 


Ang © 127.5 + 127.5, 
col - graÿ((0:266) / 265), 
var 2 tar 

' 
i 
dev.ot£(} 

ÿ 


train <= funetlon(dataset, epoche, noise dim) { 
for {epoch in eq len(num_ epoche}} { 
atart <= Sys.time() 
sotal_losa_gen <= 0 
sotal-loss-dise € 0 
Iter +- make_iterator_one_shot (train dataset} 


unti1_out_0f_range ({ 
batch <= Ateratos_get_next (£ter) 
noise <- k_randon_nornal (e (batch_size, noise dim)} 
(tfscradientrape() ass gen fape, ( 
Hith(féradientrape() Lagt dise rape, | 
generated images <- generator (noise) 


dise_real_output <- discriminator (batch, training = TRUE) 


disc_generated output <— 

diseriminator (generated images, training = TRUE) 
gen_loss <- generator_ 1088 (dise generated output) 
dise loss < 


diseriminator loss (dise_real_output, dise_ generated output) 


gradiente_of_generator <- 
den_tapasgradient (gen loss, generatorStrainabl 
grsdiants_of discriminator € 


dise rapeñgradient (dise lose, discriminatorserainable_vartables| 


gene: 
gradients of generator, generatorStrainable variables 


ji 


+tps+//bloge.retudio.con/tensorflo/poste/2018-08-26-eager-dogan/ 


ropy = tfékerasGLosseséinaryeronsentropy (from logits = TRUE) 


‘ 


oe_oprintzersapply_ gradients (purrr: :Eranapose (115+ ( 


discriminator_optimizersapply_gradients (parr: *Eranspose ( 


List (gradient 
n 


rotal_loss_gen <- total_loss_gen + gen loss 
Fatal loss dise <- total loss disc à dfse loss 


n 
cat{nrime for epoch *, epoch, %: #, Sys.tine( - atai 
eat("Generator 1088: ?, 
sotal_ 1084 genfnumpy O / batehes_per_epoch, 
fees 
eat{"Discriminator Loge: , 
sotal loss discénumpyl} / batches_per_epoch, 
“at 
Hi£ (epach +8 10 = 0) 
generate_and_save_images (generator, 
epoch, 
random vector_for_generation) 


: 


aum_epochs <= 200 
Pen <= proc. cime () 

£ratn(train dataset, num epoche, noise du 
{proc-time(} = pen) (11/60 


, 


of discriminator, diseriminatorserainable variables) 
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Exemple 362.: Ensemble Learning 
R 3.2.1 


Le principe du "Ensemble Learning" est simple dans le principe. Il s'agit d'exécuter plusieurs 
techniques de fouilles de données sur un même jeu de données et ensuite faire de la prédiction 
en se basant sur une pondération optimale de chacun des modèles choisis afin de minimiser le 
taux d'erreur de prédiction. 


Donc mathématiquement 1l n'y a rien de difficile car 1l suffit de connaître les techniques de 
base déjà étudiées précédemment, de les exécuter sur un même jeu de données, et ensuite par 
un solveur pondérer l'influence de chaque modèle. 


D'abord nous installons le package SuperLearner en passant par Github (du moins à ce jour) 


ù Zn =. At = É 
mais n'hésitez pas à l'installer via la méthode d'un package normal: 
R 
R dé M Le 
ÉSOBGEIOIE 
> install _github("ecpolley/SuperLearner"” 
Downloading github repo ecpolley/ SuperLearnerfmaster 
Installing SuperLearner 
| Installing 3 packages: CvAUC, nnis, ROCR 
|package ‘cvAUC’ successfully unpacked and HDS5 sums checked 
package ‘nnis’ successfully unpacked and MHDS sums checked 
package ‘ROCR’ successfully unpacked and HDS sums checked 
| "C:/PROGRA-1/R/R-32-1.1/bin/x64/R" --no-site-file --no-environ --n0o-save --no-restore CHD INSTALL "C:/Users/Vincent \ 


150z/Appbata/Local/Temp/RtempQVhVuz/devtoois10£07370Sa28/ecpolley-SuperLearner-12319fe" --library=-"C:/Users/Vincent \ 
Isoz/Documents/R/vin-library/3.2" --install-tests 


* installing ‘source’ package 'SuperLearner' ... 

.R 

"" inst 

** preparing package for lazy loading 

Varning: package 'nnls' was built under R version 3.2.2 
** help 

*** installing help indices 

** building package indices 

** installing vignettes 

"* resting 1£{ installed package can be loaded 

*** arch - 1366 

Varning: package 'nnls' was built under R version 3.2.2 
*** arch - x64 

Varning: package 'nnis' was built under R version 3.2.2 
* DONE (SuperLearner) 


Et aussi: 
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IR Fe Edit View Misc Packages Windows Help x 


ÉBOIBOEIOIE | 


> install github("ledell/subsemble") 

Dounloading github repo lede1l/subsemblefmaster 

Installing subsemble 

Skipping 1 packages ahead of CRAN: SuperLearner 

"C:/PROGRA-1/R/R-32-1.1/bin/x64/R" --no-site-file --no-environ --no-save --no-restore CHD INSTALL "C:/Users/Vincent \ 
1soz/AppData/Local/Temp/RtmpQWVhVwZz/devtoo1s10102043 lace/ ledelli-subsemble-e2192ad" --library="C:/Users/Vincent \ 
Isoz/Documents/R/vin-library/3.2" --install-tests 


* installing *source* package 'subsemble! ... 

.. R 

** preparing package for lazy loading 

Varning: package 'nnis' was built under R version 3.2.2 
** help 

*** installing help indices 

|** building package indices 

|** testing if installed package can be loaded 

"arch - 1386 

Varning: package 'nnls' was built under R version 3.2.2 
"°® arch - x64 

Varning: package 'nnls' was built under R version 3.2.2 
. ie (subsemb le) 

> 


Le 


On charge les données: 


R RGui (64.bit) - [R Console] : . . 
R File Edit View Misc Packages Windows Help Lex 


BROSSE … 


> library("devtools") 
> library("SuperLearner") 
> mydata<-read.csv("C:/tmp/EnsembleLearning.csv",header=TRUE, sep=";") 
> mydata 
Revenus Surface Propriétaire 
60.0 18.4 
85.5 16.8 
64.68 21.6 
61.5 20.8 
87.0 23.6 
110.1 19.2 
108.0 17.6 
82.8 22.4 
69.0 20.0 
10 93.0 20.8 
21 51.0 22.0 
12 81.0 20.0 
13 75.0 19.6 
14 52.8 20.8 
15 64.8 17.2 
16 43.2 20.4 
17 84.0 17.6 
18 49.2 17.6 
19 59.4 16.0 
20 66.0 18.4 
21 47.4 16.4 
22 33.0 18.8 
23 51.0 14.0 
24 63.0 14.8 


© © -J o Un Bb © ND + 


HHHHHHHHHHHHOO0O0O0000000000 
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Maintenant on lance l'ensemble learning avec trois méthodes: 


R File Edit ew Misc Pack age Windo Help _ ex 


SL.library<-c("SL.knn","SL.glm","SL.randomForest") 
method<-"method.NNLS" 

family<-"binomial" 

train<-mydata(1:2] 

Y<-mydata(,3] #must be numeric! 
test<-as.data.frame(t(c(65s,20))) 

colnames (test) <-c("Revenus","Surface") 

fit<-SuperLearner (Y,train,test,family,SL.library,method):fit 


VVNVNNNNNN NY 


Call: 
SuperLearner (Y = Y, X = train, neuX = test, family = family, SL.library = SL.library, 
method = method) 


Risk Coef 
SL.knn_Àll 0.2245833 0.2364631 
SL.gilm All 0.1700917 0.7635369 


SL.randomForest_ All 0.24684756 0.0000000 
> fit$SL.predict 
[,1] 
|1 0.4224418 
>| 


Nous y voyons donc les pondérations (Coef) de chaque modèle dans le prognostique final. 
Ÿ 
Pour notre jeu de données de départ cela donne: 
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> round(fit$SL.predict,digits=0) 
C,1] 
1 


1 
0 
0 
(e) 
(e) 
0 
0 
0 
(e) 
0 
12 0 
0 
1 
1 
1 
(e) 
1 
1 
1 
1 
1 
L 
1 


a @— 


O -J o On Bb © NN + 


Donc la prévision n'est pas trop mauvaise (il faudrait faire une matrice de confusion mais 
nous avons déjà étudié cela). 
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Exemple 363.: Métriques de classifications 
R 3.6.2 


Nous avons vu dans le cours théorique quelques unes des nombres métriques de 
classifications. Passons ces dernières en revue en créant une matrice de confusion à la volée: 


R RGui (64-bit) - [R Console] — [] 


R File Edit View Misc Packages Windows Help me 2 


> set.seed(0) 
> #labels de classe bidons 
> actual<=-cl'a","b";"c')} [sGunif{(100, TL,4)1 
> flabels pour la prédiction 
> predicted<-actual 
> fcréation de quelques prédictions erronées 
> predicted{runif(30,1,100)]<-actual[runif(30,1,100)] 
> fcréation de la matrice de confusion 
> (cm<-as.matrix (table (Actual = actual, Predicted = predicted))) 
Predicted 
Actual a b c 
a 24 2 1 
b 3 30 4 
ce 0 5 31 


> | 


Commençons par quelques statistiques triviales: 
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GR RGui (64-bit) - [R Console] — ( 
| ŒR File Edit View Misc Packages Windows Help Rx 


SIT) 


> fnombre d'instances 
|> (N<-sum(cm)) 
| [1] 100 
|> finombre de classes 
|> (nc<-nrow(cm)) 
| [11 3 
> #nombre correcte d'instances classifiées toutes classes confondues 
|> (diag<-diag(cm)) 
læ E € 
124 30 31 
|> #nombre d'instances par classes 
|> (rowsums<-apply(cm, 1, sum)) 
| a b c 
27 3736 
|> fnombre de prédictions par classes 
|> (colsums<-apply(cm, 2, sum)) 
a b c 
27 37 36 
|> #distribution des instances à travers les classes 
[> (p<-rowsums/N) 
| a b e 
10:27 0-37 0-36 
[> f#distribution des instances à travers les classes prédites 
[> (q<-colsums/N) 
| a b c 
0.27 0.37 0.36 
> | 


Q® 
Maintenant calculons les indicateurs de performance classiques: 
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UR RGui (64-bit) - [R Console] — O 


GR File Edit View Misc Packages Windows Help IE x 


EET 


> #accuracy (exactitude) 
> (accuracy<-sum(diag)/N) 
[1] 0.85 
| > 
> fperformences par classes 
> (recall<-diag/rowsums) 
a b © 


0.8888889 0.8108108 0.8611111 
> (precision<-diag/colsums) 
a b e 
|0.88888689 0.8108108 0.8611111 
> (F1<-2 * precision * recall / (precision + recall)) 
a b c 
0.8888889 0.8108108 0.8611111 
> (data.frame(precision, recall, Fi)) 
precision recall Fi 
0.8888889 0.68888889 0.68888889 
0.8108108 0.8108108 0.8108108 
0.8611111 0.8611111 0.8611111 


fperformances macroscopiques du classifieur 
(macroPrecision<-mean(precision)) 
| [1] 0.8536036 

> (macroRecall<-mean(recall)) 

[1] 0.8536036 

> (macroFi<-mean(Fi)) 
| [1] 0.8536036 

> | 


VVVAUTm 


Allons-y maintenant pour la matrice one-vs-all et ses micrométriques: 
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MR RGui (64-bit) - [R Console] _ 


| File Edit View Misc Packages Windows Help FIX 


EE 


> fmatrice confusion oneVsAll 
> (oneVsAll<-lapply(i:nc, 
+ function(i)!{ 
+ v = c(cmli,il, 
- rowsums{i] - cmfli,i], 
+ colsums[i] - cmli,i], 
+ N-rowsums[{i] - colsums{i] + cmli,i]); 
+ return(matrix(v, nrow = 2, byrow = T)) 
+ 3 
à DD, 
à OR 
[[1]] 
[,1] [,2] 
[1,1 24 3 
1221 3 70 
[C(2]] 
[,1] [,2] 
[1,1] 30 7 
[2,1] 7 56 
[[3]1] 
[,1] [,2] 
[ts] 21 5 
12,1 5 59 
> 
> #fusion des matrices de confusion 
> s<-matrix(0, nrow = 2, ncol = 2) 
> for(i in 1 : nc){s = s + oneVsAll[[i]l]} 
> s 


[,1] [,2] 
[1,] 85 L5 
[2,] 15 185 
> 
> fexactitude moyenne 
> (avgAccuracy<-sum(diag(s)) / sum(s)) 
[1] 0.9 
> 
> #micro métriques moyennes 
> (micro prf<-(diag(s) / apply(s,i, sum))[1]) 
[1] 0.85 
> 


Et on peut aussi calculer le Kappa de Cohen: 
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MR RGui (64-bit) - [R Console] 


GR File Edit View Misc | Packages Windows Help 
STEIE 


> #Cohen's kappa 
> expAccuracy<-sum(p*a) 


> (kappa<-(accuracy - expAccuracy) / (1 - expAccuracy)) 
[1] 0.7729337 
> | 
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Exemple 364.: Calibration de modèles 
R 4.1.1 


Nous allons ici faire un exemple d'un concept que nous avons survolé dans le cours théorique 
et qui est la "calibration" d'un modèle. Malheureusement, je n'ai pas trouvé de package R qui 
puisse s'applique de manière générique à tous les modèles de machine learning auxquels la 
calibration s'impose. Le meilleur package existant à ce jour et à ma connaissance est le 
package CORElearn que nous allons utiliser ici. Il est cependant limité (vois la 
documentation du PDF de ce package pour plus de détails et mises à jour) à: 


e Classification: 
o Forêts aléatoires avec ou sans poids (exécution en parallèle sur plusieur cœurs) 
o Arbres de décisions 
o KkNN et kNN pondérés avec noyau gaussien 
o Classificateur bayésien naïf 


e  Régression: 
o Arbres de régression 
o Modèles linéaires avec prunnage 
o  Régression locale pondérée 
o K-NN et kNN pondérés avec noyau gaussien 


Nous pourrions nous concentrer sur le plus simple de tous et qui est facilement tractable à la 
main: le classificateur bayésien naïf! Cependant ce package ne gère que ce classificateur avec 
des entrées numériques et non textuelles. Donc x HÔUS nous reporterons sur le kKNN. 
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Nous allons donc reprendre le même exemple et le même jeu 
de données que celui à la page Exemple 349.: Clustering 


DBSCAN 
R 4.3.2 


Nous avons u dans le cours théoriquement que le DBSCAN est un algorithem de clustering 
non-linéaire très simple. Nous allons voir ici comment le mettre en pratique. 


Nous chargeons le jeu de données suivant: 


M] dbscan.csv - Notepad 


File Edit Format View Help 

"ID" » Ho OV ne shape" & 
"1",-0.803739264931451, -0.853052609097935,1 
"2",0.852850728148773,0.367618436999606 ,1 
"3",0.927179506105653,-0.274902437566225,1 
"4",-0.752626056626365,-0.511565170496435,1 
"5",0.706846224294882,0.81067919693492,1 
"6" ,1.0346985222527,0.394655023166806 ,1 
|"7",-0.475845197699957,0.989760805249143,1 
|"8",-0.460301566967151,-0.858997792847955,1 
"9" ,-0.680301544955355, -0.66149481321353,1 
"10",-1.03196929988978, -0.0219935446644728,1 
"11",-0.242498372239704,-1.05033275558452,1 
"12",-0.892258364269624, -0.339169233215386,1 
"13",-0.802034403520755,-0.77416776747668,1 
"14" ,-0.0471955691399568, -1.01613798584755,1 
"15",1.19470426661764, -0.269002460987329,1 
"16",-0.221487390175705,-0.919131895891675,1 
"17",-0.410475320013416,0.964479004794388,1 
"18",-0.838935270223631,-0.407979035023443,1 
"19",-0.889147510805223,0.614016108166731,1 
"20",0.905564127260602,0.184568396547991,1 
"21",-0.00579485156131487,-0.884430709419748,1 
"22",-0.703810394965576,0.54749249234897,1 
"23",-1.07081570617814,-0.158982746612178,1 
"24",1.00723761879231,0.385175352050115,1 
"25",-0.584861589344916,0.700117705614835,1 
"26",-0.881140152628223,-0.0118887593850608,1 
"27",0.326995042961589,0.998908556122335,1 
"28",-1.04762113766461,0.118543573060775,1 
"29",-0.119960489461039,-1.03541072663439,1 
"30",-0.785532935689462,0.713418469247788,1 
"31",0.64626878403344, -0.643552160711392,1 
"32",-0.224939369705449, -0.883275717806866,1 
"33",-0.719297745948344, -1.0133377180508,1 
"34",-0.495498158632031, -0.919302400100962,1 
"35",-0.865554333876342,-0.2556828217/707783,1 


|"36".-0.480275760487044.0.734425872156833.1 2 
Ln 1, Col4 100% Windows (CRLF) UTF-8 


Voyons à quoi cela ressemble visuellement dans un premier temps: 
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R R Console 


> mydata<-read.csv("c:/tmp/dbscan.csv", header=T) 
> plot (mydata[,2], mydataf,3],col =mydatalf, 4], pch = 19, cex = 0.8) 


mydatal, 2] 


Faisons d'abord un clustering avec la méthode des k-means juste pour voir. : 
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Fr 


RE Console = | E || & | 
> df <- mydataf, 2:3] 
> 
> library("factoextra") 
> km.res <- kmeans(df, S, nstart = 25) 
> fviz cluster (km.res, df, ellipse = FALSE, geom = "point") 
> | 
RR Graphics: Device 2 (ACTIVE) +55) 
Cluster plot 
1- 
E 
LL] 
à 
8 L 3 a 
cluster 
0- 
+ : 
5 A 2 
> æ 
… 3 
+ 4 
A5 - 
" es 5 
L | 
4- = PR u < " + + 
Le: se" = 
CRIER Cu CLR TE EL : 
: = u = "1". = 
= qe # 
+ 
F um BE a LE 
+ 
. # 
C] - LP «| CR CH 
] LR TT PR 
A 
LI …. = C] 
L] L 1 
L] 
1! ' ' : ! 
-2 -1 1 2 
x value 


Bref vu la non-linéarité du jeu de données, nous ne sommes pas trop étonnés de la médiocrité 
du résultat. 


Essayons maintenant avec la méthode DBSCAN: 
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> library("fpc") 
> dbscan<-dbscan(df, eps = 0.15, MinPts = 5) 
> dbscan 
dbscan Pts=1100 MinPts=5 eps=0.15s 
(e) 1 2 4 + 3 
border 31 24 1 5 T\Æ 
seed 0 386 404 99 92 50 
total 31 410 405 104 99 51 
> és df, main = "DBSCAN", frame = FALSE) 
> 


DBSCAN 


C'est beaucoup mieux et ce sans surprises! 
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Nous pouvons aussi voir à quel cluster appartient quel ligne de notre jeu de données comme 
suit: 


° RGui (64-bit) - [R Console] 


AR File Edit View Misc Packages Windows Help - x 


> dbscan$cluster{sample(1:1089, 50)] 

111222149342 122601411242221239314939323121T1122 
[39120 01221122 1T 

>| 


R 


Exemple 350.: Classification bayésienne naïve. 


R Statistical Software 2265/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Exemple 365.: Réseau de neurones de classification d'images 
R 3.6.2 x64 


L'exemple qui suit est totalement repris du tutorial disponible 1ci: 


https://tensorflow.rstudio.com/tutorials/beginners/basic-ml/tutorial_basic_classification/ 


Le jeu de données MNIST fashion qui va être utilisé dans ce qui suit est disponible ici: 


https://github.com/zalandoresearch/fashion-mnist 


Ou mis dans le dossier d'exercices de votre formateur si le lien ci-dessus n'est plus 
fonctionnel: 


Œ@ MNIST fashion_dataset.RData 
FE t10k-images-idx3-ubyte 
BB t10k-labels-idx1-ubyte 


E train-images-idx3-ubyte 
E train-labels-idx1-ubyte 


Le Fashion MNIST contient 70'000 images en niveaux de gris dans 10 catégories. Les images 
montrent des vêtements individuels à basse résolution (28 par 28 pixels), comme on le voit 
ici: 


Mn 2 
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Figure 306 Fashion-MNIST samples (by Zalando, MIT License). 
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Pour ceux qui souhaitent apprendre à créer des jeux d'images de ce type à partir de leur propre 
bibliothèque, nous les renvoyons à le lecture sur la gestion de listes R (voir page 296) et du 
Traitement d'images dans R (voir page 3005). 


D'abord nous chargeons toutes les librairies dont nous aurons besoin: 


R RGui (64-bit) - [R Console O 
R File Edit View Misc Packages Windows Help E X 


library("keras") 
library("tensorflow") 
library ("dplyr") 
library("tidyr") 
library("ggplot2") 


VVNNVNNVNV NV 


Nous chargeons le jeu de donnés directement depuis Keras avec la fonction suivante: 


R File Edit View Misc Packages Windows Help a x| 


> fashion mnist <- dataset fashion mnist() 
> ls) 
[1] "fashion mnist" 
> class(fashion mnist) 
[LT P1ist” 
> summary(fashion mnist) 
Length Class Mode 


train 2 -none- list 
test 2 -none- list 
> 


S1 Python ou Miniconda ne sont pas installés vous aurez: 
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GR RGuï (32-bit) - [R Console] 
R Fichier Edition Voir Misc Packages Fenêtres Aide 


intersect, setdiff, setequal, union 


> library("tidyr") 

> library("ggplot2") 

> fashion mnist <- dataset fashion mnist(}) 

No non-system installation of Python could be found. 

Would you like to download and install Miniconda? 

Miniconda is an open source environment management system for Python. 
See https://docs.conda.io/en/latest/miniconda.html for more details. 


Would you like to install Miniconda? [Y/n]: Y 

* Downloading "https://repo.anaconda.com/miniconda/Miniconda3-latest-Windows-x86.exe" ... 
essai de l'URL ‘https://repo.anaconda.com/miniconda/Miniconda3-latest-Windows-x86.exe" 
Content type ‘'application/octet-stream' length 52027160 bytes (49.6 MB) 

downloaded 49.6 MB 


* Installing Miniconda -- please wait a moment ... 
Collecting package metadata (current repodata.json): ...working... done 
Solving environment: ...working... done 


#$ Package Plan ## 
environment location: C:\Users\ADMINI-1\AppData\Local\R-MINI-1 


added / updated specs: 
- conda 


The following packages will be downloaded: 
package 


brotlipy-0.7.0 py38he774522 1000 
cà-certificates-2020.6.24 0 
certifi-2020.6.20 py38_0 
idna-2.10 py_0 
pip-20.1.1 py38_1 
pycparser-2.20 py_2 
pyopenssl-19.1.0 pPy_1l 
reéquests-2.24.0 py_0 
ruamel_yaml-0.15.87 py38he774522 1 
setuptools-49.2.0 py38_0 
six-1.15.0 py_0 
sqlite-3.32.3 h2asf88b 0 
taqdm-4.47.0 py_0 
urllib3-1.25.9 py_0 
vs2015 runtime-14.16.27012 hf0eafsb_3 

he774522 0 


à & à à à à à à à & à & à à à à 


É 
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R RGui (64-bit) - [R Console] _ 
ŒR File Edit View Misc Packages Windows Help 1-1: 
A 

Downloading and Extracting Packages 

pip-20.2.1 | 1.1 MB | ########## | 100% 

wWheel-0.34.2 | 24 KB | ########## | 100% 

intel-openmp-2020.1 | 1.6 MB | ########## | 100% 

liblapack-3.8.0 | 3.6 MB | ########## | 100% 

setuptools-49.2.1 | 937 KB | ########## | 100% 

vs2015 runtime-14.16 | 2.2 MB | ########## | 100% 

libcblas-3.8.0 | 3.6 MB | ########## | 100% 

vc-14.1 | 6 KB | ########## | 100% 

certifi-2020.6.20 | 152 KB | ########## | 100% 

mk1-2020.1 1 99.3 MB | ########## | 100% 

numpy-1.19.1 | 4.8 MB | ########## | 100% 

python abi-3.6 | 4 KB | ########## | 100% 

wincertstore-0.2 | 13 KB | ########## | 100% 

python-3.6.10 1 20.7 MB | ########## | 100% 

libblas-3.8.0 | 3.6 MB | ########## | 100% 

Preparing transaction: ...working... done 

Verifying transaction: ...working... done 

Executing transaction: ...working... done 

* 

# To activate this environment, use 

* 

* $ conda activate r-reticulate 

* 

# To deactivate an active environment, use 

* 

* $ conda deactivate 

* Miniconda has been successfully installed at "C:/Users/Administrator/AppData/Local/r-minicond$ 
Error: Installation of TensorFlow not found. 

Python environments searched for 'tensorflow' package: 

C:\Users\Administrator\AppData\Local\r-miniconda\envs\r-reticulate\python.exe 

You can install TensorFlow using the install tensorflow()}function. 

> - 

v 

< > 
Et dès lors vous pourrez charger le jeu de données sans erreurs: 

R RGui (64-bit) - [R Console] En 

ŒR File Edit View Misc Packages Windows Help ex 


SI 


> fashion mnist <- dataset fashion mnist() 
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/train-labels-idxl-ubyte.gz 


32768/29515 [===] — ({s lus/step 

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/train-images-idx3-ubyte.gz 
26427392/26421880 [===] - ]0s Ous/step 

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/tl0k-labels-idxl-ubyte.gz 
9192/5148 [amsn] — (4 Qus/step 

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/t10k-images-idx3-ubyte.gz 
4423600/4422102 [mm] - 2s Ous/step 

> 


On voit qu'une fois Miniconda installé, il nous est demandé d'installer Tensorflow avec la 
fonction install_tensorflow( ): 


R Statistical Software 2269/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


MR RGui (64-bit) - [R Console] = 


ŒR File Edit View Misc Packages Windows Help 6 x 


> install tensorflow() 
Collecting package metadata (current repodata.json): ...working... done 
Solving environment: ...working... done 


#* Package Plan *## 


environment location: C:\Users\Administrator\AppData\Local\r-miniconda\envs\r-reticulate 


added / updated specs: 
— python=3.6 


The following packages will be downloaded: 


package | build 
= (| = 
certifi-2020.6.20 | py36 0 156 KB 
python-3.6.10 | h9f7ef89 2 15.9 MB 
Total 16.1 MB 


The following NEW packages will be INSTALLED: 


sqlite pkgs/main/win-64::sqlite-3.32.3-h2a8f88b O0 
zlib pkgs/main/win-64::zl1ib-1.2.11-h62dcd97 4 


The following packages will be SUPERSEDED by a higher-priority channel: 


certifi conda-forge::certifi-2020.6.20-py36h9- --> pkgs/main::certifi-2020.6.20-py$ 
python conda-forge::python-3.6.10-he025d50 1- --> pkgs/main::python-3.6.10-n9f7ef$ 


Downloading and Extracting Packages 


certifi-2020.6.20 | 156 KB | ########## | 100% 

python-3.6.10 1 15.9 MB | ########## | 100% 

Preparing transaction: ...working... done 

vekifying transaction: ...working... done o 
< > 


On sépare les deux listes visibles ci-dessus et on fouille un peu leur contenu: 


MR RGui (64-bit) - [R Console] _— 


ŒR File Edit View Misc Packages Windows Help 


Er 


> #on sépare les deux listes du jeu de de données 
> c(train images, train labels) %<-$% fashion mnist$train 
> c(test images, test labels) %<-% fashion mnist$test 
> ls) 
[1] "fashion mnist" "test images" "test_labels" "train images" "train labels" 
> class(test_ images) 
[1] "array" 
> class(test labels) 
[1] "array" 
> str(test_ images) 
int [1:10000, 1:28, 1:28] O0 0 0 0 O O O O O 0 .. 
> str(test labels) 
À [1:10000(1d)] 9211614657 ... 
> 
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À ce stade, nous avons quatre tableaux: Les tableaux frain_images et train_labels sont 
l'ensemble d'apprentissage - les données que le modèle utilise pour apprendre. Le modèle est 
testé par rapport à l'ensemble de test: les tableaux fest_images et test labels. 


Les images sont chacune des tableaux de 28 x 28, aec des valeurs de pixels comprises entre 0 
et 255. Les étiquettes sont des tableaux d'entiers, allant de 0 à 9. Ils correspondent à la classe 
de vêtements que l'image représente: 


mie 
(io) 
ji o 
ES 


Class 
T-shirt/top 
Trouser 
Pullover 
Dress 
Coat 
Sandal 
Shirt 
Sneaker 
Bag 

Ankle boot 


SIDA BR ID D Im 


Explorons le format de l'ensemble de données avant d'entraîner le modèle. Ce qui suit montre 
qu'il y a 60'000 images dans le jeu d'apprentissage, chaque image étant représentée en 28 x 28 
pixels: 


R 

R File Edit View Misc Packages Windows Help 

SPEISIESCI CIE | 
> dim(train_ images) 


[1] 60000 28 28 
» | 


De même, il y a 60000 étiquettes dans le jeu d'entraînement: 


R 

f File Edit Viev Misc Packages Windows Help 
ÉACDCEICE 

> dim(train labels) 


[1] 60000 
> | 


Chaque étiquette est un entier compris entre 0 et 9: 


R Statistical Software 2271/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


R RGui 
R File Edit View Misc Packages Windows Help EX 


ÉBSOISESIAIE | 


> train labels[1:20] 
[11 900 302 72550955 191 06A 
> | 


Ensuite on créée un colonne de correspondance des numéros avec les étiquettes pour plus 
tard: 


R RGui O 
R File Edit View Misc Packages Windows Help - FX 
“Fa sEE CE 

> class names = c('T-shirt/top', 

+ "Trouser', 

+ "Pullover', 

+ "Dress", 

+ FCORË"; 

+ "Sandal', 

+ "Shirt, 

+ "Sneaker', 

+ "Bag", 

+ ‘Ankle boot) 

> | 


Il y a 10'000 images dans l'ensemble de test. Encore une fois, chaque image est représentée 
par 28 x 28 pixels: 


R File Edit View Misc Packages Windows Help _ 5 x 


> dim(test images) 
[1] 10000 28 28 
> 


E__—_——— =: — 


Et l'ensemble de test contient 10'000 étiquettes d'images: 
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R File Edit View Misc Packages Windows Help 
EROSOSIOIE 


> dim(test_ labels) 
[1] 10000 
> | 


Les données doivent être prétraitées avant d'entraîner le réseau de neurones. Si nous 


inspectons la première image de l'ensemble d'apprentissage, nous constaterons que les valeurs 
de pixel sont comprises entre 0 et 255: 
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Sciences.ch 


r 


R: EE 
> image 1 <- as.data.frame(train images![1l, , ]) 
> colnames (image 1) <- seq len(ncol(image 1)) 
> image 1$y <- seq len(nrow(image 1)) 
> image 1 <- gather(image 1, "x", "value", -y) 
> image 15x <-— as.integer(image 15$x) 
> 
> ggplot (image 1, aes(x = x, y = y, fill = value)) + 
+ geom tile() + 
+ scale fill gradient (low = "white", high = "black", na.value = NA) + 
+ scale y reverse() + 
+ theme minimal() + 
+ theme (panel.grid = element blank()) + 
+ theme (aspect.ratio = 1) + 
+ klab(""} + 
he ylab jun) 
> | 
Le nt ge, mere) 
R RES 
0 
10 
value 
250 
200 
150 
100 
50 
0 
20 
0 10 20 


Nous mettons ces valeurs à l'échelle de 0 à 1 avant d'alimenter le modèle de réseau neuronal. 


Pour cela, nous divisons simplement par 255. 


Il est important que l'ensemble d'entraînement et l'ensemble de test soient prétraités de la 


même manière: 
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Sciences.ch 


R 
R File Edit Viev Misc Pac 


ÉBSOISEES 


> train images <- train images / 255 
> test _images <- test images / 255 
> | 


Nous affichons les 25 premières images de l'ensemble d'entraînement et affichons le nom de 
la classe sous chaque image. Nous vérifiions que les données sont au bon format et nous 


sommes prêts à créer et à former le réseau: 


F 


ie ES 
> par(mfcol=c(s,5s)) 
> par(mar=c(0, 0, 1.5, 0), xaxs='i', yaxs="'i) 
> for (z in 1:25) 1‘ 
+ img <-— train images{i, , ] 
+ img <- t(apply(img, 2, rev)) 
+ image(1:28, 1:28, img, col = gray((0:255)/255), ‘n°, 
_ main = paste(class names[train labels{[i] + 1])) 
+} 
>| 
Le Al 
R =] | & | 


Ankle boot 


Pullover T-shirt/top 


T-shirt/top Sneaker An kle boot 


T-shirt/top Pullover Sandal 


Dress Sandal Sandal 


Trouser 


La construction du réseau neuronal nécessite la configuration des couches du modèle, puis la 


compilation du modèle. 
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Le bloc de construction de base d'un réseau neuronal est la couche. Les couches extraient des 
représentations des données qui y sont introduites. Et, espérons-le, ces représentations sont 
plus significatives pour le problème en question. 


La plupart de méthodes d'apprentissage profond consistent à enchaîner des couches simples. 
La plupart des couches, comme layer_dense, ont des paramètres qui sont appris pendant 


l'entraînement. 


Construisons le modèle: 


R 

R File Edit View Misc Packages Windows Help 

“FH CE 

> model <- keras model sequential() 

> model %5>% 

+ layer _flatten(input shape = c(28, 28)) +># 

- layer _ dense (units = 128, activation = 'relu') +>* 
- layer dense (units = 10, activation = 'softmax') 


> | 


La première couche de ce réseau, /ayer_flatten, transforme le format des images d'un array 2D 
(de 28 par 28 pixels), en un array 1d de 28*28 =ÿ84 pixels. Considérez ce calque comme un 
dépilage de lignes de pixels dans l'image et en les alignant. Cette couche n'a pas de paramètres 
à apprendre; 1l ne reformate que les données. 


Une fois les pixels aplatis, le réseau se compose d'une séquence de deux couches denses. Ce 
sont des couches neuronales densément connectées ou entièrement connectées. La première 
couche dense a 128 nœuds (ou neurones). La deuxième (et dernière) couche est une couche 
softmax à 10 nœuds. Elle renvoie un tableau de 10 scores de probabilité qui totalisent 1. 
Chaque nœud contient un score qui indique la probabilité que l'image actuelle appartienne à 
l'une des 10 classes de chiffres. 


Avant que le modèle ne soit prêt pour l'entraînement, il a besoin de quelques paramètres 
supplémentaires. Ceux-ci sont ajoutées lors de l’étape de compilation du modèle: 


e Fonction de perte (loss function) - Cela mesure la précision du modèle pendant 
l'entraînement. Nous voulons minimiser cette fonction pour «orienter» le modèle dans 
la bonne direction. 


e  Optimiseur (optimizer) - C'est ainsi que le modèle est mis à jour en fonction des 
données qu'il voit et de sa fonction de perte. 


e Mesures (metrics) - Utilisées pour surveiller les étapes de formation et de test. 
L'exemple suivant utilise la précision, la fraction des images correctement classées. 
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UR RGui (64-bit) - [R Console] — 
ŒR File Edit View Misc Packages Windows Help E x 


> 
_- 
+ 
+ 
+ 
> 


) 


model $5>$5 compile( 
optimizer = 'adam', 
loss = "sparse categorical crossentropy', 
metrics = c'accuracy') 


Nous lançons l'entraînement du modèle: 


> model %>% 
Epoch 1/60 

1875/1875 - 
Epoch 2/60 

1875/1875 - 
Epoch 3/60 

1875/1875 - 
Epoch 4/60 

1875/1875 - 
Epoch 5/60 

1875/1875 - 
|Epoch 6/60 

1875/1875 - 
Epoch 7/60 

1875/1875 - 
|Epoch 8/60 

1875/1875 - 
Epoch 9/60 

1875/1875 - 
Epoch 10/60 
1875/1875 - 
Epoch 11/60 
1875/1875 - 
Epoch 12/60 
1875/1875 - 
Epoch 13/60 
1875/1875 - 
Epoch 14/60 
1875/1875 - 
Epoch 15/60 
1875/1875 - 
Epoch 16/60 
1875/1875 - 
| Epoch 17/60 
1875/1875 - 
Epoch 18/60 
1875/1875 - 
Epoch 19/60 
1875/1875 - 
Epoch 20/60 
1875/1875 - 
Epoch 21/60 
1875/1875 - 
Epoch 22/60 
1875/1875 - 
Epoch 23/60 
1875/1875 - 
Epoch 24/60 
1875/1875 - 
Epoch 25/60 
1875/1875 - 
Epoch 26/60 
1875/1875 - 
Epoch 27/60 
1875/1875 - 
Epoch 28/60 


MR RGui (64-bit) - 
ŒR File Edit View Misc 


[R Console] 


fit(train images, 


1s 


1s 


1s 


1s 


1s 


1s 


1s 


1s 


1s 


1s 


1s 


1s 


1s 


1s 


1s 


1s 


1s 


1s 


1s 


1s 


1s 


1s 


1s 


1s 


1s 


1s 


1s 


— loss: 


— loss: 


- loss: 


- loss: 


— loss: 


- loss: 


- loss: 


- loss: 


- loss: 


— loss: 


- loss: 


- loss: 


- loss: 


— loss: 


- loss: 


- loss: 


- loss: 


— loss: 


- loss: 


- loss: 


- loss: 


— loss: 


- loss: 


- loss: 


- loss: 


— loss: 


- loss: 


3.5143 


0.7294 


0.6506 


0.5350 


0.5084 


0.5025 


0.4859 


0.4791 


0.4829 


0.4687 


0.4745 


0.4644 


0.4699 


0.4632 


0.4640 


0.4593 


0.4513 


0.4547 


0.4524 


0.4595 


0.4515 


0.4473 


0.4458 


0.4445 


0.4371 


0.4594 


0.4381 


Packages Windows Help 


train labels, 
— accuracy: 0 
— accuracy: 0 
— accuracy: 0 
— accuracy: 0 
- accuracy: 0 
— accuracy: 0 
—- accuracy: 0 
- accuracy: 0 
— accuracy: 0 
— accuracy: 0 
- accuracy: 0 
— accuracy: 0 
—- accuracy: 0 
— accuracy: 0 
— accuracy: 0 
- accuracy: 0 
— accuracy: 0 
— accuracy: 0 
— accuracy: 0 
- accuracy: 0 
—- accuracy: 0 
— accuracy: 0 
—- accuracy: 0 
— accuracy: 0 
— accuracy: 0 
— accuracy: 0 


- accuracy: 0 


epochs = 
.6904 
.7319 
-7651 
.8105 
-8215 
-8253 
-8301 
.8306 
.-8306 
-8359 
-8331 
.8374 
.8383 
-8416 
-8413 
.8415 
.8452 
-8450 
.8440 
.8436 
.8440 
-8469 
-8475 
.8468 
.8491 
-8460 


-8497 


60, verbose = 
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Au fur et à mesure que le modèle s'entraîne, les mesures de perte et de précision sont 
affichées. Ce modèle atteint une précision d'environ 0.88 (ou 88%) sur les données 
d'entraînement. 


Ensuite, comparons les performances du modèle sur l'ensemble de données de test: 


R File Edit View Misc Packages Windows Help … 


> (score <- model $5>$ evaluate(test_ images, 
loss accuracy 
0.5808792 0.8361000 


> | 


test _labels, verbose 


Il s'avère que la précision sur l'ensemble de données de test est un peu inférieure à la précision 
sur l'ensemble de données d'entraînement. Cet écart entre la précision de l'entraînement et la 
précision du test est un exemple de surajustement. Le surajustement se produit lorsqu'un 
modèle d'apprentissage automatique fonctionne moins bien sur de nouvelles données que sur 
leurs données d'entraînement. 


s A2 1: AC . 2 1° . s 
Avec le modèle entraîné, nous pouvons l'utilisekpour faire des prédictions sur certaines 
images: % 


R File Edit View Misc Packages Windows Help ar 


> predictions <- model $>$ predict (test images) 


| 
1>| 


Ici, le modèle a prédit l'étiquette pour chaque image de l'ensemble de test. Jetons un coup 
d'œil à la première prédiction: 
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R File Edit View Misc Packages Windows Help x 


D 


> predictions{l, ] 

| [1] 0.000000e+00 4.498235e-21 0.000000e+00 1.138550e-32 0.000000e+00 1.517830e-03 0.000000e+00 1.010724e-01 
[9] 2.594610e-24 8.974098e-01 

>| 


Une prédiction est un tableau de 10 nombres. Celles-ci décrivent la «confiance» du modèle 
que l'image correspond à chacun des 10 vêtements différents. Nous pouvons voir quelle 
étiquette a la valeur de confiance la plus élevée: 


R FGu 4-bit [F ! e] _— 


R File Edit View Misc Packages Windows 


> which.max(predictions{l, ]|) 


QŸ” 


Alternativement, nous pouvons également obtenir directement la prédiction de classe: 


R RGui (64-bit) - [F nsole] ES 


R File Edit View Misc Packages Windows Help | ER) LR 


> class pred <- model $5>$ predict classes(test images) 

|> class pred[1:20] 
[11]132116146574553412280 

> | 


Comme les étiquettes sont labelisées à partir du nombre O, cela signifie en fait une étiquette 
prédite de 9 (à trouver dans class_names [9]). Le modèle est donc le plus convaincu que la 
première image est une bottine. Et nous pouvons vérifier l'étiquette de test pour voir que c'est 
correct: 
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Sciences.ch 


R 
BR File Edit View Misc 


Windows Help 


> test _ labels{1] 
| [1] 9 


2 


Tracons plusieurs images avec leurs prédictions. Les étiquettes de prédiction correctes sont 


vertes et les étiquettes de prédiction incorrectes sont rouges: 


EG 


R EU RES 

> par(mfcol=c(5,5)) 

> par(mar=c(0, O0, 1.5, 0), xaxs='i", yaxs="'i) 

> for (i in 1:25) { 

+ img <- test_images{i, , ] 

+ img <- t(apply(img, 2, rev)) 

FE # subtract 1 as labels go from 0 to 9 

+ predicted label <- which.max(predictions{i, ]) - 1 

true label <- test _labels{i] 

+ if (predicted label == true label) { 

+ color <- '#008800" 

- } else !{ 

+ color <- '#bb0000! 
l+ 7} 
R + image(1:28, 1:28, img, col = gray((0:255)/255), xaxt = 'n', yaxt = 'n', 
| + main = pasteO(class names[predicted label + 1], " (", 

class names{(true label + 1], ")"), 
col.main = color) 

+ } 
> 1 
| MR HER E4 


T-shirt/top [shirüto 


Trouser (Tr 


| 


] 


Shirt (Pullover 


Trouser (Trouser Shirt (Shirt Sandal (Sneaker Pullover (Coat Sneaker (Sneaker 
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Enfin, utilisons le modèle entraîné pour faire une prédiction sur une seule image. 


| R RGui (64-bit) - [R Console] : 0 


R File Edit View Misc Packages Windows Help El iX 


[> img <- test_images{l, , , drop = FALSE] 
[> dim(img) 
[1] 1 28 28 
> | 


Maintenant, prédisons l'image: 


R RGui (64-bit) - [R Console] ; oO 


R File Edit View Misc Packages Windows Help ) 


> predictions <- model $5>% predict{img) 
> predictions 


[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] 
[1,] 2.250466e-16 5.362962e-21 2.949739e-18 7.158792e-31 2.194592e-21 5.439788e-09 1.345629e-18 1.703493e-07 
[,9] [,10] 
[1,] 3.718805e-18 0.9999999 
> 


La fonction predict( ) renvoie une liste de listes, <une pour chaque image du lot de données. 
Prenons les prédictions pour notre (seule) imagé‘dans le lot: 


 RGui (64-bit) - [R Console] - O 


GR File Edit View Misc Packages Windows Help | IX 


EC) 


> prediction <- predictions{[l, ] - 1 
> which.max(prediction) 
[1] 10 


> | 


Ou, obtenir à nouveau directement la prédiction de classe: 


UR RGui (64-bit) - [R Console] — ( 


R File Edit View Misc Packages Windows Help SI: 


> class pred <- model $5>$5 predict classes(img) 
> class pred 

[11 9 

>| 
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Voici le script complet au besoin: 


library("keras") 
library ("tensorflow") 
library("dplyr'") 
library("tidyr") 
library ("ggplot2") 


fashion mnist <- dataset fashion mnist() 


on sépare les deux listes du jeu de de données 
c(train images, train labels) %<-% fashion mnist$train 
c(test images, test labels) %<-% fashion mnist$test 


class names = c('T-shirt/top', 
"Trouser', 
"'Pullover', 
"Dress", 
"Coat', 
"Sandal', 
"Shirt', 
"Sneaker', 
"Bag', 
"'Ankle boot) 


dim(train images) 
dim(train labels) 
train labels[1:20] 
dim(test images) 
dim(test labels) 


image 1 <- as.data.frame(train images[1, , |) 
colnames (image 1) <- seq len(ncol(image 1)),c 


N 
image 1$y <- seq len(nrow(image 1)) Ÿ 
image 1 <- gather(image 1, "x", "value", -y) 


image 1$x <- as.integer(image 1$x) 


ggplot(image 1, aes(x = x, y = y, fill = value)) + 
geom tile() + 
scale fill gradient (low = "white", high = "black", na.value = NA) + 
scale y reverse() + 
theme minimal() + 
theme (panel.grid = element blank()) + 
theme (aspect.ratio = 1) + 
xlab("") + 
ylab("") 


train images <- train images / 255 
test images <- test images / 255 


par(mfcol=c(5,5)) 
par(mar=c(0, 0, 1.5, 0), xaxs='"i', yaxs="i) 
for (i in 1:25) { 
img <- train images{i, , ] 
img <- t(apply(img, 2, rev)) 
image(1:28, 1:28, img, col = gray((0:255)/255), xaxt = 'n', yaxt = 'n', 
main = paste(class names[train labels[i] + 1])) 


} 


model <- keras model sequential() 

model %5>% 
layer flatten(input shape = c(28, 28)) %>% 
layer dense (units = 128, activation = 'relu') %>% 
layer dense (units = 10, activation = 'softmax') 


model $%>% compile ( 
optimizer = 'adam', 
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loss = 'sparse categorical crossentropy', 

metrics = c('accuracy') 
) 
model %>% fit(train images, train labels, epochs = 60, verbose = 2) 
score <- model %>% evaluate(test images, test labels, verbose = 0) 


cat ("Test loss:', score$loss, "\n") 


cat ('Test accuracy:', score$acc, "\n") 
predictions <- model %>% predict(test images) 
predictionsfl, ] 

which.max(predictions[l1l, ]) 


class pred <- model %>% predict classes (test images) 
class pred[1:20] 


par(mfcol=c(5,5)) 
par(mar=c(0, 0, 1.5, 0), xaxs='i', yaxs="i) 
for (i in 1:25) 
img <- test images[i, , ] 
img <- t(apply(img, 2, rev)) 
# subtract 1 as labels go from 0 to 9 


predicted label <- which.max(predictions{[i, ]) - 1 
true label <- test labels!{i] 
if (predicted label == true label) !{ 
color <- '#008800' 
} else { 


color <- "'#bb0000! 
} 


image(1:28, 1:28, img, col = gray ((0:255855), xaxt = 'n', yaxt = 'n', 
main = paste0(class names[predict@® label RE PRE Ce 
class names[true label + 1], ")"), 
col.main = color) 


} 


# Grab an image from the test dataset 
# take care to keep the batch dimension, as this is expected by the model 


img <- test images[1, , , drop = FALSE] 
dim(img) 


predictions <- model %>% predict(img) 
predictions 


# subtract 1 as labels are 0-based 
prediction <- predictions[1, ] - 1 
which.max (prediction) 


class pred <- model %>% predict classes (img) 
class pred 
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Exemple 366.: Techniques de cross-over (validation) 
R 3.5.1 


Nous allons voir ici quelques techniques de cross-over dont nous avons parlé dans le cours 
théorique (et pour certaines dont nous avons démontré mathématiquement les détails de 
méthodes de calculs). 


Ici vous ne trouverez rien d'original car Jason Brownlee a écrit bien avant moi un article de 
blog qui présent de façon suffisamment complète (mais avec le jeu de données bateau ris...) 
le sujet pour que je n'aie pas besoin de recréer la roue. Voici au besoin le lien vers l'article 
d'origine datant de septembre 2015: 


https://machinelearningmastery.com/how-to-estimate-model-accuracy-in-r-using-the-caret-package/ 


Nous chargeons le package caret et le jeu de données Iris sur lequel sont basés tous les 
exemples: 


| R 
| R File Edit View Misc Packages Windows Help 


| 


> library("caret") 
> data(iris) 
> head(iris) 
Sepal.Length Sepal.Width Petal.Length Petal.Width Species 


| ER 1 3.5 1.4 0.2 setosa 

|2 4.9 3.0 1.4 0.2 setosa 

13 4.7 32 3:53 0.2 setosa 

| 4 4.6 at L:5 0.2 setosa 

[5 5.0 3.6 1.4 0.2 setosa 

| 6 5.4 3.9 1-7 0.4 setosa 

[> summary(iris,S0) | 
Sepal.Length Sepal.Width Petal.Length Petal.Width Species 
Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100 setosa :50 
ist Qu.:5.100 ist QOu.:2.800 ist Qu.:1.600 ist Qu.:0.300 versicolor:5s0 
Median :5.800 Median :3.000 Median :4.350 Median :1.300 virginica :50 
Mean :5.843 Mean :3:057 Mean :3.758 Mean :1.199 
3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800 
Max. :7.900 Max. :4.400 Max. 6.900 Max. 2.500 


» 


Méthode de partition (data split) 


La méthode de partition de données implique le fractionnement des données en un jeu de 
données d'apprentissage explicite utilisé pour préparer le modèle et un jeu de données de test 
non utilisé pour évaluer les performances du modèle sur des données considérées comme 
"invisibles". 


Cela est utile lorsque vous avez un très grand ensemble de données afin que le jeu de données 
test puisse fournir une estimation significative des performances du modèle entraîné. 


L'exemple ci-dessous divise l'ensemble de données /ris de sorte que 80% soit utilisé pour 
l'apprentissage d'un modèle bayésien naïf et 20% pour évaluer les performances du modèle en 
utilisant les fonction createDataPartition( ) et NaiveBayes( ) en particulier: 
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R rG t)-[RC le] [] 


R File Edit View Misc Packages Windows Help … x 


> library("klaR") 
> #On définit un jeu de 80%/20% d'entraînement/test du jeu Iris 
> split<-0.80 
> trainIndex<-createDataPartition(iris$Species, p=split, list=FALSE) 
> data train<-iris{ trainIndex,] 
> data test<-iris[-trainIndex,] 
> #On entraine un modèle naïf bayésien 
> modèle<-NaiveBayes (Species-., data=data train) 
> #On fait des prédictions 
> x test<-data test{[,1:4] 
> y_test<-data_ test[,5] 
> predictions <- predict (modèle, x_ test) 
> #Résumé de la performance du modèle sur la base d'une matrice de confusion 
> confusionMatrix(predictions$class, y test) 
Confusion Matrix and Statistics 
Reference 

Prediction setosa versicolor virginica 

setosa 10 0 0 

versicolor (e] 10 1 

virginica 0 0 9 


Overall Statistics 
Accuracy : 0.9667 
95% CI : (0.8278, 0.9992) 
No Information Rate : 0.3333 
P-Value [Acc > NIR] : 2.963e-13 


Kappa : 0.95 
Mcnemar's Test P-Value : NA 


Statistics by Class: 


Class: setosa Class: versicolor Class: virginica 


Sensitivity 1.0000 1.0000 0.9000 
Specificity 1.0000 0.9500 1.0000 
Pos Pred Value 1.0000 0.9091 1.0000 
Neg Pred Value 1.0000 1.0000 0.9524 
Prevalence 1:3333 0.3333 0:3333 
Detection Rate 0.3333 0.3333 0.3000 
Detection Prevalence 0.3333 0.3667 0.3000 
Balanced Accuracy 1.0000 0.9750 0.9500 
> | 

Bootstrapping 


Le rééchantillonnage bootstrap comme nous le savons déjà (voir page 1969) consiste à 
prendre des échantillons aléatoires de l'ensemble de données (avec une re-sélection) par 
rapport à laquelle évaluer le modèle. Dans l'ensemble, les résultats fournissent une indication 
de la variance de la performance des modèles. En règle générale, un grand nombre d'itérations 
de rééchantillonnage sont effectuées (des milliers ou des milliers). 


L'exemple suivant utilise un bootstrap avec 10 rééchantillonnages pour préparer un modèle 
bayésien naïf en utilisant principalement les fonctions trainControl( ) et train( ): 
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MR RGui (64-bit) - [R Console] _ (mi 


R File Edit View Misc Packages Windows Help _ EF x 


> train control<-trainControl (method="boot", number=100) 
> fmodèle d'entraînement 
> modèle<-train(Species-+., data=iris, trControl=train control, method="nb") 
Warning message: 
In FUN(X[[i]], ...) 
Numerical 0 probability for all classes with observation 21 
> predictions<-predict (modèle, x_ test) 
> frésumé du modèle 
> modèle 
Naive Bayes 


| 150 samples 
4 predictor 
3 classes: 'setosa', 'versicolor', "'virginica' 


No pre-processing 

Resampling: Bootstrapped (100 reps) 

Summary of sample sizes: 150, 150, 150, 150, 150, 150, ... 
Resampling results across tuning parameters: 


usekernel Accuracy Kappa 
FALSE 0.9496490 0.9236300 
TRUE 0.9521745 0.9274732 


Tuning parameter 'fL' was held constant at a value of 0 
Tuning parameter 'adjust' was 
held constant at a value of 1 
Accuracy was used to select the optimal model using the largest value. 
HT final values used for the model were fL = 0, usekernel = TRUE and adjust = 1. 
” 


CO 
S 
Ÿ 


Et la performance du modèle toujours avec la Matrice de confusion donne: 
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Sciences.ch 


| R File Edit View Misc Packages Windows 


OISGSIOIE 


Help 


> confusionMatrix(predictions, y test) 
Confusion Matrix and Statistics 
Reference 
Prediction setosa versicolor virginica 
| setosa 10 0 
versicolor (e] 10 L 
virginica 0 9 


Overall Statistics 


Statistics by Class: 


Class: 
Sensitivity 
Specificity 
Pos Pred Value 
Neg Pred Value 
Prevalence 
Detection Rate 
Detection Prevalence 
Accuracy 
> 


K-enveloppes (K folds) 


Kappa : 0.95 
Mcnemar's Test P-Value : NA 


Accuracy : 0.9667 
95$ CI : (0.8278, 

No Information Rate : 0.3333 
P-Value [Acc > NIR] : 2.963e-13 


0.9992) 


setosa Class: 


HOOCOOPHEHH 


-0000 
-0000 
-0000 
-0000 
3333 
-3333 
-3333 
-0000 


versicolor Class: virginica 


L= 
-9500 
3091 
-0000 
53333 
-3333 
-3667 
-9750 


OO0O0OMmOO 


0000 


0. 
-0000 
-0000 
.9524 
-.3333 
-3000 
-.3000 
.-9500 


OO O0O0 0 À M 


3000 


Le processus de fractionnement peut être répété plusieurs fois sur le jeu des données 
d'entrainement en K fractions. La précision finale du modèle est prise comme la moyenne (ou 
autre comme la médiane!) du nombre de répétitions. 


L'exemple suivant utilise une validation croisée de 10 fois avec 3 répétitions pour estimer 


l'algorithme de classification bayésien naïf sur le jeu de données /ris en utilisant 
principalement les fonctions trainControl( ) et train( ): 
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MR RGui (64-bit) - [R Console] _ ; 
GR File Edit View Misc Packages Windows Help A 


train control<-trainControl (method="repeatedcv", number=10, repeats=3) 
fentraînement du modèle 

modèle<-train(Species-., data=iris, trControl=train control, method="nb") 
frésumé du modèle 

modèle 

Naive Bayes 


VVYVNVNVV 


150 samples 
4 predictor 
3 classes: 'setosa', 'versicolor', "'virginica' 


No pre-processing 

Resampling: Cross-Validated (10 fold, repeated 3 times) 
Summary of sample sizes: 135, 135, 135, 135, 135, 135, ... 
Resampling results across tuning parameters: 


usekernel Accuracy Kappa 
FALSE 0.9533333 0.9300000 
TRUE 0.9577778 0.9366667 


Tuning parameter 'fL' was held constant at a value of 0 
Tuning parameter 'adjust' was 
held constant at a value of 1 
Accuracy was used to select the optimal model using the largest value. 


The final values used for the model were fL = 0, usekernel = TRUE and adjust = 1. 
> | 
K 
Ÿ 


Et la performance du modèle toujours avec la Matrice de confusion donne: 
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R 
R File Edit View Misc Packages Windows Help 1x 


> predictions<-predict (modèle, x _ test) 
> confusionMatrix(predictions, y test) 
Confusion Matrix and Statistics 


Reference 
Prediction setosa versicolor virginica 
setosa 10 0 0 
versicolor 0 10 L 
virginica (e] (e) 9 


Overall Statistics 
Accuracy : 0.9667 
95% CI : (0.8278, 0.9992) 
No Information Rate : 0.3333 
P-Value [Acc > NIR] : 2.963e-13 


Kappa : 0.95 
Mcnemar's Test P-Value : NA 


Statistics by Class: 


Class: setosa Class: versicolor Class: virginica 


Sensitivity 1.0000 1.0000 0.9000 
Specificity 1.0000 0.9500 1.0000 
Pos Pred Value 1.0000 0.9091 1.0000 
Neg Pred Value 1.0000 1.0000 0.9524 
Prevalence 0.3333 00-3333 0.3333 
Detection Rate 0.3333 0.3333 0.3000 
Detection Prevalence 0.3333 0.3667 0.3000 
Balanced Accuracy 1.0000 0.9750 0.9500 
> | 
Ÿ 


Leave One Out Cross Validation/LOOC V (jackknife) 


Dans la méthode LOOCV (Leave One Out Cross Validation), une unique instance de données 
est laissée de côté et un modèle est construit sur toutes les autres instances de données du jeu 
d'apprentissage. Ceci est répété pour toutes les instances de données (c'est du jacknife quoi. 
comme déjà vu à la page 1978). 


L'exemple suivant montre que LOOCV permet d'estimer Naive Bayes sur l'ensemble de 
données /ris en utilisant principalement les fonctions trainControl( ) et train( ): 
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MR RGui (64-bit) - [R Console] — (ml 


R File Edit View Misc Packages Windows Help _ Es x 


train control <- trainControl (method="LOoOoCv") 

tentraînement du modèle 

modèle<-train(Species-., data=iris, trControl=train control, method="nb") 
#résumé du modèle 

modèle 

Naive Bayes 


VVNVNNVV 


150 samples 
4 predictor 
3 classes: 'setosa', 'versicolor', "'virginica' 


No pre-processing 

Resampling: Leave-One-Out Cross-Validation 

Summary of sample sizes: 149, 149, 149, 149, 149, 149, ... 
Resampling results across tuning parameters: 


usekernel Accuracy Kappa 
FALSE 0-9533333 0.93 
TRUE 0.9600000 0.94 


Tuning parameter 'fL' was held constant at a value of 0 

Tuning parameter 'adjust' was 

held constant at a value of 1 

Accuracy was used to select the optimal model using the largest value. 

ar final values used for the model were fL = 0, usekernel = TRUE and adjust = 1. 
> 


D 
Ÿ 
Et la performance du modèle toujours avec la matrice de confusion donne: 
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R RGui (64-bit) - [R Console] = me | 


ŒR File Edit View Misc Packages Windows Help OC E 


Bal) el] À 


> predictions<-predict (modèle, x _ test) 
> confusionMatrix(predictions, y_ test) 
Corfusion Matrix and Statistics 


Reference 
Prediction setosa versicolor virginica 
setosa 10 0 0 
versicolor (e) 10 z 
virginica (e) 0 9 


Overall Statistics 
Accuracy : 0.9667 
95$ CI =: (0.8278,, 0.9992) 
No Information Rate : 0.3333 
P-Value [Acc > NIR] : 2.963e-13 


Kappa : 0.95 
Mcnemar's Test P-Value : NA 


Statistics by Class: 


Class: setosa Class: versicolor Class: virginica 


Sensitivity 1.0000 1.0000 0.9000 
Specificity 1.0000 0.9500 1.0000 
Pos Pred Value 1.0000 0.9091 1.0000 
Nec Pred Value 1.0000 1.0000 0.9524 
Prevalence 0:3333 0.353333 0.553533 
Detection Rate 0.3333 0.3333 0.3000 
Detection Prevalence 0.3333 0.3667 0.3000 
tr Accuracy 1.0000 0.9750 0.9500 
> 
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Exemple 367.: Deep Learning 
R 3.5.3 


Nous allons faire un exemple de Deep Learning ici sur de l'imagerie et plus particulièrement 
sur un exemple et jeu de données académique fameux qu'est le MNIST (déjà rencontré plus 
haut): 


http://yann.lecun.com/exdb/mnist/ 


BB MNIST handwritten digit d X + 


< C 88 | © Notsecure  yann-lecun.com/exdb/mnist, 


, THE MNIST DATABASE 


= of handwritten digits 


Yann LeCun, Courant Institute, NYU 
> Corinna Cortes, Google Labs, New York 
Christopher J.C. Burges. Microsoft Research, Redmond 


ŒeD The MNIST database of handwritten digits, available from this page, has a training set of 60,000 examples, and a test set of 
10,000 examples. It is a subset of a larger set available from NIST. The digits have been size-normalized and centered in a fixed- 
size image. | 


It is a good database for people who want to try learning techniques and pattern recognition methods on real-world data while 
(ER spending minimal efforts on preprocessing and formatting. 


Four files are available on this site: 


train-images-idx3-ubyte.gz: training set images (9912422 bytes) 

train-labels-idx1-ubyte.gz: training set labels (28881 bytes) | 
t10k-images-idx3-ubyte.gz: test set images (1648877 bytes) 

t10k-labels-idx1-ubyte.gz: test set labels (4542 bytes) 


please note that your browser may uncompress these files without telling you. If the files you downloaded have a larger size 
than the above, they have been uncompressed by your browser. Simply rename them to remove the .gz extension. Some people 

have asked me "my application can't open your image files". These files are not in any standard image format. You have to write 
your own (very simple) program to read them. The file format is described at the bottom of this page. | 


The original black and white (bilevel) images from NIST were size normalized to fit in a 20x20 pixel box while preserving their | 
aspect ratio. The resulting images contain grey levels as a result of the anti-aliasing technique used by the normalization 

algorithm. the images were centered in a 28x28 image by computing the center of mass of the pixels, and translating the image 

50 as to position this point at the center of the 28x28 field. 


With some classification methods (narticuarlv temnlate-hbased methods such as SVM and K-nearest neichhors) the error rate à 


La base de données MNIST pour Mixed National Institute of Standards and Technology, est 
une base de données de chiffres écrits à la main. C'est un jeu de données très utilisé en 
apprentissage automatique. 


La reconnaissance de l'écriture manuscrite est un problème difficile, et un bon test pour les 
algorithmes d'apprentissage. La base MNIST est devenu un test standard. Elle regroupe 
60'000 images d'apprentissage et 10'000 images de test, issues d'une base de données 
antérieure, appelée simplement NIST. Ce sont des images en noir et blanc, normalisées 
centrées de 28 pixels de côté (soit 28 x 28 = 784 points): 
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Li en El 
28x28=784 


60'000 
000006000p06c02000 
ANR P22210/ 720 RNENPAIE 
222224222242 242BR22 
283366500060 EG0583E 
AH 4AGUYI4dA GAY AY 
55585 SSASSSSsET,S 
beCELCEeLbE 6e ECG 
021002020022 1r2/r2r 
HAINE 
» alallalalalslalalalalallalæ)lala 


Une fois les fichiers téléchargés, nous vous conseillons de le renommer et classer comme suit: 
OS (C:) tmp MNIST 
Name 


E t10k-images-idx3-ubyte 


E t10k-labels-idx1-ubyte 
FE train-images-idx3-ubyte 
Fi train-labels-idx1-ubyte 


# 


D'abord nous allons charger le package deepnet et utiliser sa fonction dédiée au chargement 
de MNIST: 
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Sciences.ch 


R RGui (64-bit) - [R Console] 


GR File Edit View Misc Packages 


ET) 


Windows 


Help 


| > library("deepnet") 
> mnist <-— load.mnist("c:/tmp/MNIST/") 


> 


Découvrons un peu le jeu de données: 


| R RGui (64-bit) - [R Console] 


ŒR File Edit View Misc Packages Windows Help 


> #nombre d'images 

> mnistS$train$n 

[1] 60000 

> head(mnist$trainSx,1) 

[1,1] 0 0 0 0 0 

E4;1 0 0 0 0 

[1,1] 0 0 0 0 

[1,1] 0 0 0 0 

[11 0 0 0 0 

[1,1] 0 0 0 

[1,1] 0 0 0 0 
[,100] [,101] [,102] [,103] 

[1,1 0 0 0 0 
[:112] [,113] [,114] [,115] 

[1,1] 0 0 0 0 

[,124] [,125] [,126] [,127] 
0 0 0 


[,136] [,137] [,138] [,139] 


[,72] [1,73] [,74] [,75] [,76] 
0 


[,1] [,2]1 [,3] [,4]1 [,5] [,6] 


0 


[16] [,17] [,18] [,19] [,20] 


0 


[30] [,31] [,32] [,33] [,34] 


0 


[,44] [,45] [,46] [,47] [,48] 


0 


[,58] [1,59] [,60] [,61] [,62] 


0 


0 


[86] [1,87] [,88] [,89] [,90] 


0 


In 
Cr 
[ 


[,7] 
0 
[21] 
0 
[,35] 
0 
[,49] 
0 
[,63] 
0 
[77] 
0 
[,91] 
0 
104] 
0 
116] 
0 
128] 


[,8] [, 


0 

[,22] 
0 
[36] 
0 
[50] 
0 
[64] 
0 

[, 78] 
0 

[, 921 
0 
[,105] 
0 
[117] 
0 
[,129] 
0 


[,141] 
0 
[,153] 
3 
[,165] 
0 
[1,177] 
30 
[,189] 
293 
[,201] 
0 
[213] 
253 
[,225] 
0 
[237] 
253 
[,249] 
0 
[,261] 
80 
[,273] 
0 
[,285] 
0 


9] [,10] [,11] 


0 
[,23] 
0 
[37] 
0 
[,51] 
0 
[, 65] 
0 
[,79] 
0 


[93] 

( 
[,106] 
0 
[,118] 
0 
[,130] 
0 


[,142] 
0 
[,154] 
18 
[,166] 
0 
[1,178] 
36 
[,190] 
242 
[,202] 
0 
[,214] 
251 
[,226] 
0 
[,238] 
253 
[,250] 
0 


[,262] 
156 
[,274] 
0 


[,286] 
0 


0 


[,12] 
0 


[,24] [,25S] [, 


0 


0 


[,38] [,39] I, 


0 


0 


[52] [,53] [, 


0 


0 


[66] [1,67] [, 


0 


0 


[,80] [,81] [, 
0 0 


[,94] [,95] [, 


0 
[,107] 
0 
[,119] 
0 
[,131] 
0 


[143] 
0 


[:1551 
18 
[,167] 
0 
L:1791 
34 


0 
[,108] 
0 
[,120] 
0 
[,132] 
0 


[,144] 
0 
[,156] 
18 
[,168] 


[13] 
0 


26] [,27] 


0 


0 


40] [,41] 


0 


0 


54] [,55] 


0 


0 


68] [,69] 


0 


0 


82] [,83] 


0 


0 


96] [,97] 


0 

[,109] 
0 
[:121] 
0 
[133] 
0 
[,145] 
0 
[,157] 
126 
[,169] 


0 


[; 
[, 
[, 
[; 
[; 
[, 


> #une image est en vecteur ligne (sic!), donc le vecteur aura 28x28=712 colonnes 


0 
[,28 


[,42 
[,56 
[,70 
[,84 
[,98 


110] 
0 
122] 
0 
134] 
0 
146] 
0 
158] 
136 
170] 


] 
0 
] 
0 
] 
0 


] 
0 


] 
0 
] 
0 


[,14] [,15] 


0 
[,29] 
0 
[,43] 
0 
[,57] 
0 
[,71] 
0 
[,85] 
0 


[7 99] 
0 
[,111] 
0 
[,123] 
0 
[,135] 
0 


[,147] 
0 
[,159] 
175 
L:21711 


Continuons à découvrir: 
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MR RGui (64-bit) - [R Console] — (m] X 
ŒR File Edit View Misc Packages Windows Help x 


ESOISESINIE 


> #une image par ligne (tous les pixels en colonne) 
> dim(mnistS$train$x) 
[1] 60000 784 
> #Exemple des labels des 10 premières images 
> head(mnistS$trainSy,10) 
bass 
> 


Maintenant avant de poursuivre, Voyons si nous pouvons faire un plot de quelques-uns des 
digits: 


r 


R R Console EI ES 


> to.read = file("c:/tmp/MNIST/t10k-images-idx3-ubyte", "rb") 
> readBin(to.read, integer(), n=4, endian="big") 

[1] 2051 10000 28 28 

> par(mfrow=c(5,5)) 

> par(mar=c(0,0,0,0)) 

> for(i in 1:25)! 

+ m = matrix(readBin(to.read,integer(), size=1, n=28*28, endian="big"),28,28) 
+ image(m[,28:1],col = gray.colors(5)) 

+ } 
> 

R 
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Revenons maintenant au script qui va nous permettre d'entraîner le jeu de données en utilisant 
la fonction dbn.dnn.train( ) du package deepnet-: 


| R RGui (64-bit) - [R Console _ O 
GR File Edit View Misc Packages Windows Help -_ Ex 


GIE | 


#fonction de normalisation des valeurs d'entrées entre 0 et 1 
normalize<-function(x) { 
return (x/255) #ne pas oublier que les images sont en noir et blanc à l'origine! 
} 
#on met en marche un timer 
ptm <- proc.time() 
#standardisation 
train x n<-apply(mnist$train$x, c(1,2),FUN = normalize) 
test _x_ n<-apply(mnist$test$x, c(1,2),FUN = normalize) 
fentraînement 


VVNNVNVVNVNVNN+HXHN NV 


dnn<-dbn.dnn.train(train x n, mnist$train$yy,activationfun = "sigm", 
+ hidden = c(100, 70, 80), numepochs = 3, cd = 3) 
begin to train dbn ...... 
| training layer 1 rbm ... 
training layer 2 rbm ... 
training layer 3 rbm ... 
dbn has been trained. 
begin to train deep nn ...... 
deep nn has been trained. 
> #on arrête le timer 
> proc.time() - ptm 
user system elapsed 
EE 2.36 330.00 
> 


Et maintenant avec les fonctions nn.test( ) et nn.predict( ) nous pouvons tester le réseau de 
neurones profond et son pouvoir prédictif:  4Ÿ 


QR File Edit View Misc Packages Windows Help UE JTE 


> #test (taux d'erreur de classification) 

> err.dnn<-nn.test(dnn, test x n, mnist$testSyy) 
> #prédiction 

> dnn predict<-nn.predict(dnn, test _x_n) 

> taffichager des résultats 

> err.dnn 

[1] 0.0742 


> #pour une image donnée (la numéro 1 dans le cas présent!), donne la 

> #probabilité qu'il appartienne a une des 10 classe {0,1,2,3,4,5,6,7,9} de nombres 

> dnn predict{1,] 
[1] 2.476308e-03 7.162161e-04 5.170752e-04 1.105614e-02 2.265273e-03 9.914841e-03 
[7] 7.228431e-06 9.964496e-01 3.546970e-05 2.035836e-03 

> #Affichage la classe correspondante la plus probable! 

> mnist$testSyl[1] 

LEl 7 

> 
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Exemple 368.: AutoML (Automatic Machine Learning) 
R 3.4.2 


Au cours des dernières années, la demande d'experts en apprentissage automatique a dépassé 
l'offre, malgré l'afflux de nouveaux venus sur le secteur. Pour combler cette lacune, il y a eu 
de grands progrès dans le développement d'un logiciel d'apprentissage automatique convivial 
pouvant être utilisé par des non-experts. Les premières étapes vers la simplification de 
l'apprentissage machine impliquaient le développement d'interfaces simples et unifiées avec 
divers algorithmes d'apprentissage automatique (par exemple, H20). 


Bien que H20 ait facilité l'expérimentation de l'apprentissage automatique par des non- 
experts, 1l reste encore un certain nombre de connaissances en science des données qui sont 
nécessaires pour produire des modèles d'apprentissage machine performants et comprendre 
les hypothèses sous-jacentes et les concluions. Les réseaux de neurones profonds en 
particulier sont notoirement difficiles à accorder pour un non-expert. Afin que les logiciels 
d'apprentissage automatique soient vraiment accessibles aux non-experts, nous avons conçu 
une interface facile à utiliser qui automatise le processus de formation d'un grand nombre de 
modèles candidats. AutoML peut aussi être un outil utile pour l'utilisateur avancé, en 
fournissant une fonction wrapper simple qui effectue un grand nombre de tâches liées à la 
modélisation qui nécessiteraient généralement de nombreuses lignes de code, et en libérant du 
temps pour se concentrer sur d'autres aspects des tâches de pipeline de data science telles que 
le prétraitement de données, l'ingénierie de fonctionnalités et le déploiement de modèle. 


Le langage AutoML de H20 peut être utilisé pour. automatiser le flux de travail 
d'apprentissage automatique, qui comprend l'entéäînement automatique et le réglage de 
nombreux modèles dans une limite de temps spécifiée par l'utilisateur. L'utilisateur peut 
également utiliser un critère d'arrêt basé sur une mesure de performances pour le processus 
AutoML plutôt qu'une contrainte de temps spécifique. Les ensembles empilés seront 
automatiquement formés sur les modèles individuels de collecte pour produire un modèle 
d'ensemble très prédictif qui, dans la plupart des cas, sera le modèle le plus performant du 
classement AutoML. Les ensembles empilés ne sont pas encore disponibles pour les 
problèmes de classification multiclasse, dans ce cas, seuls les modèles singleton seront 
formés. 


Attention!!! Au jour où j'écris ces lignes, autoML / h20 ne fait pas a priori de 
Machine Learning avec des textes et a ses clusters limités à 170 MB environ!!!! 


D'abord, après l'avoir installée, on charge la libraire h20: 
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U RGui (64-bit) - [R Console] = OI 


QR File Edit View Misc Packages Windows Help = 


> library(h2o) 

> 

> h20.init{() 

Connection successful! 


R is connected to the H20 cluster: 


H20 cluster uptime: 3 minutes 45 seconds 

H20 cluster version: 315003 

H20 cluster version age: 1 month and 29 days 

H2O cluster name: H20 started from R Vincent Isoz rxp140 
H20 cluster total nodes: 1 

H20 cluster total memory: 0.81 GB 

H20 cluster total cores: 4 

H20O cluster allowed cores: 4 

H20 cluster healthy: TRUE 

H20 Connection ip: localhost 

H20 Connection port: 54321 

H20 Connection proxy: NZ 

H20 Internal Security: FALSE 

H20 API Extensions: Algos, AutoML, Core V3, Core V4 
R Version: R version 3.4.2 (2017-09-28) 


>| 


Voyons ici un exemple simple sur un jeu de données que nous connaissons bien (évitez à ce 
jour les accents ou caractères spéciaux dans les jeux de données!!!) que nous allons importer 


avec la fonction h20.importFile( ) : S 
MR RGui (64-bit) - [R Console] = Q 
ŒR File Edit View Misc Packages Windows Help 5 
ÉROISOSINIE 
ue 


Couleur Type Origine Vole 
1 Rouge Sports Domestique Oui 
2 Rouge Sports Domestique Oui 
3 Jaune Sports Domestique Non 
4 Jaune Sports Import<OxE9> Oui 
5 Jaune SUV Import<0xE9> Non 
6 Jaune SUV Domestique Non 


[8 rows x 4 columns] 


> test 

Exemple Couleur Type Origine Vole 
KA 2 Rouge Sports Domestique Non 
rs 7 Jaune SUV Import<OxE9> Oui 
3 LT Rouge SUV Domestique Oui 


[3 rows x 5 columns] 
> 


< > 


On définit quelques prérequis évidents: 
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| GR RGui (64-bit) - [R Console] — 0 


| File Edit View Misc Packages Windows Help 


#On identifie la réponse et les prédicteurs 
y <- "Vole" 
x <—- setdiff(names(train), y) 


# Pour une classification binaire, le réponse doit être un facteur 
train{,y] <- as.factor(train{,y]) 
test{,y] <- as.factor(test{,y]) 


VUNNNVNNVNNN OV 


Ensuite on lance l'analyse avec la fonction h20.automl( ) : 


GR RGui (64-bit) - [R Console] 


O | 


LR File Edit View Misc Packages Windows Help 


SATSTSIE | 


> aml <- h2o.automl(x = x, y = y, training frame = train,leaderboard frame = test,max runtime secs = 30) 
Il 


EEE —_—— —_—_—_ —_ —_— + A 


1 100% 


> 


et on demande d'afficher tous les algorithmes leaders dans la classification: 
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R RGuï (54-bit) - [R Console = 
GR File Edit View Misc Packages Windows Help -8 x 


CESSE 


> 1b<-aml#leaderboard 

> 1b 

An object of class "H2OAutoML" 
Slot "project_name": 

[1] "automl RTMP sid 87f8 9" 


Slot "leader": 
Model Detail 


H20OBinomialModel: glm 
Model ID: GLM grid 0 AutoML 20171204 125456 model 0 
GLM Model: summary 


family link regularization lambda_search 

1 binomial logit Ridge ( lambda = 0.7669 ) nlambda = 30, lambda.max = 18.367, lambda.min = 0.7669, lambda.lse = 18.367 
number_of predictors total number of active predictors number of _iterations training _frame 
1 6 6 28 automl training RTMP sid_ 87f8_9 


Coefficients: glm coefficients 
names coefficients standardized coefficients 


1 Intercept -0.310350 —-0.310350 
2 Couleur.Jaune 0.109929 —0.109929 
3 Couleur .Rouge 0.109856 0.109856 
4 Type. SUV —0.203214 —0.203214 
5 Type.Sports 0.203149 0.203149 
6 Origine.Domestique 0.032087 0.032087 
7 Origine.Import<0xE9> -0.032150 -0.032150 


H20BinomialMetrics: glm 
** Reported on training data. ** 


MSE: 0 

RMSE: O0 

LogLoss: 1 

Mean Per-Class Error: O0 
AUC: 1 

Gini: 1 

n°2: 0 

Residual Deviance: 8 
AIC: 22 


Confusion Matrix (vertical: actual; across: predicted) for Fl-optimal threshold: 


Non Oui Error Rate 
Non 3 1 0.250000 =1/4 
Oui 0 3 0.000000 =0/3 


Totals 3 4 0.142857 =1/7 


Maximum Metrics: Maximum metrics at their respective thresholds 


metric threshold value idx 
À max f1 0.438001 0.857143 2 
2 max f2 0.438001 0.937500 2 


Ÿ" 


et on affichage celui qui performe le mieux (s'il y en a plusieurs!) avec tous les détails 
nécessaires pertinents sur plusieurs pages: 
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QG 2 fé hi) [Ent _ ñ 
MR File dit Vaw Mis Winzzve ep PE 
LlNS)Elelc & 5 
>» amiOleader © 
Moisl Details: 
=== 
FotinomialMedel: cm 
Model To: GTM grid 9 Autavr, 29171004 125566 medal 9 
C2M Model: cummery 
fuuily link coyularisu iv lunbde _seurch 
1 Lincuial 1oyil Riuye { lambia — J./899 ) ularbda — 39, Laubda.max — 13.367, Llarbda.min — 0.68%, laupdA.15 — 1.307 
namker _2t prediczsrs total nmber_ ct active prediczsre numker_ ot 2terazions trairing_ trare 
1 B o 2E avtcml training RTME sidi L'tl_3 
Uaseffirients: qin corf<icienss 
naras cocffirients atandardirnd cnnfsicinnts 
1 Entorccpz -0.3:10359 -0.310350 
& Couleurs, Jaurtc -2.199629 -0.109929 
3 Zouulsur.2?ouye V.199t56 U.i1US5Se 
£ Typs.S7% -9.29y21e —U.:U3214 
L Type. Sports 9-29)143 U.203149 
6 Uriqine.Lomestique 2.032087 0.02320€7 
7 Driqine. Import. Cxk 92 1-032159 n-022150 
ÆS3inomialMetrics: gl 
#4 3cpurlud Ua Lruinuiny dulu. ** 
MSE:; Ù 
RMÈEz 4 
LogqLoss: 1 
Mean ter {1488 Error:  Ù 
1 
() 
Residual Dsviancesszs 3 
AIC: 2: 
Lonfusion Matrix (verzical: actual; acrces: predicted} fer #l optimal threshcld: 
Nan (mi Error kate 
Nan = | 1 6.250900 =1/4 
oui (e] 3 C.9C00900 —0/3 
Teluls 3 4 G.142357 147 
Maximun Metrics: Maximum matrics at taeir respaczive taresholdes 
metric =hkreshola vale 2dx 
1 max fil 8201 2.857143 £ 
? max f2 0.438901 9.537590 2 
3 max <Opainss (G.SOR6FE 9.999091 î 
à max accuracy C.5086€S5 9.857113 Û 
5 mix procivivu C.5CB86ES 1.09C090 © 
6 max £ecall C 8261 1.090090 2 
1 max speciticizy U.SUUBLS 1.UJUUJU L : 


== 
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GR 250 (fé hi [BR n 
Edit 


Væew 


' ax soecilici y VL.DUBEES 1.UJUUJU un) 
3 max aksolute mcc L.2SUJUIL J,7/2uUJU d 
3 max min Fer class accuracy UL.£3iUJUL J./SUUDU 
10 mex mean per class accuracy C.€638901 3.875030 2 


Gains/Tift Mable: Extract 
H203inomiolMetrics: gl 
#4 2cpurled Ga validucius ducu. ** 


ho.-gninaTifr(emodn1>, <daz. 


MSE: Ù 

RMSE: 1 

LogLoss: 1! 

Mean ter {1284 Error: 
IG: 1 

Gini: 1 

R°2; -Infinily 
Rssidual Deviance: 2 
AIT: 22 


Lonfusion Matrix (verzical: ectuel; acrcss: predictead} fer #1 optimal threshold: 


Nan (mi Error late 
Nan û . =0/n 
oui 0 1 G.900900 —0/1 
Tululs 0 1 c.2c02C0 0/1 
Msximun Metrics; Maximum metrics at taeir respeczive taresholds 
metric =bresholc valie 1dx 
1 max fl C©.6926527 1.020020 ( 
[EH max ff? 0.497877 1.090090 ñ 


3 max “Opainzs 0.492677 1.090090 j 
a max accuracy C.#92677 1.090090 © 
5 mix prociviun C.482627 1.090090 
6 max £etall C.492627 1.090090 
+ 
3 
1 


max speciticizy 

max aksolute mcc L.28262% J.UJUUJU [9 

max min per class accuracy 1 

M max mean_per_rlass ARCLTAGY 1 


HD2inomislMelrius: ylue 
#4 Repurled Ca vross-validaliua dala. %% 
** L-zold cress-validation on training data (Mstrics compused cr combined holdout predic=1ons) 


Lu LUE EE 1 
Mcan Ior-Closs Error: O0 


AUS: 0 
Giuiz 9 
RTE 


L 


or ‘h?s.çcainstifr{<mndels, valid-<m/F>, 


Gains/Liit Tablc: Extract wish ‘h20o.gainsLift(<mods1>, «dazc>)' or ‘nîc.çgainsLift{<modcl>, valid-<T/Fr>, 


DE 


xval—<T/F>) " 


xval-<T/E>) 
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R RGuiï (64-bit) - [R Console] - 0 
ŒR File Edit View Misc Packages Windows Help -# x 


ÉSOISESIOIE) 


CI 


Residual Deviance: 10 
AIC: 24 


Confusion Matrix (vertical: actual; across: predicted) for Fl-optimal threshold: 


Non Oui Error Rate 
Non à 1 0.250000 —=1/4 
Oui £ 2 0.333333 -1/3 


Totals 4 3 0.285714 =2/7 


Maximum Metrics: Maximum metrics at their respective thresholds 


metric threshold value idx 
max f1 0.443016 0.666667 
max £2 .299219 0.789474 
max fOpointsS 0.443016 0.666667 
max accuracy 0.443016 0.714286 
0.666667 


max recall 0.299219 1.000000 

max specificity 0.559764 0.750000 

max absolute mcc 0.361909 0.471405 

max min per _ class accuracy 0.443016 0.666667 


1 
3 
4 
S max precision 0.443016 
6 
7 
8 
9 
10 max mean per _ class accuracy 0.443016 0.708333 


1 1 1 © @ 12 12 12 œ 1 


Gains/Lift Table: Extract with ‘h?o.gainsLift(<model>, <data>)' or ‘h2o.gainsLift(<model>, valid=<T/F>, xval=<T/F>) * 
Cross-Validation Metrics Summary: 


mean sd cv_1_ valid cv 2 _ valid cv 3 valid cv 4 valid cv_5_ valid 

accuracy 0.6 0.34641016 1-0 1.0 0.0 1.0 0.0 

| auc 1.0 0.0 1.0 1.0 NaN 1.0 NaN 
err 0.13988757 0.19766061 0.0 0.0 0.6989561 0.0 4.8181415E-4 

err_count 0.0 0.0 0.0 0.0 NaN 0.0 NaN 

fOpointsS 0.65058094 0.30784458 1.0 1.0 0.25290442 1.0 2.3203305E-7 


mean sd cv_1_ valid cv 2 _ valid cv_3 valid cv 4 valid cv_5 valid 
precision 0.6 0.34641016 1.0 1.0 1.0 
2 NaN Infinity 0.9844948 0.26152125 Infinity 
recall 0.6 0.34641016 1.0 1.0 1.0 
residual deviance 0.92410195 0.74860936 0.1843583 2.2297723 2.2063792 
| rmse 0.23202455 0.1912578 0.06225991 0.42967394 0.6681889 
specificity 0.5 0.4082483 1.0 1.0 NaN 


>| 


Finalement on peut tester le modèle sur le jeu de test ou l'appliquer à de nouvelles données 


avec la fonction h20.predict( ) : LC 
Ÿ 
R RGuï (64-bit) - [R Console] = 0 
ŒR File Edit View Misc Packages Windows Help - # x 


BOSE EE) à 


> pred<-h20.predict (aml@leader, test) 
Il 
> pred 
predict Non Oui 
& Oui 0 £ 
2 Non 1 0 
3 Non L 0 


[3 rows x 3 columns] 
> 
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Forcer le deep learning 


La syntaxe est fort simple, il suffit d'utiliser la fonction h20.deeplearning( ) : 


MR RGui (64-bit) - [R Console] — mi 


GR File Edit View Misc Packages Windows Help x 


> library(h2o) 
> h20.init() 
Connection successful! 


R is connected to the H20 cluster: 


H20 cluster uptime: 10 minutes 5 seconds 

H20 cluster timezone: Europe/Berlin 

H20 data parsing timezone: UTC 

H20 cluster version: 3-18-0:8 

H20 cluster version age: 18 days 

H20 cluster name: H20 started from R Vincent _Isoz plf531 
H20 cluster total nodes: 1 

H20 cluster total memory: 3.36 GB 

H20 cluster total cores: 4 

H20 cluster allowed cores: 4 

H20 cluster healthy: TRUE 

H20 Connection ip: localhost 

H20 Connection port: 54321 

H20 Connection proxy: NA 

H20 Internal Security: FALSE 

H20 API Extensions: Algos, AutoML, Core V3, Core V4 
R Version: R version 3.5.0 (2018-04-23) 


> iris.hex <- as.h2o(iris) 


[======================z=zz===z==z======| 100$ 

> iris.dl <- h20.deeplearning(x = 1:4, y = 5, training frame = iris.hex) 
| ————…——.—……….… | 100% 

> 

> h20.predict(iris.dl, iris.hex) 
predict setosa versicolor virginica 


setosa 0.9999905 9.521693e-06 5.218946e-30 
setosa 0.9998652 1.347919e-04 3.061051e-28 
setosa 0.9999926 7.431171e-06 1.295347e-29 
setosa 0.9999836 1.644581e-05 1.120327e-28 
setosa 0.9999971 2.943896e-06 1.920185e-30 
setosa 0.9999859 1.409840e-05 1.961487e-28 


an U1 & NH 


[150 rows x 4 columns] 


Au besoin voici le contenu de iris.hex si cela peut aider: 
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MR Ru 6-bit) - [R Console] 


MR Hle Edt View Misc Fockages Window: Help 


Sepal.Length Sepal.Width Petal.Length Petal.Width Species 


> iris.hsex 


1 5,1 35 1.4 0.2 setosa 

2 4.9 +30 1.4 0.2 setosa 

3 4.7 3-2 La 0.2 setosa 

. 4.6 SJ À 4:5 0.2 setosa 

5 5.0 3.6 1.4 0.2 setosa 

6 5.4 3.9 1.7 0.4 setosa 

[150 rows x 5 columns] 

> 

et iris.dl': 
CE R <orrcs } 

MP Hén Ven Mic Package Wncom Meg <<, 
EP BRE 8 

> ris. di "1 
M: 


M2OBinomialModal: deaplearning 
pdyz IC: Devpleacning model AR 1537529541559 3 
£tatus of Neuror Layere: predicting Vol, 2-clacs claseificarion, bernculli diecribucion, CroseEncropy loss, 42,602 weighrs/biaces, 507.4 KE, 110 vrais 
layer bnita type dropour 11 12 mean _rAt=R rAtA_ rms 
s Input  O.DÙ % 

2 200 rectifier (0.00 & 0.000000 G.000090 0.328441 0,4€4412 

3 200 rectifier O.00 % 0.000002 C.000020 0.020091 0,079656 

- Z 3ottwax D.UUUBUS G.UUUUBU U.Uu'422 L.U0273 
romcatun moon _woight woighz_ cms mean bios bies_sms 


i 

Z U.UUDUOU —-L.SU042Z U.usss U.ss2ece U.003143 
3 0.000020 -D.9001€6 C.065332 0.5: 0 6.691551 
4 0.002000 0.004608 G.405544 0.000000 0.020850 


2208inomialmerries: dooplaarning 
°+* Reportes on training data. *+ 
#4 Moïraics reported on fall sraining frame ** 


MEF: D.240/038 
EL CI 4 0.-529814S 

LogLloes: ©.760€916 

Mran Par-Clnss Error: 0.5 
AUC: 9.4166€67 

Gini: -2.16€6667 


Comtusion Matrix [rertical: actual} cross: predicted] for F1-optimal threshoid 
Non Oui = Rav 
“or 0 $ 1.000020 =5/5 


Oui ÙÜ 4 C.UUOUU0 =0/6 
Tutais O0 11 0.454545 -5/11 


Maxisnmm Me=rice: Maximum metzice at their respective threshclde 
merric chseshold valse idn 

1 max f1 0.278241 0.705682 7 

2 | max +2 D.)78241 U.HS1163 ] 
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Sinon voici un deuxième exemple basé sur des données connus du cours théorique: 


MR RGui (64-bit) - [R Console] — 


R File Edit View Misc Packages Windows Help ni CL 19€ 


> library("h20") 
> h20.init() 
Connection successful! 


R is connected to the H20 cluster: 


H20 cluster uptime: 32 minutes 6 seconds 
H20 cluster timezone: Europe/Berlin 
H20 data parsing timezone: UTC 
H20 cluster version: 3:20.0.-2 
H20 cluster version age: 3 months and 6 days 
H20 cluster name: H20 started _ from R Vincent _Isoz dax044 
H20 cluster total nodes: L 
H20 cluster total memory: 0.80 GB 
H20 cluster total cores: 4 
H20 cluster allowed cores: 4 
H20 cluster healthy: TRUE 
H20 Connection ip: localhost 
H20 Connection port: 54321 
H20 Connection proxy: NA 
H20 Internal Security: FALSE 
H20 API Extensions: Algos, AutoML, Core V3, Core V4 
R Version: R version 3.5.1 (2018-07-02) 
? 
> mydata<-read.csv("C:/tmp/DeepLearning H20.csv",sep=";",header=T) 


LA 


mydata 
Couleur Type Origine Vol 


1 Rouge Sports Domestique Oui 
2 Rouge Sports Domestique Non 
3 Rouge Sports Domestique Oui 
4 Jaune Sports Domestique Non 
5 Jaune Sports Import Oui 
6 Jaune SUV Import Non 
7 Jaune SUV Import Oui 
8 Jaune SUV Domestique Non 
9 Rouge SUV Import Non 
10 Rouge Sports Import Oui 
à Rouge SUV Domestique Oui 
> 


On l'entraîne et on regarde la performance: 
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| R RGui (64-bit) - [R Console] 


[Re Edit View Misc Packages Windows Help 


EGSOISCSIOIE 


> vols.dl<-h20o.deeplearning(x=1:3,y=4, training frame=-vols.train) 


> 


> h20.performance (vols.dl) 

H20BinomialMetrics: deeplearning 
** Reported on training data. ** 
** Metrics reported on full training frame ** 


MSE: 0.3147722377 
RMSE: 0.5610456646 


LogLoss: 0.8807702039 


Mean Per-Class Error: 
AUC: 0.6833333333 
Gini: 0.3666666667 


Confusion Matrix (vertical: actual; across: predicted) for Fl-optimal threshold: 


0.3 


Non Oui Error Rate 
Non 2 3 0.600000 =3/5 
Oui 0 6 0.000000 =0/6 


Totals 2 9 0.272727 =3/11 


Maximum Metrics: Maximum metrics at their respective thresholds 


1 
2 
3 
4 
5 
6 
7 
8 
9 
1 


Gains/Lift Table: 


max min per class accuracy 
0 max mean_per_ class accuracy 


Extract with 


metric threshold 


max f1 0.063083 

max f2 0.063083 

max f0pointsS 0.063083 

max accuracy 0.063083 
max precision 0.961413 
max recall 0.063083 

max specificity 0.961413 
max absolute mcc 0.063083 
0.311663 

0.063083 


value idx 
0.800000 # 
0.909091 
0.714286 
0.727273 
1.000000 
1.000000 
1.000000 
0.516398 
0.600000 
0.700000 


Ur & Un © Uni © Un Un un 


‘h2o.gainsLift (<model>, <data>)' or “h2o].gainsLift (<model>, valid=<T/F>, xval=<T/F>) "> 


Et enfin on applique le modèle sur un nouveau jeu de données: 


© CO -J oO 1 B WW NH 


> 


et voilà! 


> 
> 

predict 
1 Oui 
2 Oui 
3 Oui 
4 Non 
s Oui 
6 Oui 
“ Oui 
8 Non 
9 Oui 
10 Oui 
11 Oui 
> | 


MR RGui (64-bit) - [R Console] 


R File Edit 


Type Orig 
Sports Domesti 
Sports Domesti 


Sports Domesti 
Sports Domesti 
Sports Imp 
SUV Imp 
SUV Imp 
SUV Domesti 
SUV Imp 
Sports Imp 


SUV Domesti 


Non 
0.68833702028 
0.68833702028 
0.68833702028 
0.97850559535 
0.43223154250 
0.86304346712 
0.86304346712 
0.99712137914 
0.23348340933 
0.03858656659 
0.93691673478 


View Misc Packages Windows Help 
OSIAIE 


> mydata<-read.csv("C:/tmp/DeepLearning H20 prediction.csv",sep=" 
> mydata 
Couleur 
Rouge 
Rouge 
Rouge 
Jaune 
Jaune 
Jaune 
Jaune 
Jaune 
Rouge 
10 Rouge 
11 Rouge 
> vols.new<-as.h20 (mydata) 


ine Vol 
que Oui 
que Non 
que Oui 
que Non 
ort Oui 
ort Non 
ort Oui 
que Non 
ort Non 
ort Oui 
que Oui 


> prediction<-h20.predict (vols.dl,vols.new) 


as.data.frame (prediction) 


0.31166297972 
0.31166297972 
0.31166297972 
0.02149440465 
0.56776845750 
0.13695653288 
0.13695653288 
0.00287862086 
0.76651659067 
0.96141343341 
0.06308326522 


",header=T) 


100% 
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Exemple 369.: Traiter de gros jeux de données 
R 3.02 


Nous savons que R met tout dans la mémoire RAM par défaut, or si cette dernière est limitée 
par rapport aux données à analyser, outre acheter de la RAM (ce qui est compliqué dans les 
multinationales car prend du temps) une possibilité et d'utiliser des packages qui gèrent les 
données différemment (sur le disque). 


Package LaF (Large ascii File) 


Les fonctions detect_dm_csv() et laf_open() du package LaF (Large ascii File) ont pour 
but premièrement de détecter le type de données des colonnes en espérant que le fichier ne 
soit pas trop mal structuré (c'est souvent les deux premières lignes qui déterminent le résultat 
final) et en second de créer la connexion au fichier avec les types de données détectés. 


La fonction laf_to_ffdf() du package ff permet de charger le fichier par morceaux sur le 
disque dur puisque la mémoire ne suffira pas dans le cas de l'ordinateur choisi pour la 
démonstration ci-dessous avec le fichier suivant: 


L_ SurveyUSA.csv 3671832 Ka 
dont le contenu sera supposé inconnu. 


Nous avons alors dans R (il vaut mieux ne pas travailler sur l'ordinateur pendant le 
traitement): 


re 


KR Fichier Edition Voir Misc Packages Fenêtres Aide 


libraryiLaF) 
library(ffhase) 


start.time <- Sys.timel() 

m<-detect dm csv("c:/tmp/SurveyUSi.csv"] 
con<-laf open (mi) 
mydata<-laf to ffdficon) 
end.time<-Sys.time() 
time.taken<-end.time - start.time 
time.taken 

ime difference of 32.949652 mins 


> 
> 
> 
F2 
> 
+ 
> 
> 
> 
> 
T 
> | 


Au besoin vous pouvez écrire alarm() à la fin pour avoir un signal sonore quand le calcul est 
terminé. 
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Maintenant investiguons un peu le contenu des données importées: 


_- 


RGui (64-bit) - [RC 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


ETC) 


> class (mydata) 

CET - FPÉCREF 

> dimimydata) 

[1] 4432862 227 

> strimydata([1:10,]) 

'data.frame!: 10 obs. of 227 variables: 

V1 : Factor w/ 1824066 levels "2006000000091",..: 43456 1 2 2 2 3 3 4 4 

V2 : Factor w/ 2 levels "RT","P": 1222222222 

V3 : Factor w/ 21 levels "SPORDER","1",..: 1223452323 

V4 : Factor w/ 388 levels "PUMA","02300",..: 1233334455 

V5 : Factor w/ 13 levels "ST" "01", "02m",..: 1 2 2 2 2 2 2 2 2 2 

V6 : Factor w/ 6 levels "ADJINC","1098342",,.: 12 2 2 2 2 2 2 2 2 

V7 : Factor w/ 273 levels "PWGTP","00021",..: 1 2 2 2 3 

V8 : Factor w/ 97 levels "AGEP","47","çg9",,,: 12 3 45 

V9 : Factor w/ 6 levels "CIT","1","3",,.,: 12 22 222 
Factor w/ 10 levels "COW","1","3",,..,: 12 2222N 1 2 2 
Factor w/ 5 levels "MENG","1","2",,,: 1 NA Nä Nä NA NA NA Ni NA Na 


$ 


45 7 8 
6 2 5 6 
2 2 
iN 


LD LD LD LD LD LD LD LD LD LD 


Nous voyons que nous avons importé environ 4.5 millions de lignes (ce n'est pas énorme) et 
227 colonnes (ce qui est conséquent pour un sondage). 


Nous voyons qu'il s'agit d'un objet de type ffdf centent un data frame. Malheureusement, le 
fichier d'origine ne semble pas être bien structuré car la colonne AGEP pour "Age Population" 
est censée être de type Integer et tout a été identifié comme des chaînes de caractères. 


Voyons les 10 premières lignes des 9 premières colonnes: 


> mydata[1:10,1:9] 
V1 V2 V4 VS V6 L' 
serialno RT SPORDER PUMA ST ADJINC PWGTP 
Z2006000000091 PF 1 02300 01 1098342 00021 
2006000000280 01700 01 1098342 00021 
2006000000280 01700 01 1098342 00021 
2006000000280 01700 01 1095342 00026 
2006000000280 01700 01 1098342 00032 
2006000000354 02500 01 1098342 00033 
2006000000354 02500 01 1098342 00024 
2006000000382 02200 01 1098342 00007 
+ Se 02200 01 1098342 00004 
> 


< 
La) 


Q 
H 
1 


1 
2 
3 
+ 
5 
6 
7 
8 
9 


0 to "0 "0 "0 "0 
D OH N HD © NH 
HHHHHHHHH 


R Statistical Software 2309/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Le problème provient donc de la ligne 1 et 2 qui dans le fichier d'origine contient des textes. 
grrr! Malheureusement demander à la commande d'import de sauter la première ligne des V1, 
V2 ne marche pas (loi du maximum d'emm.…..). 


Donc nous allons faire de la conversion classique: 


RG (tb L 


KR Fichier Edition Voir Misc Packages Fenêtres Aide 


> mean(as.numeric(as.character (mydata[,8])),na.rm=TRUE) 

[1] 39.108775 

Message d'avis : 

In mean(as.numericias.character (mydatal, 68])), na.rrm = TRUE) : 
Nis introduits lors de la conversion automatique 


> median(as.numeric(as.character (mydata[,8])),na.rm=TRUE) 

[1] 39 

Message d'avis : 

In mediani(as.numeric(ias.character (mydata[, 68]])), na.rm = TRUE) : 
‘2 introduits lors de la conversion automatique 

> 


= 
O 
Ÿ 

N . A ; 4 : 
Après le principe reste le même que ce que nous avons vu jusqu'à maintenant cependant on 


tombe souvent sur des aberrations avec ces gros jeux de données. : 
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R Fichier Edition Voir Misc Packages Fenétres Aide 


> agepop<-as.numeric{(as.character (mydata[,8])) 

Message d'avis : 

Nis introduits lors de la conversion automatique 

> mydata<-aggregate (agepop,by=1list (agepop) , FUN=length}) 

> mydata 
Group. 


0OJanunE D 


1 
(a) 
1 
2 
3 
4 
5 
6 
É 
8 
5 


H H 
k © 


10 
11 
12 
13 
14 
15 
16 
17 
18 
19 
20 
21 
22 


Dé HHHHHH 
© 0 © -J o On Bb © 


Il est effectivement difficilement imaginable qu'il y ait 50"771 personnes dont l'âge est zéro et 
ayant répondu. 


Soit autrement vu: 
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| R R Console 


> hist (agepop) 
> | 


Histogram of agepop 


pu 
© 
[= 
D 
=! 
[ex 
D 
—— 
LL 
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Sciences.ch 


Package data.table (fread) 


Nous avons déjà parcouru le package data.table. Mais il a une fonction très utile pour les 
gros jeux de données, appelée fread( ) . Elle s'utilise très simplement et affiche en plus 


l'avancement du chargement du fichier: 


R RGui (64-bit) - [R Console] 
R File Edit View Misc Packages Windows Help 


> library (''data.table) 
> myUSASurvey<-fread (''SurveyUSA.csv'',header=T) 


Read 48.3% of 4432861 rows 


et quand l'import est terminé, nous obtenons: 


R File 


R RGui (64-bit) - [R Console] 


Edit View Misc Packages Windows Help 


Et 


SEBIOIE 


> 


> library (''data.table) 
> myUSASurvey<-fread (''SurveyUSA.csv' ,header=T) 
Read 4432861 rows and 227 (of 227) columns from 3.502 GB file in 00:00:52 


Au besoin vous pouvez à nouveau écrire un alarm( ) à la fin pour avoir un signal sonore 
quand le calcul est terminé. 


Pour le reste... cela se manipule comme tout autre data frame! C'est-à-dire qu'on peut 
importer/fusionner aussi un dossier avec plein de *.csv via les fonctions list.files() et 


do.call( ): 
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MR RGuiï (64-bit) - [R Console] — O 


Edit View Misc Packages Windows Help ex 


| R File 
EBOISOSINIE | 


| 
> library("data.table") 
> files<-list.files("C:/tmp/Ventes/",pattern="*.csv",full.name = TRUE) 
> files 
| [1] "C:/tmp/Ventes/Ventes2016.csv" "C:/tmp/Ventes/Ventes2017.csv" 
Es merge<-do.call (rbind, lapply(files, fread)) 
|Read 12044587 rows and 10 (of 10) columns from 1.109 GB file in 00:00:25 
| Read 12044587 rows and 10 (of 10) columns from 1.109 GB file in 00:00:28 
|> nrow (merge) 
| [1] 24089174 
|> alarm() 
> | 


R Statistical Software 2314/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Réduction dimensionnelle/Feature selection 

Une fois les gros jeux de données chargés, on peut éventuellement éliminer certaines 
variables ou facteurs en utilisant les techniques empiriques de Feature selection. Nous savons 
déjà que l'analyse en composantes principales et la décomposition en valeurs singulières en 
font partie. 

Analyse en composantes principales 

Cette technique a déjà été traitée à la page 1401. 

Décomposition en valeurs singulières 

Cette technique a déjà été traitée à la page 283. 


Corrélation (réduction dimensionnelle sur variables numériques) 


Voyons d'abord le cas ultra-classique avec la fonction findCorrelation( ) du package car: 


R 
R File Edit View Misc Packages Windows Help 


> library("caret") 
> mydata<-read.csv("c:/tmp/VariationsTitres.csv",header=T, sep=";") 


> mydata 

Crédit.Lyonnais France.Télécom Lafarge Saint.Gobain Total.Fina.Elf 
1 0.017516 —-0.328775 0.023053 0.003086 0.000615 
2 —-0.198426 —0.020374 -0.104156 —-0.106509 —0.093423 
3 0-:122761 0.197863 0.103410 0.023046 0.057627 
4 —0.034988 0.063419 0.038501 0.054376 —-0.086538 
5 —0.000267 0.018141 0.023415 0.040521 0.125614 
6 —0.002667 —0.172160 -0.060057 —-0.023602 0.015586 
7 0.021390 —0.180791 0.009128 0.084602 0.042971 
8 0.142932 0.153366 0.030151 0.042345 0.041789 
9 0.072148 —0.232346 0.027317 0.015608 —0.049718 
10 —0.034822 —-0.229599 0.037037 0.000000 —0.007729 
LL —-0.039398 —0.545980 -0.075092 —0.043158 —0.014979 
12 —0.082719 0.558855 -0.110891 -0.329373 —0.102798 
> (correlationMatrix<-cor (mydata)) 

Crédit.Lyonnais France.Télécom Lafarge Saint.Gobain Total.Fina.Elf 

Crédit.Lyonnais 1.00000000 0.04780981 0.73338852 0.5370196 0.5929914 
France.Télécom 0.04780981 1.00000000 -0.03863644 -0-4997799 —-0.1576209 
Lafarge 0.73338852 —0.03863644 1.00000000 0:7391915 0.5288331 
Saint.Gobain 0.53701959 —0.49977992 0.73919150 1.0000000 0.5917240 
Total.Fina.Elf 0.59299138 —0.15762088 0.52883313 0.5917240 1.0000000 


> tafficher les éléments très corrélés qui pourraient être éliminés 
> findCorrelation(correlationMatrix, cutoff=0.5) 

[11 4 3 1 

> | 


Importance de variables (réduction dimensionnelle sur variables numériques) 


Bon les techniques dans l'importance de variables sont vraiment très empiriques dès le 
moment où on s'éloigne des techniques de statistiques formelles. Voyons donc d'abord un cas 
d'application avec la régression linéaire multiple (sachant que le même principe peut 
s'appliquer à n'importe quel modèle de régression!) en utilisant la fonction varImp( ) du 
package caret: 
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GR RGui (64-bit) - [R Console] —_ O 


QR File Edit View Misc Packages Windows Help 1x 


> mydata<-read.csv("c:/tmp/RegressionLineaireMultiple.csv",header=T, sep=";") | 
> fit<-lm(Couts-CoutA+CoutB+CoutC,data=-mydata) 
> summary(fit) 


Call: 
Im(formula = Couts - CoutA + CoutB + CoutC, data = mydata) 


| Residuals: 
| Min 10 Median 3Q Max 
—-2042.8 -820.0 236:2 807.3 1721.4 


Coefficients: 
Estimate Std. Error t value Pr(>ltl) 
| (Intercept) 35102.900 1837.227 19.106 6.11e-12 


| CoutA 2.066 1.665 1.241 0.2337 
| CoutB 4.176 1.681 2.484 0.0253 
CoutC 4.791 1.789 2.677 0.0172 


Residual standard error: 1253 on 15 degrees of freedom 
Multiple R-squared: 0.6454, Adjusted R-squared: 0.5745 
F-statistic: 9.102 on 3 and 15 DF, p-value: 0.001127 


r 

> library("caret") 

> varimp(fit) 
Overall 

CoutA 1.240826 

CoutB 2.464074 

sis 2:60717359 

> 


Résultat à comparer avec le résultat que nous avions obtenu à la page 1601. 


Ou encore un autre exemple reprenant le RandomForest que nous avions fait plus haut à la 
page 2181: 
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MR RGui (64-bit) - [R Console] (m 
GR File Edit View Misc Packages Windows Help 


ÉROISESIAIE) 


> library("randomForest") 

> library("caret") 

> mydata<-read.csv("c:/tmp/ArbreRegressionCART.csv",header=T, sep=";") 

> progstat<-factor (mydataS$Propriétaire,levels=1:2,labels=-c("Proprio","Non Proprio")) 
> 

> 


mod.rf<-randomForest (progstat-Revenus+Surface,data=mydata) 
mod.rf 


Call: 
randomForest (formula = progstat + Revenus + Surface, data = mydata) 
Type of random forest: classification 
Number of trees: 500 
No. of variables tried at each split: 1 


O0B estimate of error rate: 29.17% 
Confusion matrix: 
Proprio Non Proprio class.error 


Proprio 8 = 0.3333333 
Non Proprio 3 9 0.2500000 
|> varImp(mod.rf) 

Overall 


Revenus 6.258222 
Surface 5.049155 

> varImpPlot (mod.rf) 
>| 


Ce qui donne pour la fonction varImpPlot( ): 


1 à 


MR Graphics: Device 2 (ACTIVE) l=2) be IE 
mod.rf 
Revenus 
Surface 
0 1 2 3 4 5 6 
MeanDecreaseGini 
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Khi-2 (réduction dimensionnelle sur variables numériques) 


La méthode du khi-2 peut être utilisée pour la réduction dimensionnelle de variables 
catécorielles. Voyons donc un exemple en utilisant la version 32 bits de R (car le package 


FSelector, utilise RJava en 32 bits à ce jour!): 


| ns 
R : 


| GR File Edit View Misc Packages Windows Help 


= EX 


ÉSOISOSIOIE 


|] 
| 


152 
Fr 
11 
V14 
:170 
:248 
17 


n 


l'A 
NA's: 


> +On utilise le jeu de données HouseVotes84 qui se trouve 
> *dans le package mlbench 

> library("mlbench") #pour les données 

> library("FSelector") #pour la méthode 

> data ((HouseVotes£84) 

> summary (HouseVotes84) 

Class vi v2 V3 v4 V5 V6 
democrat :267 n :236 n :192 n :171 n :247 n :208 n = 
republican:168 Y 2187 Y 2195 Y 2293 Y :177 Y :212 Y 5 

NA's: 12 NA's: 48 NA's: 11 NA's: 11 NA's: 15 NA's: 

| v7 ve vo v10 vil vi12 v13 

n :182 n 2178 n :206 n 2212 n :264 n 2233 n :201 

Y 2239 Y 242 Y :207 Y :216 Y 2150 Y 2171 Y :209 

NA's: 14 NA's: 15 NA's: 22 NA's: 7 NA's: 21 NA's: 31 NA's: 25 

Vis v16 

n 233 n 5: 62 

Y :174 Y 269 

NA's: 28 NA's:104 

> head(HouseVotes84) 

Class V1 V2 v3 va VS V6 V7 V8 V9 V10 V11 vV12 v13 V14 V15 vVi16 

1 republican n y n La y y nn n y <NA> Y Y Y n Y 
[2 republican n y n Y y y nn n n n Y Y Y n <NA> 
13 democrat <NA> y y <NA> y y nn n n Y n Y Y n n 
4 democrat n y y n <NA> y nn n n Y n Y n n Y 
[5 democrat Y Y Y n Y y nn n n y <NA> \4 Y Y Y 
6 | democrat n y y n Y y nn n n n n Y Y Y Y 
> 


Enfin, on utilise les fonctions chi.squared( ) et cutoff.k( ) du package FSelector: 
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R RGui (32-bit) - [R Console] 


R File Edit View Misc Packages Windows Help 


> #On calcule la statistique du khi-2 
> poids<-chi.squared(Class-., HouseVotes84) 
> 
> #on affiche les résultats 
> poids 
attr_importance 
VI 0.409330348 
v2 0.004534049 
V3 0.748864321 
va 0.923255954 
VS 0.718768923 
V6 0.428332508 
V7 0.521967369 
v8 0.661876085 
va 0.629797943 
v10 0.083809300 
Vi1 0.378240781 
v12 0.714922593 
v13 0.555971176 
v14 0.625283342 
V15 0.538263037 
V16 0.353273580 
> 


> #On sélectionne les 5 variables avec le plus grand poids 
> subset<- cutoff.k(poids, 5) 

> subset 

[LT VAT V3" VS" °v12" “ve” 

> #on génère la formule correspondante automatiquement 

> f<-as.simple.formula(subset, "Class") 

> print(f) 

Class + V4 + V3 + VS + V12 + V8 

0x08511ef0> 

> 
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t-SNE (t-distributed stochastic neighbor embedding) 


Bon voyons cette technique dont nous avons étudié relativement en détails l'idée 
mathématique sous-jacente dans le cours théorique (cependant nous n'avons pas fait 
d'application numériques à la main ni dans un autre logiciel ou tableur). 


Pour faire original, nous allons simplement reproduire 1c1 l'exemple donné dans l'aide des 
deux packages qui vont nous servir à illustrer cet algorithme. 


D'abord commençons avec le package tsne et sa fonction tsne( ): 


R 
R File Edit View Misc Packages Windows Help men (3) 


> library("tsne") 
> colors<-rainbow(length(unique(iris$Species))) 
> colors | 
[1] "#FFOOOOFF" "#OOFFOOFF" "#OOOO0FFFF" 
> names (colors)<- unique (iris$Species) 
> colors 
setosa versicolor virginica 
"#FFOOOOFF" "#OOFFOOFF" "#OO0O0FFFF" 
> ecb<-function(x,y){ plot(x,t="n");text(x,labels=iris$Species, col=colors{iris$Species]) } 
> tsne iris<-tsne(iris{,1:4], epoch callback = ecb, perplexity=50) 
sigma summary: Min. : 0.565012665854053 [ist Qu. : 0.681985646004023 |[Median : 0.713004330336S 
Epoch: Iteration #100 error is: 11.9954927336694 
Epoch: Iteration #200 error is: 0.218409207433452 


Epoch: Iteration #300 error is: 0.201628352441743 

Epoch: Iteration #400 error is: 0.201621842723318 | 
Epoch: Iteration #500 error is: 0.2016218423098 

Epoch: Iteration #600 error is: 0.20162184230973 

Epoch: Iteration #700 error is: 0.20162184230973 

Epoch: Iteration #800 error is: 0.20162184230973 

Epoch: Iteration #900 error is: 0.20162184230973 


Epoch: Iteration #1000 error is: 0.20162184230973 
>| 


Ce qui donne graphiquement: 
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f SEE 


MR Gra phics: Device 2 (ACTIVE) 


aa \ 
seto setosa 
a UE) Sétosa “etosa 
> E. 
sn set 
virginica tosetos 
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versicolor 
NA ROIOTE Ia Le. set@etoSatosa 
virginica WiFi Ci Joe 6h F nn 
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| 1e VEISICOlor vefsi 
Oo wo 
w VirgIniCa 
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ra VIrgInic: 
virgin eginiGURRfei ca 
L virginiaginrgënica V 
rgin in 
Son cou 


-5 


virginica _ 
virginica VEFSIEfgajaica virginica 
versicolor virgingiaica 


virgifaaca 


-5 0 


Ou avec le package Rtsne et sa fonction Rtsne( ): 
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E 


EIRE 


library("Rtsne") 

*on supprime les doublons comme l'exige ce package 

iris unique <- unique(iris) 

tsne out <- Rtsne(as.matrix(iris unique[,1:4])) 

plot(tsne out$Y,col=iris unique$Species,asp=i) 

text (tsne out$Y,labels=iris$Species, col=colors{[iris$Species]) 


VV NNVNY 


$Y[,2] 


tsne_out 


tsne_out$Y{,1] 


On voit comme toujours l'importance d'utiliser d'autres packages pour voir les résultats 
d'autres implémentations algorithmiques! 


Maintenant comparons avec l'analyse en composantes principales pour le plaisir: 
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FH 


@ R Console BEN E | 
? 

> pca_iris<-princomp(iris{,1:4])S$scores[(,1:2] 

> plot(pca iris, t="n") 

> text (pca iris, labels=iris$Species,col=colors[iris$Species]) 

> | 


x 
2 
OC) 
à 
ni 


s: Device 2 (ACTIVE) CRE 


setosa virginica 
setosa virginica 
ao setosa 
setosa 
virginica 
versicolor VITgINICA 
un virginica virginica 
S versichéficolor virginica | virginica 
Lu imiceini 

. © 
[ex 
£ o 
G o 

1 

cs 

setosa 
eo 
versicolo 
versicolor 
ao setosa Ë 
ds WeSTDT 
| virginica 
versicolor 
-3 -2 1 0 1 2 3 4 
Comp. 
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Recursive Feature Elimination 


L'exemple ci-dessous fournit un exemple de la méthode RFE sur l'ensemble de données Pima 
Indians Diabetes. Un algorithme de forêt aléatoire est utilisé à chaque itération pour évaluer 
le modèle. L'algorithme est configuré pour explorer tous les sous-ensembles possibles des 
attributs. 


1. Run RF = If first ni ris initial RF rankings 
LA 
| C4 on 
“2 le Ve re. rd 2. Remove bottom 3% of variables 
‘ * * »  * Importance Score Variable 
.80 a 
.79 b 


.78 c 


4. Repeat with remaining variables 


3. Rank removed variables 


Importance Score Variable Rank 
-1.9 x 98 
-2.0 y 99 
100 
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R RGui (64-bit) - [R Console] = 


ŒR File Edit View Misc Packages Windows Help = EE 


ÉBOISOSINIE 


[> library ("mlbench") 
> library("caret") 
|> # load the data 
> data(PimalndiansDiabetes) #dans le package mlbench 
> head(PimalndiansDiabetes, 20) 
pregnant glucose pressure triceps insulin mass pedigree age diabetes 


+ 6 148 72 35 0 33.6 0.627 50 pos 
2 1 85 66 29 0 26.6 0-351 31 neg 
3 8 183 64 0 0 23.3 0.672 32 pos 
4 1 89 66 23 94 28.1 0.167 21 neg 
5 0 137 40 35 168 43.1 2.288 33 pos 
6 5 116 74 0 96 25:6 0.201 30 neg 
7 3 78 50 32 88 31.0 0.248 26 pos 
8 10 115 0 0 0 35.3 0.134 29 neg 
9 2 197 70 45 543 30.5 0.158 53 pos 
10 8 125 36 0 0 0.0 0.232 54 pos 
11 4 110 92 0 0 37.6 0.191 30 neg 
12 10 168 74 (e) 0 38.0 0.537 34 pos 
13 10 139 80 0 DATE 1.441 57 neg 
14 1 189 60 23 846 30.1 0.398 59 pos 
15 5 166 72 19 175 25.8 0.587 S1 pos 
16 7 100 0 () 0 30.0 0.484 32 pos 
17 0 118 84 47 230 45.8 0:551 31 pos 
18 7 107 74 0 0 29.6 0.254 31 pos 
19 1 103 30 38 83 43.3 0.183 33 neg 
L 115 70 30 96 34.6 0.529 32 pos 
> 


Nous utilisons maintenant les fonctions rfeControl( ) et rfe( ) du package caret: 


R RGui (64-bit) - [R Console] — 


ŒR File Edit View Misc Packages Windows Help 5 x 


ÉSOBESINIE 


| > control <- rfeControl(functions=rfFuncs, method="cv", number=10) 
> results <- rfe(PimalndiansDiabetes[{,1:8], PimalndiansDiabetes[,9], sizes=c(1:8), rfeControl=control) 
| > print (results) 


Recursive feature selection 
Outer resampling method: Cross-Validated (10 fold) 
Resampling performance over subset size: 


Variables Accuracy Kappa AccuracySD KappaSD Selected 


1 0.7019 0.2881 0.04403 0.09645 
2 0.7383 0.4060 0.06571 0.14915 
3 0.7462 0.4234 0.04475 0.10597 
4 0.7617 0.4674 0.04732 0.10263 
5 0.7487 0.4373 0.05749 0.12710 
6 0.7592 0.4521 0.06564 0.15485 
T 0.7592 0.4544 0.06545 0.15354 
8 0.7670 0.4699 0.06333 0.14652 = 


The top 5 variables (out of 8): 
glucose, mass, age, pregnant, insulin 


| > predictors(results) 
[1] "glucose" "mass" "age 


"pregnant" "“insulin" "pedigree" "triceps" "pressure" 
>| 
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Nous pouvons faire un graphique: 


Fr 


PR R Console NES 
> plot (results, type=c("g", "o")) 
> | 
R° EN EZ 
0.76 
E 
Q 
© 
D 
&© 0.74 
+ 
o 
o 
Fa 
o 
> 
[e] 
E 
S | 
Le} 
Oo 
< 
0.72 
0.70 
2 4 6 8 
Variables 


Les 8 attributs sont sélectionnés dans cet exemple, bien que dans le graphique montrant la 
précision des différentes tailles de sous-ensemble d'attributs, nous pouvons voir que 
seulement 4 attributs donnent des résultats presque comparables. 
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Data Stream / Données en flux continu 


Nous avons étudié un peu les problématiques typiques des flux de données dans le cours 
théorique et 1l est apparu évident que dans la pratique, si l'on peut éviter de relancer un 
algorithme de ML/DL sur un data set entier juste parce qu'une petite dizaine de données est 
apparu alors on l'éviter pour des raisons de consommation de mémoire et de performance! 
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Exemple 370.: OpenCV (reconnaissance faciale) 
R 3.6.3 


Bon le lecteur doit bien garder en tête que R est un logiciel de statistiques et son rôle n'est pas 
de faire de la reconnaissance vidéo. Il faudrait plus allé du côté de MATLAB et dans le pire 
des cas voir du côté de Python. 


Donc voyons d'abord ce que peut faire le package opencv avec pour commencer la fonction 
ocv_video( ) qui tente de reconnaître en temps réel un visage sur une caméra avec différents 
paramétres en entrée. Ci-dessous nous voyons son fonctionnement avec le paramètre 

ocv_ face: 


E 


MR F Console [s|e. D 


> library("opencv") 
> ocv_ video(ocv face) 
Starting video window (could be behind this window) 


Et avec le paramètre ocv_edges: 
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Fr 


library("opencv") 
> ocv video(ocv edges) 


et avec le paramètre ocv_knn: 


Fr 


library("opencv") 
> ocv_ video(ocv knn) 
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Et avec le paramètre ocv_facemask: 


EF 


R LL — = D« 


> library("opencv") 
| > ocv video(ocv facemask) 
Starting video window (could be behind this window) 


CO 
N : S 
et avec le paramètre ocv_stylize: ® 
R _ 3 = x4 
> library("opencv") 
> ocv_video(ocv_stylize) 
Starting video window (could be behind this window) 
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et pour terminer avec le paramètre ocv_sketch: 


r 


MR FR Console EEE 


> library("opencv") 
> ocv video(ocv sketch) 
Starting video window (could be behind this window) 


colourized by pastincolour.com 


SOLVAY CONFERENCE 1927 


A. PICARD E. HENRIOT P.EHRENFEST Ed. HERSEN Th. DE DONDER E.SCHRÔDINGER E. VERSCHAFFELT W.PAULI W. HEISENBERG R.H FOWLER L. BRILLOUIN 
P. DEBYE M. KNUDSEN W.L. BRAGG H.A. KRAMERS P.A.M. DIRAC AH. COMPTON L. de BROGLIE M. BORN N. BOHR 
1. LANGMUIR M, PLANCK Mme CURIE H.A.LORENTZ A. EINSTEIN P. LANGEVIN Ch.£. GUYE C.T.R. WILSON O W, RICHARDSON 


Absents : Sir W.H. BRAGG, H. DESLANDRES el E. VAN AUBEL 


Nous écrivons alors le script suivant: 
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MR RGui (64-bit) - [R Console] . CI] 
GR File Edit View Misc Packages Windows Help sx 
| > library("opencv") 

> faces<-ocv read("c:/tmp/Solvay Conference 1927.jpg") 
> ftrouver les visages 

> faces <- ocv face (faces) 

> fmettre un masque sur les visages 

> facemask <- ocv facemask(faces) 
|> tafficher la liste des visages trouvés et leurs coordonnées 
> attr(facemask, 'faces') 

radius x Y 

x À 35 1111 386 

2 32 458 204 

3 34 1288 256 

= 36 420 424 

5 33 1878 184 

6 38 632 402 

7 32 1430 268 

8 32. 920 270 

| 30 1756 256 

10 36 1518 396 

11 32 1574 258 
| 12 36 223 403 

13 41 1747 406 

14 36 1316 380 

15 39 1944 411 

16 34 1110 296 

17 40 1862 466 

18 32 616 254 

19 40 1468 460 

20 40 864 400 

21 42 1626 458 

22 38 1250 462 

23 36 740 474 

24 34 734 308 

25 36 293 474 

26 36 1958 258 

27 42 984 482 

28 43 515 485 

29 36 2026 492 

30 36 290 528 

> tenregistrer le résultat pour visualisation 

> ocv write(faces , "Solvay Conference 1927 Output.jpg') 
#1 "C:\\tmp\\Solvay Conference 1927 Output.jpg" 

> 


Ce qui donne comme résultat: 


R Statistical Software 2332/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


a 


Œ € nd by poilitalout car 
SOLVAY CONFERENCE 1927 
A. PICARD L. HENRIOT P, CHRENFEST ES, HERSEN In. DE DONDER E SCHROCANGER E. VERSCHAITELT WPAULI W, HEISENBERG RHFOWLER L SRILLOUN 
F, OEBYE M. ENUDSEN W.L BRAGG HA KRAMERS FA.M, DIRAC AH, COMPTON L. de BROGUE M, BORN N, BOHR 
- ANGMUIR M, PLANCK Mme CURE HA LORENTZ A. EINSIEIN P, LANGEVIN CRE, GUYE CIR. WISON  O'W, RICHARDSON 


Absents : Sr WH. BRAGG, H. DESLANDRES at Et VAN AUJBEL 


W 
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Exemple 371.: TensorFlow 
R 3.43 


Pour utiliser TensorFlow de Google, nous allons devoir d'abord installer Python. Pour cela 
nous ouvrons notre navigateur pour aller à l'adresse suivante: 


<| 
X 


O Menu | # Download Python | Pythor X | + 


< C 88  &@ Python Software Foundation [US] python.org 08 © 


Python 


= python 


About Downloads Documentation Community Success Stories News Events 


ps 


Wondering which version to use? Here’ 


Looking for Python with a different OS? Python for Wi 


Want to help test development versions of Python? Pre-releases 


Q 
S 
Nous cliquons sur le bouton Download Python 3.6.5: 


Ouverture de python-3.6.5.exe 


Vous avez choisi d'ouvrir : 


python-3.6.5.exe 


qui est un fichier de type : Binary File (29,3 Mo) 
à partir de : https://www.python.org 


Enregistrer le fichier Annuler 


Voulez-vous enregistrer ce fichier ? 


Nous cliquons sur Enregistrer le fichier: 


@ £ibiothèque — O 
2} Organiser” Vider la liste des téléchargements 9 Rechercher dans les téléchargements 
Historique 
ÿ$ Téléchargements python-3.6.5.exe = 


29,3 Mo — python.org — 22:24 
Étiquettes pyt ; 


x | Tous les marque-pages 
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Une fois le téléchargement terminé, nous lançons l'exécutable: 


Install Python 3.6.5|(64-bit) 


Select Install Now to install Python with default settings, or choose 
Customize to enable or disable features. 


@ install Now 
C:\Users\Vincent Isoz\AppData\Local\Programs\Python\Python36 
| 
includes IDLE, pip and documentation | 
Creates shortcuts and file associations 


— Customize installation 
Choose location and features 


th n 


F1 Install launcher for all users (recommended) 


| windows F1 Add Python 3.6 to PATH Cancel 


Attention à bien installer la version 64 bit pour un système x64 et 
la 32bit pour un système x86!!!! 
Ÿ 


Nous validons par Install Now: 


- À Setup Progress 


Installing: 


Python 3.6.5 Standard Library (32-bit) 


python 
wind WsS Cancel 


Une fois l'installation terminée: 
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5 
} Setup was successful 


Special thanks to Mark Hammond, without whose years of 
freely shared Windows expertise, Python for Windows would 
still be Python for DOS. 


New to Python? Start with the online tutorial and 


See what's new in this release. 


@ Disable path length limit 
Changes your machine configuration to allow programs, including Python, to 
bypass the 260 character "MAX_PATH" limitation 


10 


| windows Close 


Nous vous conseillons de redémarrer l'ordinateur avant de poursuivre! 


Une fois ceci fait, aux dernières nouvelles…., et dans le shell MS-DOS de Windows, tapez: 


Ex] C\Windows\System32\cmd.exe - pip3 install --upgrade tensorflow 


Ensuite, nous pouvons installer tensorflow dans R et le lancer sans messages d'erreur: 


Fil Edrt V ve Mi Packa W 
Blelo] 


> library("tensorflow") 
> | 


R Statistical Software 2336/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Et on texte avec un exemple simpliste repris du site officiel: 


R RGuï (64-bit) - [R Console . Q 


& File Edit View Misc Packages Windows Help EX 


> library(tensorflow) 
> 

> sess = tfS$Session() 
> 

> hello <- tfS$constant ("'Hello, TensorFlow!') 
> sessSrun(hello) 
b'Hello, TensorFlow!' 
> 

> a <- tfSconstant (10) 
> b <- tfSconstant (32) 
> sessSrun(a + b) 

42.0 

> | 


Et pour la suite, reportez-vous à l'adresse suivante: 


https://tensorflow.rstudio.com/learn/examples.html 


Personnellement (subjectivement), je trouve ce langage immonde donc je ne détaillerai pas 
plus! 


Lo 
© 
NI 
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Exemple 372.: Hadoop (Cloudera)/R Studio Server 
R 3.2.0 


Lorsque l'on traite des Téraoctets de données il devient difficile de travail avec un unique 
serveur. Une solution consiste alors à utiliser un cluster et pourquoi ne pas utiliser celui 
d'Apache: Hadoop. Wikitrends est un exemple d'utilisation de Hadoop analysant en temps réel 
plus de 13 Téraoctets de données. La page officielle est ici: 


http://www.wikitrends.eu/#/ 


Elle nous donne les informations suivantes en ce début 2015: 


DA 


Œikiiends TOP 50 


Découvrez la popularité de vos recherches Wikipedia. 


Suivez en direct l'évolution des thèmes les plus recherchés. DES THÈMES LES PLUS 


RECHERCHÉS SUR 
WIKIPEDIA 


Recherche par mot clé Q 
R 
ch 13” 350 
DE DONNÉES BRUTES STOCKÉS ET TRAITÉS DE DONNÉES 
PAR ANNÉE DANS NOTRE CLUSTER HADOOP MISE À DISPOSITION 


Le reste viendra... 
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25. Séries temporelles (séries chronologiques) 


Il s'agit 1c1 de présenter l'ensemble des techniques empiriques d'analyse de séries 
chronologiques et de projections dont les détails mathématiques ont été vus dans le cours 
théorique. 


Dans la pratique n'oubliez pas de faire du back-testing!!! 


Exemple 373.: Génération d'une série temporelle à partir de 


données brutes 
R 3.0.2 


On utilise la commande ts() du package zoo pour générer rapidement une série de dates sur 
une base périodique donnée (frequency=12 donnera des mois, frequency=4 donnera des 
trimestres et ainsi de suite): 


f 
R R Console EEE 


> library(zoo) 
> #création d'une ts normalement distribuée 
> data<-roundirnorm(36,50,2),2) 
> data<-ts(data,start=c(2010,1) ,frequency=12) 
> data 
Jan Feb Mar Apr Hay Jun Jul Aug Sep Oct Noy Dec 
2010 45.83 51.21 49.65 47.71 49.684 48.14 51.65 47.42 46.45 51.42 52.06 53.82 
2011 49.18 49.99 53.60 53.36 50.69 51.83 51.78 50.10 54.44 51.31 51.11 49.18 
2012 47.15 44.31 48.91 51.95 51.28 49.32 53.13 52.89 52.88 46.92 52.72 52.97 
> summary (data) 
Min. ist Qu. Median Mean 3rd Qu. Max. 
44.31 49.11 51.16 50.46 52.22 54.44 
> sms mensuels",main="Série chronologique!") 
> —————— 


FR R Graphics: Device 2 (ACTIVE) 


Série chronologique! 


ÉL 
D 
= 
mn 
= 
D 
= 
un 
— 
= 
[e] 
© 


2010.0 20105 2011.0 20115 20120 20125 2013.0 


Time 
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Exemple 374.: Extraire des sous-ensembles de séries 


temporelles 
R 3.02 


Il est possible d'extraire des sous-parties en spécifiant la date de début et de fin de la période 
de la série qui nous intéresse avec la commande window() du package z00: 


e 


R & Console s|g|x 


+ 


library(zoo) 

data<-roundirnorm(36,50,2),2) 

data<-ts(data,start=c(2010,1) ,frequency=12) 

#fextraire une année entière 
data.2011<-window(data,start=c(2011,1) ,end=c(2011,12)) 
fextraire un semestre 
data.2012.s2<-window(data,start=c(2012,6) ,end=c(2012,12)) 
plot(chindidata.2011,data.2012.s2),main="périodes d'intérét") 


LE AA ds ABS A: de de LORS À 


périodes d'intérêt 


52 48 51 


— 
— 
|, 
eN 

fau 
+ 
T 
TT 
NN 
— 
= 
eN 

fu 
+ 

(al 
TD 


2011.0 2011.5 2012.0 20125 


Time 
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Exemple 375.: Lire des données temporelles 
R 3.02 


Ce qui va suivre ne devrait normalement pas nécessiter d'explications théoriques. Il va s'agir 
avec la package zoo et la commande read.zoo() de traiter un fichier *.csv qui suppose que la 
première colonne est des dates: 


Fichier Edition Format Affichage 2 


l'Date" ;"Open";"High";"Low":;"Close";"Votume":"24 dj Close" 
"44":2010-10-29:118.28:118.72;118.07;118.49;144305500;110.71 
"45":2010-10-28:119 06:119.11:117.83:118.4:168576000,110.62 
"46":2010-10-27:11789:118.51:117.26,118.38:190024000;110 61 
"47":2010-10-26,118.1:118.84:117.87:118.72;158982900;:110 92 
"43":2010-10-25:119.14:119.76:118.61:118.7:151145700;110.9 
"49:2010-10-22:,118.31:118.53:118:118.35:108212400;110.58 
"50":2010-10-21:118.4:11909:117.21:118.13:221585500;110.37 
"51":2010-10-20;,116.94:118.44:116.87:117.87;200051800;110.13 
"52"-2010-10-19:117.19:11785:11602;116.73;280604700;109 Oé 
"53":2010-10-18,117.74:118.67:117.31:118.28:141204800;110.51 
"54":2010-10-15:118.28:118.35:116.76;117.7;243705000;109 97 
"55":2010-10-14,11781:11801;116.72;117.46,217764300;109.75 
"56":2010-10-13:117.66,118.55:117.38;117.92:194347200;110.18 
"57":2010-10-12,116.27:117.35:11565;117.01,182210000;109.33 
"58":2010-10-11:116.72:11697:11625:11665:103098300;108 99 
"59"-2010-10-08,116.05:11686:115.61:116.54;,177760100;108.89 


« 


Nous avons alors: 
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| PICIES 


R R Console 


> library(zoo) 
> tsa<-read.zoo("C:/YahooSPY.csv",sep=";", header=T, format="$Y%-%m-$da") 
> plot(tsa) 


“| R R Graphics: Device 2 (ACTIVE) So |S|Xx 
tsa 
« 
[=] [=] 
_ 
EE a D & 
D (Te 
a © 
O ge O 8 
# 8 
e + 
D 
a D + 
oO 
= + 
© 5 8 
© D 
DE o = 2 
oO 
a 
+ ë 
A 
£ D 
z © = 
© [e 
5 È —. 
Le, 
< 
= 
+ 
[=) 
+ 
1995 2000 2005 2010 1995 2000 2005 2010 
index index 


Figure 307 Graph de séries temporelle de variables multiples 


On peut s'amuser à obtenir le jour où le prix de l'action a été le plus élevé avec les techniques 
de filtre habituelles de R: 


R Fichier Edition Voir Misc Packages Fenétres Aide 


> tsa[which.max(tsaf$Close)] 

Open High Low Close Volume idj.Close 
2007-10-09 155.6 156.5 155.03 156.48 94054300 136.84 
> | 


Ensuite, nous pouvons mesurer et afficher la répartition statistique du rendement: 
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> ret<-diffitsa$Close)/lag(itsa$Close,k=-1) *100 
> histiret,breaks=100) 
> | 


À Histogram of ret 


Nous pouvons rechercher le maximum dans une certaine fenêtre de temps et calculer 
basiquement la VaR historique: 


= 
[=] 
[en 
D 
=] 
[ex 
D 
[sf 
LL 


> ret 2010<-window(ret,start='2010-01-01' ,end='2010-12-31"} 
> ret 2010[which.max(ret 2010)] 
2010-05-10 
4.404099 
> #VaR historique 


> quantileiret 2010,probs-=0.01) 
15 


-3.302642 
> | 
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Exemple 376.: Test de Durbin-Watson 
R 3.32 


Nous avons introduit dans le cours théorique la statistique de Durbin-Watson. Nous n'avons 
pas fait de calculs à la main ou dans le tableur Microsoft Excel car c'est vraiment trop 
laborieux. Notre seul propose 1ic1 va être de voir comment Minitab affiche la statistique et 
comparer cette dernière à R. 


Nous chargeons pour cela le fichier DurbinWatson.csv: 


FR RGui (64-bit) - [R Console] 


R File Edit View Misc Packages Windows Help 


> mydata<-read.csv("c:/tmp/DurbinWatson.csv",header=T,sep=",") 

> mydata 

Periode Ventes 
144 
151 
134 
151 
145 
145 
141 
166 
151 
164 
151 


] O (1 :B NN + 


Nous utilisons ensuite la fonction durbinWatsonTest( ) du package car: 
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AR RGui (64-bit) - [R Console] 
4 File Edit View Misc Packages Windows Help 


> library(car) 
> durbinWatsonTest (1m(Ventes-Periode,data=mydata) ,alternative="two.sided") 
lag Autocorrelation D-W Statistic p-value 


1 -0.3680613 2.712148 0.156 
Alternative hypothesis: rho != 0 
>| 


Donc nous avons la même valeur DW que Minitab à la différence que nous avons beaucoup 
plus d'informations utiles et que nous savons à quoi nous en tenir! De plus nous avons de 
nombreux paramètres de calculs avec R qui n'existent pas avec Minitab!!! 


Nous pouvons aussi comparer avec la fonction dwtest( ) du package Imtest: 


 RGui (64-bit) - [R Console] 
4 File Edit View Misc Packages Windows Help 


> library(lmtest) 
> dwtest (1m(Ventes-Periode,data=mydata),alternative="two.sided") 


Durbin-Watson test 
data: lm(Ventes - Periode, data = mydata) 


DW = 2.7121, p-value = 0.1544 
alternative hypothesis: true autocorrelation is not 0 


> | 
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Exemple 377.: Test des suites (test de Walf-Wolfowitz) 
R 3.0.2 


Comme à l'habitude le but va être de vérifier que le logiciel utilise les résultats démontrés 
dans le cours théorique avec un exemple implicitement lié à une série temporelle (les "0" étant 
des "baisses" et les "1" étant des valeurs "haussières"). La question étant de savoir si les 
séquences peuvent être considérées comme aléatoires ou non statistiquement parlant. 


Nous devrions aussi retrouver les calculs faits à la main et à l'aide de MS Excel. 


Nous allons utiliser la commande runs.test() du package tseries: 


1 


<< RGui (64-bit) - [RC 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


library(tseries) 
Tendancest-c10;0,0;:1;:1,0,1,0:0;1,1,0;:1;:0,0:0,1;1,0;,1;0,0:1;:0;1,1,0,:0,0,0; 
+ drsl:000,1:1:4,1:09,0;1:0:1:0:0:0,1;:1:0,1,:0;:0,0,4:1:14,0:1.,1:0,0,1:1,1:0;:0,0;:0;1;01 
> runs.test (as.factor (Tendances)) 


Runs Test 
data: as.factor (Tendances) 
Standard Normal = 0.305, p-value = 0.7604 


alternative hypothesis: tuwuo.sided 


> | 


Bien que nous retrouvions les calculs faits dans le cours théorique, il est dommage que R ne 
renvoie pas plus d'informations. Je préfère Minitab à ce niveau là et ce même si la 
conclusion reste la même! 
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Exemple 378.: Test simple de Dickey-Fuller 
R 3.6.0 


Dans le cours théorique nous avons démontré non sans mal la loi asymptotique de la 
distribution du test simple de DF pour le cas sans constante et sans drift. Avant de voir 
comment utiliser ce dernier, voyons comment en reproduire les valeurs critiques grâce au 
code par simulation de Monte Carlo fournit par le professeur Hanck Christoph: 


r 


R EEE 
> T4<= 20 
> reps <-— 1000000 
Fa 
> DFstats <- rep(NA,reps) 
> 
> for (i in 1:reps)!{ 
+ u <— rnorm(T) 
+ W <— 1/sqgrt(T) *“cumsum(u) 
+ DFstats[i] <- (W[T]"2-1)/(2*sqrt(mean(wW”2))) 
S Ne: 
> 
> (CriticalValues <- sort (DFstats)[c(0.01,0.05,0.1)*reps]) 
[1] -2.582982 -1.926346 -1.600071 
> 
> #plot et comparaison avec la loi normale 
> plot(density(DFstats),lwd=2,col=c("deeppink2")) 
> xax <- seq(-4,4,by=.1) 
> lines (xax, dnorm(xax),lwd=2,col=c("chartreuse4")) 
>| 
1 = — 
R À Graphics: Device 2 (ACTIVE EEE 
density.default(x = DFstats) 
Ds 
o 
ce 
o 
E 
[72] 
= 
D 
OO oo 
S 
a 
o ] 
T T I T T T 
-6 4 -2 0 2 4 
N=1000000 Bandwidth = 005457 


On retombe bien donc sur les valeurs données dans les tables! 


Maintenant pour la suite, construisons deux processus stochastiques de type bruit blanc, un 
stationnaire et l'autre qui ne l'est pas: 
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Sciences.ch 


E 


| 


GR R Console [= [oO & | 
> set.seed(1234) 
> T <-— 100 
> #processus de Wiener stationnaire 
> wn <-—- rnorm(T) 
> #processu de Wiener non-stationnaire 
> rw <—- cumsum(rnorm(T)) 
> plot(il:T, wn ,; type = "l", col="red") 
> par (new=TRUE) 
> plot(l:T, rw , type = "l", col="green") 
> | 
—— - | 
Re phics: Device 2 (ACT Ss|g|Xx] 
œ 
[ï 
[0] 
T 
[ï 
+ 
o 
Y 
[ON 
L 
ou 
ù 


ET 


Maintenant voyons d'abord le test simple de Dickey-Fuller avec le package tseries et sa 
fonction adf.test( ): 
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UR RGui (64-bit) - [R Console] — Ü 


QR File Edit View Misc Packages Windows Help -_ _| 


> library("tseries") 
| > #on pose k=0 pour forcer le test simple de DF 
> adf.test (wn, k=0) 


Augmented Dickey-Fuller Test 
data: wn 
Dickey-Fuller = -8.8153, Lag order = 0, p-value = 0.01 
alternative hypothesis: stationary 
Warning message: 
In adf.test(wn, k = 0) : p-value smaller than printed p-value 
> adf.test (rw) 
Augmented Dickey-Fuller Test 
data: rw 
Dickey-Fuller = -3.113, Lag order = 4, p-value = 0.1156 


alternative hypothesis: stationary 


> | 


Et avec le package urca et sa fonction ur.df() d'abord sur le bruit blanc stationnaire: 
Ne) 
Ÿ 
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MR RGui (64-bit) - [R Console] — O X 


GR File Edit View Misc Packages Windows Help UE: 


Be 


> summary(ur.df(wn, type="none", lags=0)) 


PPDA PE DD AD M M M MM MN 
# Augmented Dickey-Fuller Test Unit Root Test # 
PPDA PE MD A M M M M M M M M MMM 


Test regression none 

Call: 

im(formula = z.diff - z.lag.1l -— 1) 
Residuals: 


Min 10 Median 3Q Max 
-2.5183 -0.8053 -0.3356 0.4996 2.5490 


Coefficients: 
Estimate Std. Error t value Pr(>|tl) 
z.lag.1i -0.8409 0.1013 —-8.3 5.77e-13 


Residual standard error: 1.002 on 98 degrees of freedom 
Multiple R-squared: 0.4128, Adjusted R-squared: 0.4068 
F-statistic: 68.9 on 1 and 98 DF, p-value: 5.775e-13 


Value of test-statistic is: -8.3004 
Critical values for test statistics: 
ipct Spct 10pct 


Caul —-2:6 1-95 -1-61 


> | 


Et sur le bruit non-stationnaire: 
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R RGui (64-bit) - [R Console] 


ŒR File Edit View Misc Packages Windows Help 
SROISEBIOIE 


> summary(ur.df(rw, type="none", lags=0)) 


PP PP PP RP MR 
# Augmented Dickey-Fuller Test Unit Root Test # 
PR PP DE M 


Test regression none 


Call: 
im(formula = z.diff - z.lag.1i -— 1) 


Residuals: 
Min 10 Median 3Q Max 
-2.55550 -0.54426 0.06336 0.62735 3.11133 


Coefficients: 
Estimate Std. Error t value Pr(>{t|) 
z.lag.1 -0.04368 0.03227 -1.354 0.179 


Residual standard error: 1.028 on 98 degrees of freedom 
Multiple R-squared: 0.018355, Adjusted R-squared: 0.008336 
F-statistic: 1.832 on 1 and 98 DF, p-value: 0.179 


Value of test-statistic is: -1.3536 
Critical values for test statistics: 


ipct Spct 10pct 
taul -2:6 -1,95 -1.:61 


> | 
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Exemple 379.: Contrôle de la stationnarité d'une série 


temporelle 
R 3.02 


Nous utilisons pour cela la commande is.regular du package z00: 


DRE RGui (64-bit) -[ 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> library(zoo) 

> data<-round(rnorm(36,50,2),2) 

> data<-ts(data,start=c(2010,1) ,frequency=12) 
> is.regular (data) 

[1] TRUE 

> | 


et aussi bien évidemment avec la suite de hausses/baisses: 


UE RGui (64-bit - 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


library(zoo) 
» Tendances<-0(0,0,0;,1;1,0,1,0,0;,1,1,0,1,0,0,0,1,1,0,1,0:0;1,0,1,1,0,0,0,0, 


+ 1,1,0,0,1,1,1,1,0,0,1,0,1,0,0;,0,1,1,0,1,0,0,0,1;,1,1,0,1,1,0,0,1,1,1,0,0,0,0,1,0) 
> is.regular (Tendances) 

[1] TRUE 

> | 
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Exemple 380.: Régression linéaire avec dates 
R 3.5.1 


C'est une question classique de ceux qui travaillent avec Microsoft Excel. Comment faire une 
régression linéaire d'une série temporelle. 


Eh bien (hormis l'aspect esthétique du graph déjà traité antérieurement avec les couleurs, 
affichage de la corrélation et de l'équation), il suffit d'écrire: 


le x 


OIOIES 


data<-c(143,152,161,139,137,174,142,141,162,180,164,171,206,193,207,218,229,225, 
204,227,223,242,239,266) 

data<-ts(data,start=c(2010,1),frequency=12) 

> start (data) 

[1] 2010 1 

> end(data) 

[21 2011 12 

> plot (data) 

> HR dc cou 

> 


V + V 


M À Graphics: Device 2 (ACTIVE) se) 


C1] 


data 
160 180 200 220 240 260 


140 


2010.0 20105 20110 20115 


Time 
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Exemples 381.: Modèles ETS (Error Trend Seasonality) 
R 3.0.2 


Décomposition d'une série temporelle par modèle additif et 
multiplicatif 


Nous allons ici reprendre le même exemple que dans le cours théorique en utilisant la 
commande decompose( ) du package z00: 


R & Console EEE 


set.seed{1) 

library(zoo) 

alea<-round(rnorm(36,10,20),2) 
data<-alea+4*{(alea+20)+50*sin(alea*2#pi*1/12)+20*sin(alea*2pi*1/64) 
data.ts<-ts(data,start=c(2010,1),frequency=12) 

data.decom<-decompose (data.ts,type="additive") 

plotess 


> 
> 
> 
> 
> 
> 
> = = 
> IR R Graphics: Device 2 (ACTIVE) 
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Figure 308 Graph de décomposition RSTO d'une série temporelle 


Nous n'avons pas étudié dans le cours théorique comment décomposer une série avec un 
modèle multiplicatif mais voyons quand même comment faire (avec exactement les mêmes 
données): 
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R R Console 


> set.seedi{1) 

> library(zoo) 

> alea<-round(rnorm(36,10,20),2) 

> data<-alea+4*{(alea+20)+50fsin(alea*2#pi*1/12)+20#*sin(alea*2*pif1/64) 
> data.ts<-ts(data,start=c(2010,1) ,frequency=12) 

> data.decom<-decompose (data.ts,type="multiplicative") 

> plotf 

> | 


Decomposition of multiplicative time series 
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Faisons à nouveau la même chose mais avec un cas trivial pour voir comment les algorithmes 
de décomposition performent en additif: 
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R 8 Console ss |x) 


set.seed{(1) 

library(zoo) 

seg.bas<-segii,36;1) 

alea<-round(rnorm(36,10,20),2) 
data<-alea+4*(seq.bas+20)+50*sin(seq.bas*2tpiti/12)+20*sin(seq.bas*2tpit1/64) 
data.ts<-ts(data,start=c(2010,1) ,frequency=12) 

data.decom<-decompose (data.ts,type=c{"additive")) 

plot (data.decom) 


VVVNNNNNNY 
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Comme quoi un modèle reste un modèle... 


Avec la commande ts.plot() du package z00, nous pouvons plotter que les composantes et 
les mélanges qui nous intéressent: 
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R R Console 


> #il est possible d'obtenir les composantes voulues seulement 
> trend<-data.decom$trend 

> seasonal<-data.decom$seasonal 

> {chind(trend,trend+seasonal),lty=1:2) 

> 


2010.0 20105 2011.0 20115 2012.0 20125 2013.0 


Time 


Sinon avec le package forecast et les fonctions aüutplot( ) et stl( ) nous pouvons obtenir: 
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F n! 
MR Console || El. |[L Es 
> set.seed(1) 
> library("forecast") 
> alea<-round(rnorm(36,10,20),2) 
> data<-alea+4* (alea+20)+50*sin(alea*2*pi*1/12)+20*sin(alea*2*pi*1/64) 
> data.ts<-ts(data,start=c(2010,1),frequency=12) 
> autoplot (stl(data.ts,s.window="periodic")) 
> | 
KR Graphics: Device 2 (ACTIVE) se) LE | 
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200 - 
pu 
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Lissage par moyenne mobile simple 


Nous allons ici vérifier que nous obtenons bien les mêmes résultats que ceux obtenus dans le 
cours théorique et donc avec les mêmes données brutes et les comparer accessoirement avec 
ce que nous avons obtenu dans Microsoft Excel et Minitab. 


Nous allons utiliser pour cela la commande filter( ) du package zoo et les mêmes données 
que dans le cours théorique (données visibles ci-dessous dans la colonne data) 


R 
R File Edit View Misc Packages Windows Help 


ÉSOISESIOIÉ 


data<-c(200,135,195,197,310,175,155,130,220,277,235) 

#choix du nombre de périodes k à utiliser dans le calcul de la moyenne 
data.ma3<-filter (data,sides=-1,c(rep(1,3))/3) 
data.maS<-filter(data,sides=1,c(rep(1,5))/5) 

> cbind(data,data.ma3,data.mas5) 

Time Series: 

Start = 1 

End = 11 

Frequency = 1 

data data.ma3 data.mas 


VUYUVNV 


277 209.0000 19L.: 

235 244.0000 203. 

> ts.plot (data,data.ma3,data.maS,col=1:3,1lwd=2,xlim-c(1,13),ylim=c(100,450)) 

> OR ET ee Os 
> 


1 200 NA NA 
2 135 NA NA 
3 195 176.6667 NA 
4 197 175.6667 NA 
5 310 234.0000 207.4 
6 -1175 227-3333 202.4 
1 155.213.9333 206.4 
8 130 153.3333 193.4 
9 220 168.3333 198.0 
10 4 
11 4 


Donc tout est parfaitement conforme. Au niveau graphique cela donne donc: 


R R Graphics: Device 2 (ACTIVE) (SES 


—— Observations 
MA(3 


—— MAG 


400 
L 


Ou avec le package z00 et sa fonction rollmean( ): 
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R RGui (64-bit) - [R Console = (ns 
| R File Edit View Misc Packages Windows Help - 5 x 


> library("zoo") 

> rollmean(data,3) 

| [1] 176.6667 175.6667 234.0000 227.3333 213.3333 153.3333 168.3333 209.0000 244.0000 
> 
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Lissage exponentiel simple 


Nous utilisons les mêmes données que dans le cours théorique nous laissons R trouver la 
meilleure valeur du paramètre du modèle en utilisant la commande HoltWinters(}) native de 
R: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> data<-c(143,152,161,139,137,174,142,141,162, 180, 164,171,206,193,207,218,229,225, 
+ 204,227,223,242,239,266) 

> ses<-HoltWinters(data,beta=FALSE, gamma=FALSE) 

> ses 

Holt-Winters exponential smoothing without trend and without seasonal component. 


Call: 
HoltWinters(x = data, beta = FALSE, gamma = FALSE) 


Smoothing parameters: 
alpha: 0.6542287 
beta : FALSE 
gamma: FALSE 


Coefficients: 
C1] 

a 256.2158 

> ses$SSE 

[1] 7169.235 

> plotises) 

> | 


« 


Nous retrouvons donc la même valeur du paramètre alpha que dans le cours théorique (où 
nous avions fait les calculs avec MS Excel) et dans le cours Minitab. 


Pour la valeur de 256.2158 à quelques pourcents près non significatifs c'est à peu près 
conforme au cous théorique et à Minitab. Mais attention à ces petites différences lorsque l'on 
gère des projets dont les ordres de grandeur est le milliard de $.. 


Par contre il est dommage que R ne nous indique par les valeurs classiques d'erreurs que sont 
les MAD, MSD et MAPE. Mais nous pouvons retrouver le MSD avec le calcul simple 
suivant: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> ses$SSE/lengthidata) 


[1] 298.7181 
> | 
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Donc à un pourcentage non significatif près, nous retrouvons la même que dans le cours 
théorique et qu'avec Minitab. 


Nous pouvons utiliser la commande native predict() pour faire des projections. Ici nous 
allons faire un exemple aberrant allant au-delà d'une période: 


ff 
R R Console SEE 


+ 


data<-c(143,152,161,139,137,174,142,141,162,180,164,171,206,193,207,218,229,225, 
204,227,223,242,239,266) 

data<-ts(data,start=c(2010,1),frequency=12) 

ses<-HoltlWinters(data,beta=FAiLSE, gamma=FAiLSE) 

data.predict<-predict (ses,n.ahead=12) 

ts.plot (data,data.predict,ltvy=1:2,col=c{i"black","red")) 


VVNNNN+V 
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2010.0 20105 2011.0 20115 20120 20125 2013.0 


Time 


On peut faire mieux avec la fonction ses() et la package fpp: 


GR RGui (64-bit) - [R Console] 


GR File Edit View Misc Packages Windows Help - sx 
SOSIOIE 


library("fpp") 
data<-c(143,152,161,139,137,174,142,141,162,180,164,171,206,193,207,218,229,225, 
204,227,223,242,239,266) 
data<-ts(data,start=c(2010,1),frequency=12) 
fitil <- ses(data, alpha=0.2, initial="simple", h=3) 
fit2 <- ses(data, alpha=0.6542, initial="simple", h=3) 
fit3 <- ses(data, h=3) 
plot(fitil,PI=F, ylab="Oil (millions of tonnes)", 
xlab="Year", main="", fcol="white", type="o") 
lines(fitted(fitl), col="blue", type="o") 
lines(fitted(fit2), col="red", type="o") 
lines(fitted(fit3), col="green", type="o") 
lines(fitl$mean, col="blue", type="o") 
lines(fit2$mean, col="red", type="o") 
lines(fit3$mean, col="green", type="o") 
legend("topleft",lty=1, col=c(1,"blue","red","green"), 
c("data", expression(alpha == 0.2), expression(alpha == 0.6542), 
expression(alpha == 0.89)),pch=1) 


VER DAAAAAALA AA AAA SA" 
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Ce qui donne: 


À Graphics: Device 2 (ACTIVE) ss (x) 
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On peut obtenir des détails sur les séries: 


R Statistical Software 2363/3133 


Vincent ISOZ, Daname KOLANI 


Sciences.ch 


MR RGuï (64-bit) - [R Console. 
ŒR File Edit View Misc Packages Windows Help 


SIA BEL) el | 


> fiti 

Point Forecast Lo 80 
Jan 2012 230.1907 198.3629 
Feb 2012 230.1907 197.7326 
Mar 2012 230.1907 197.1143 
> fit? 

Point Forecast Lo 80 
Jan 2012 256.2149 234.0652 
Feb 2012 256.2149 229.7465 
Mar 2012 256.2149 226.0396 
> fit3 

Point Forecast Lo 80 
Jan 2012 256.0941 232.9807 
Feb 2012 256.0941 228.5214 
Mar 2012 256.0941 224.6891 


> fit2$model 
Simple exponential smoothing 


Call: 
ses(y = data, h = 3, initial = 


Smoothing parameters: 
alpha = 0.6542 


Initial states: 
1 = 143 


sigma: 17.2835> 
> fit2$modelS$state 
Jan Feb Mar 
2009 


2010 143.0000 148.8878 156.8116 145.1593 139.8215 162.1811 148.9786 143.7590 155.6923 171.5944 166.6261 169.4875 
2011 193.3740 193.1293 202.2035 212.5376 223.3073 224.4147 211.0594 221.4877 222.4771 235.2490 237.7029 256.2149 


>| 


Hi 80 
262.0184 
262.6487 
263.2671 


Hi 80 
278.3645 
282.6833 
286.3901 


Hi 60 
279.2074 


283.6667 
287.4990 


“simple”, 


Apr 


Lo 95 
181.5143 
180.5503 
179.6047 


Lo 95 
222.3399 
215.7349 
210.0658 


Lo 95 
220.7453 


213.9254 
208.0643 


alpha = 


May 


Hi 95 
278.8670 
279.8310 
280.7766 


Hi 95 
290.0898 
296.6948 
302.3639 


Hi 95 
291.4429 
298.2627 
304.1238 


0.6542) 


Jun 


= e) 


6 *%x 


Jul Aug Sep Oct Nov Dec 
143.0000 


R Statistical Software 


2364/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Lissage exponentiel double selon Holt (modèle additif) 


Nous utilisons les mêmes données que dans le cours théorique nous laissons R trouver la 
meilleure valeur des paramètres du modèle en utilisant la commande HoltWinters() native 
de R: 


- 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> data<-c(143,152,161,139,137,174,142,141,162,180,164,171,206,193,207,218,229,225, 
+ + 204,227,223,242,239,266) 

> ses<-HoltlWinters (data, gamma=FALSE) 

> ses 

Holt-Winters exponential smo thing with trend and without seasonal component. 


Call: 
HoltWintersix = data, geuma = FALSE) 


Smoothing parameters: 
alpha: 0.5010704 
beta : 0.0722999 
gamma: FALSE 


I Coefficients: 
C;1] 
a 256.262207 
FE 6.207572 
> ses$SSE 
[1] 6322.605 
> plotises) 


Rappelons que ce modèle est sensible au choix de la méthode de calcul de départ. 


Aünsi les deux coefficients sont très différents (+ de 40%) de ceux calculés à la main dans le 
cours théorique”. Par rapport à Minitab*”, la différence est de l'ordre de 5%. 


Évidemment le meilleur choix est celui qui minimise le SSE. Ainsi dans le cours théorique, 
nous avions obtenu un SSE d'un peu plus de 10'000... et avec Minitab de l'ordre de 6430... 
donc R fait mieux si l'on peut dire... 


Le graphique donne quant à lui: 


38 Respectivement 0.463 et 0.041 
# Respectivement 0.4759 et 0.0977 


R Statistical Software 2365/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Holt-Winters filtering 
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Je n'ai par contre pas trouvé comment faire un lissage exponentiel double selon la méthode de 
Brown. à 


Nous pouvons utiliser la commande native predict(}) pour faire des projections. Ici nous 
allons faire un exemple aberrant allant au-delà d'une période: 
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R & Console 


data<-c(143,152,161,139,137,174,142,141,162,180,164,171,206,193,207,218,229,225, 
+ 204,227,223,242,239,266) 

data<-ts(data,start=c(2010,1) ,frequency=12) 

ses<-HoltWinters (data, gamma=FAiLSE) 

data.predict<-predict(ses,n.ahead=12) 

ts.plot (data,data.predict,lty=1:2,col=c{("hblack","red")) 


2010.0 20105 2011.0 20115 2012.0 20125 2013.0 


Time 


Étudions également un cas très instructeur. La différence entre la fonction HoltWinters() et 
la fonction ets() qui pourtant tous deux utilisent en théorie le même modèle additif de Holt. 
Voyons donc cela: 
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R RGui (64-bit) - [R Console] — 


GR File Edit View Misc Packages Windows Help = 0% 


library (forecast) 
serie<-c(143,152,161,139,137,174,142,141,162,180,164,171,206, 
193,207,218,229,225,204,227,223,242,239,266) 

ets(ts(serie)) 

ETS (A,A,N) 


V+V V 


Call: 
ets(y = ts(serie)) 


Smoothing parameters: 
alpha = 0.3072 
beta = 1e-04 


Initial states: 
1 = 141.3296 
b = 4.7128 


sigma: 16.1923 


AIC AICC BIC Ë 
215.5552 218.8886 221.4455 
> | 
Comme nous pouvons le voir les résultats sont très différents! !!!! Pourquoi donc? 
Ÿ 


Eh bien les raisons sont bien expliquées ici (auteur d'un livre de 360 pages sur le lissage 
exponentiel): 


https://robjhyndman.com/hyndsight/estimation2/ 


(( 


I have a question about the ets() function in R, which I am trying to use for Holt-Winters exponential 
smoothing. My problem is that I am getting very different estimates of the alpha, beta and gamma parameters 
using ets() compared to HoltWinters(), and I can’t figure out why. 


This is a common question, so I thought the answer might be of sufficient interest to post here. 
There are several issues involved. 


L Holtwinters() and ets() are optimizing different criterion. Holtwinters() is using heuristic values 
for the initial states and then estimating the smoothing parameters by optimizing the MSE. ets() is 
estimating both the initial states and smoothing parameters by optimizing the likelihood function (which 
is only equivalent to optimizing the MSE for the linear additive models). 


2. The two functions use different optimization routines and different starting values. That wouldn’t matter 
if the surfaces being optimized were smooth, but they are not. Because the MSE and likelihood surfaces 
are both fairly bumpv, it is easy to find a local optimum. The only way to avoid this problem is to use a 
much slower computational method such as PSO. 


3. ets() searches over a restricted parameter space to ensure the resulting model is forecastable. 
Holtwinters() ignores this issue (it was written before the problem was even discovered). See this 
paper for details (equivalently chapter 10 of my exponential smoothing book). 


I have experimented with many different choices of the starting values for the initial values and smoothing 

parameters, and what is implemented in ets() seems about as good as is possible without using a much 

slower optimization routine. Where there is a difference between ets() and Holtwinters() , the results from 
ets() are usually more reliable. 
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Sinon on a encore une autre approche possible, toujours avec le package fpp mais avec la 


fonction holt( ) : 

UR RGui (64-bit) - [R Console] — O 

| 

| R File Edit View Misc Packages Windows Help 5 x 


EAROISGE 


VVNNVNVNVNVNVNENNNNN HV NV 


library("fpp") 
data<-c(143,152,161,139,137,174,142,141,162,180,164,171,206,193,207,218,229,225, 
204,227,223,242,239,266) 
data<-ts(data,start=c(2010,1),frequency=12) 

fiti <- holt(data, alpha=0.8, beta=0.2, initial="simple", h=5) 
fit2 <- holt(data, alpha=0.463, beta=0.041, initial="simple", h=3) 
fit3 <- holt(data, initial="simple", h=3) 

plot(fitl,PI=F, ylab="Oil (millions of tonnes)", 

xlab="Year", main="", fcol="white", type="o") 
lines(fitted(fitil), col="blue", type="o") 

lines(fitted(fit2), col="red", type="o") 

lines(fitted(fit3), col="green", type="o") 

lines(fitlS$mean, col="blue", type="o") 

lines(fit2$mean, col="red", type="o") 

lines(fit3S$mean, col="green", type="o") 


Ce qui donne visuellement: 
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Lissage exponentiel triple selon Holt et Winters (modèle multiplicatif) 


Nous utilisons les mêmes données que dans le cours théorique et nous laissons R trouver la 
meilleure valeur des paramètres du modèle toujours en utilisant la commande HoltWinters( ) 
native de R: 


L- 


R Fichier Edition Voir Misc Packages Fenêtres Aide 
SES 


> data<-c(143,152,161,139,137,174,142,141,162,180,164,171,206, 
+ 193,207,218,229,225,204,227,223,242,239,266 
> data<-ts(data,start=c(2010,1),frequency=4) 
> data 
Qtri Qtr£z Qtr3 Qtr4 
2010 143 152 161 139 
2011 137 174 142 141 
2012 162 180 164 171 
2013 206 193 207 218 
2014 229 225 204 227 
2015 223 242 239 266 
> ses<-HoltWinters(data,seasonal="multiplicative") 
> ses 
Holt-Winters exponential smoothing with trend and multiplicative seasonal component. 


Call: 
HoltWintersix = data, seasonal = "multiplicative") 


Smoothing parameters: 
alpha: 0.3965917 
beta : 0.1566888 
gamma: 1 


Coefficients: 
C;:1] 
577065 
.916297 
.-047806 
.-089780 
-022911 
-092057 
> ses$SSE 
[1] 5597.456 
> plotises) 


4 


Nous ne pouvons pas ici comparer avec Minitab puisque ce dernier n'est pas capable de 
trouver les 3 paramètres optimaux. Par contre par rapport faits à la main dans le cours 
théorique il n'y a aucune comparaison possible. relativement différent pour les paramètres de 
lissage où nous avions obtenu dans le cours théorique: 


a = 0.329, B =1.06, 7 =1 


et: 
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a = 249.38 
b=5.58 
s, = 0.961 
s, = 1.022 
s, = 1.082 
s, = 0.934 


Mais comme nous l'avons mentionné dans le cours théorique, ce modèle est aussi sensible à la 
manière de calculer les toutes premières valeurs et comme il existe de nombreuses règles 
empiriques, c'est la raison pour laquelle vous aurez peu de chance de trouver deux logiciels 
qui donnent le même résultat pour ce modèle. 


Ceci étant dit, le plot nous donne quant à lui: 


Holt-Winters filtering 


180 220 260 
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140 


2011 2012 2013 2014 2015 


Time 


Nous pouvons obtenir si besoin est (très utile dans certains cas) que les coefficients du modèle 
ou même un seul coefficient: 
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»> data<s-c(143,152,161,139,137,174,142,141,162,190,164,171,206, 
+ 193,207,218,229,225,204,227,223,242,239,266) 


> data<-ts(data,start=c(2010,1) ,frequency=4) 


> data 


Qtri Qtr2 


2010 
2011 
2012 


143 
137 
162 
206 
229 
223 


2013 
2014 
2015 


152 
174 
150 
193 
225 
242 


Qtr3 
161 
142 
164 
207 
204 
239 


Qtr4 
139 
141 
171 
218 
227 
266 


> ses<-HoltWinters (data,seasonal="multiplicative") 


> ses$coef 
a 
243.577065 


5 


> ses$fcoef{[3] 


si 
1.047806 
> | 


« 


ou obtenir que les valeurs lissées des différentes composantes du modèle tel que calculé dans 


È 


le cours théorique: 


b 
916297 


si 


1.047806 


32 
1.089780 


33 
1.022911 
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> sesffitted 


2011 
2011 
2011 
2011 
2012 
2012 
2012 
2012 
2013 
2013 
2013 
2013 
2014 
2014 
2014 
2014 
2015 


4 


Q1 
Q2 
Q3 
Q4 
Q1 
Q2 
[ex 
Q4 
O1 
Q2 
Q3 
Q4 
O1 
Q2 
[ex 
Q4 
O1 


xhat 
132.4494 
173.4503 
161.4537 
130.3467 
135.0593 
156.5285 
155.6841 
157.1619 
175.9292 
214.4105 
156.8478 
195.7691 
235.6713 
227.6209 
234.4539 
224.0002 
236.7048 


level 
145.8750 
151.0176 
151.6389 
144.8316 
145.8247 
160.6560 
160.3010 
163.9987 
171.6761 
156.2965 
153.3836 
194.83684 
207.2120 
210.7371 
215.2919 
209.3112 
214.0460 


trend 
0.11250000 
0.43099592 
0.46086215 


-0.67943637 


0.05362778 
1.90141226 
1.54740561 
1.688476213 
2.79356318 
4.64906731 
3.46268378 
4.71655636 
5.91764683 
5.54245727 
5.368750734 
3.60396633 
3.768136164 


season 
0.8889967 
1.1452750 
1.0614985 
0.9042297 
0.9071792 
1.1474625 
0.98504490 
0.9474235 
1.0083659 
1.1226878 
1.0000081 
0.9960619 
-.1057641 
-0524385 
-0624187 
-0520629 
-0866621 
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R R Console Sex) 


# 


> plotises$fitted,main="Composantes modèle H-W") 


4 Composantes modèle H-W 
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Nous pouvons utiliser la commande native predict(}) pour faire des projections. Ici nous 
allons faire un exemple aberrant allant au-delà d'une période: 
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data<-c(143,152,161,139,137,174,142,141,162,180,164,171,206,193,207,218,229,225, 
+ 204,227,223;:242,239,266) 

data<-ts(data,start=c(2010,1) ,frequency=4) 
ses<-HoltWinters(data,seasonal="multiplicative") 

data.predict<-predict (ses,n.ahead=12) 

ts.plot (data,data.predict,lty=1:2,col=c{"black","red")) 
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Meilleur modèle prévisionnel au sens des erreurs 


Dans le package forecast, la commande forecast(}) va effectuer une prévision en se 
comparant les erreurs d'une trentaine de modèles et afficher la projection du meilleur modèle 
considéré. 


Voyons cela avec les données utilisées dans le cours théorique: 


re 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> library(forecast) 

> data<-c(143,152,161,139,137,174,142,141,162,180,164,171,206, 
+ 193,207,218,229,225,204,227,223,242,239,266) 

> data<-ts{(data,start=c(2010,1) ,frequency=12) 

> summary(forecast (data) ) 


Forecast method: ETS (2,2,N) 


Model Information: 
ETS (À,2,N) 


Call: 


ets(y = object, lambda = lambda) 


Smoothing parameters: 
alpha 0.0057 
beta 0.0057 


Initial states: 
= 124.7493 
5.0427 
14.0614 


AIC AICC BIC 
211.1582 213.2635 215.8705 


Donc le meilleur modèle est un modèle ETS(A,A,N) ce qui signifierait que c'est un modèle 
additif de Holt-Winters avec erreurs additives. La suite donne: 
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RGui (64-bit} - [R 
R Fichier Edition Voir Misc Packages Fenêtres Aide 


OSIOIE 


Error measures: 


ME RMSE MàE MPE MàPE MASE 
Training set 0.7115516 14.06144 12.39515S -0.213745 7.100021 0.3659084 


Forecasts: 

Point Forecast Lo 50 Hi 50 Lo 95 Hi 95 
Jan 2012 251.8136 233.7931 269.8341 224.2537 279.3735 
Feb 2012 256.9544 238.9313 274.9775 229.3904 284.5184 
Mar 2012 262.0952 244.0673 280.1231 234.5239 289.6665 
äpr 2012 267.2360 249.2007 285.2713 239.6534 294.8186 
May 2012 272.3768 254.3308 290.4228 244.7778 299.9758 
Jun 2012 277.5176 259.4571 295.5781 249.8964 305.1388 
Jul 2012 282.6584 264.5789 300.7379 255.0082 310.3086 
Aug 2012 287.7992 269.6957 305.9026 260.1124 315.4860 
Sep 2012 292.9400 274.8070 311.0730 265.2080 320.6720 
Oct 2012 298.0808 279.9121 316.2495 270.2942 325.8674 
Nov 2012 303.2216 285.0105 321.4326 275.3702 331.0730 
Dec 2012 308.3624 290.1017 326.6230 280.4351 336.2896 
Jan 2013 313.5032 295.1851 331.8212 285.4882 341.5182 
Feb 2013 318.6440 300.2603 337.0276 290.5286 346.7594 
Mar 2013 323.76848 305.3267 342.2428 295.5556 352.0139 
Apr 2013 328.9256 310.3839 347.4672 300.5685 357.2826 
May 2013 334.0664 315.4314 352.7013 305.5666 362.5661 
Jun 2013 339.2072 320.4688 357.9456 310.5492 367.8651 
Jul 2013 344.3480 325.4956 363.2003 315.5158 373.1801 
Aug 2013 349.4888 330.5116 368.4659 320.4657 378.5118 
Sep 2013 354.6295 335.5164 373.7427 325.3985 383.8606 


« 


Donc ici nous avons un nombre d'informations très intéressantes avec les indicateurs d'erreurs 
de mesures que nous avons vu dans le cours théorique. Graphiquement le meilleur modèle 
donne: 


R Statistical Software 2376/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


R Fichier Historique Redimensionnement Fenêtres 


Forecasts from ETS(A.A.N) 


Figure 309 Graph de projection d'une série ETS 


A prendre évidemment avec des pincettes et toujours avec le même danger de lecture aberrant 
que l'on retrouve dans toute la littérature spécialisée et que nous avons déjà mentionné dans le 
cours théorique. 


On peut extraire les données de la projection en tant que data.frame facilement: 
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R RGui (64-bit) - [R Console] 


ŒR File Edit View Misc 


EBSOIS 


Packages Windows Help 


> as.data.frame(forecast (data)) 
Point Forecast 


Jan 2012 
Feb 2012 
Mar 2012 
Apr 2012 
May 2012 
Jun 2012 
Jul 2012 
Aug 2012 
Sep 2012 
Oct 2012 
Nov 2012 
Dec 2012 
Jan 2013 
Feb 2013 
Mar 2013 
Apr 2013 
May 2013 
Jun 2013 
Jul 2013 
Aug 2013 
Sep 2013 
Oct 2013 
Nov 2013 
Dec 2013 
> | 


256.0030 
260.7147 
265.4265 
270.1383 
274.8500 
279.5618 
284.2736 
288.9853 
293.6971 
298.4089 
303.1206 
307.8324 
312.5442 
317-2559 
321.9677 
326.6795 
331.3912 
336.1030 
340.8148 
345.5265 
350.2383 
354.9501 
359.6618 
364.3736 


Lo 80 
235.2517 
239.0057 
242.7995 
246.6286 
250.4892 
254.3779 
258.2922 
262.2298 
266.1887 
270.1671 
274.1637 
278-1711 
282.2061 
286.2497 
290.3070 
294.3771 
298.4593 
302.5530 
306.6574 
310: 7721 
314.8964 
319.0300 
323.1724 
327-3232 


Hi 80 
276.7542 
282.4238 
288.0535 
293.6479 
299.2109 
304.7457 
310.2549 
315.7409 
321.2055 
326.6506 
332.0776 
337.4877 
342.8822 
348.2622 
353.6284 
358.96818 
364.3231 
369.6530 
374.9721 
380.2810 
385.5802 
390.8701 
396.1512 
401.4240 


Lo 95 
224.2667 
227.5136 
230.8215 
234.1834 
237.5933 
241.0464 
244.5386 
248.0663 
251.6266 
255.2169 
258.8349 
262.4785 
266.1461 
269.8360 
273.5468 
277-2713 
281.0262 
284.7927 
288.5756 
292.3742 
296.1876 
300.0151 
303.8561 
307.7100 


Hi 95 
287.7393 
293-9159 
300.0315 
306.0931 
312.1068 
318.0772 
324.0086 
329.9044 
335.7676 
341.6009 
347.4064 
353.1863 
358.9423 
364.6759 
370.3886 
376.0817 
381.7562 
387.4133 
393.0539 
398.6789 
404.2890 
409.68850 
415.4675 
421.0372 


Toujours avec le package fpp et les fonctions ses( ) , holt() et hw() on peut compiler un 
peu toutes les méthodes vues ci-dessus (et d'autres que nous avons juste mentionné dans le 


cours théorique!): 
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| M RGui (64-bit) - [R Console] = 


R File Edit View Misc Packages Windows Help - & x 


VHHVVVVVVNVNV ENV NV NN NN NN NN HN NV 


library("fpp") 
data<-c(143,152,161,139,137,174,142,141,162,180,164,171,206,193,207,218,229,225, 
204,227,223,242,239,266) 

data<-ts (data, start=c(2010,1),frequency=12) 

fitl <- ses(data) # N,N 

fit2 <- holt (data) # AÀ,N 

£fit3 <- holt(data,exponential=TRUE) # M,N 

fit4 <- holt(data,damped=TRUE) #A d, N 

fitS <- holt(data,exponential=TRUE, damped=TRUE) #M d, N 
fit6 <- hw(data,seasonal="additive") 

fit7 <- hw(data,seasonal="multiplicative") 


options (repr.plot.width=7, repr.plot.height=6) 


plot(fit3, type="o", ylab="Livestock, sheep in Asia (millions)", 
£flwd=1, PI=FALSE) 
lines (window(data,start=2010),type="o") 
lines (fiti$mean,col=2) 
lines (fit2$mean, col=3) 
lines (fit4Smean, col=5) 
lines (fit5$mean, col=6) 
lines (fit6$mean, col=7) 
lines (fit7$mean, col=8) 
legend("topleft", lty=1, pch=i, col=1:6, 
c("Data","SES","Holt's (Add.)","Exponential (Mul.)", 
“"Additive Damped","Multiplicative Damped","HW Additive","HW Multiplicative")) 


Ce qui donne visuellement: 
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ee 


QR Graphics: Device 2 (ACTIVE) EEIES 


Forecasts from Holt's method with exponential trend 
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Figure 310 Graph de compilation de modèles ETS 
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Modèle de demandes intermittentes de Croston 


Nous avons présenté dans le cours théorique le modèle de Croston qui est un classique dans 
les cursus de Master en Supply Chain. Nous avons vu que ce modèle était très naïf... Comme 
il n'est pas stochastique, il ne permet pas d'avoir des intervalles de confiance. 


Voyons comment l'utiliser avec le package tsintermittent et sa fonction crost( ). 


Importons d'abord les données (qui ne sont pas les mêmes que dans le cours théorique car ce 
package implémente une version de Croston qui n'est pas la version naive/vanilla): 


[ 


R File Edit View Misc Packages Windows Help & 
EFEsES EE | 


> library("tsintermittent") 
> v<-read.csv("c:/tmp/Croston.csv",header=T) 
> v<-v$Ventes #pour le graphique 


> tv) 
[1] [,21 [,3] [,41 [,5] [,6] [,7] [,8] [,91 [,10] [,11] [,12] [,13] [,14] [,15] [,16] [,17] [,18] 

[1,1] 1910 874 1920 350 160 685 0 0 0 0 0 0 0 0 0 0 0 0 
[191 [,201 [,21] [,22] [,23] [,24] [,25] [,26] [,27] [,28] [,29] [,30] [,31] [,32] [,33] [,34] [,35] 

[1,] 0 0 () 0 0 0 0 0 0 0 0 0 0 0 0 0 ( 
[,36] [,37] [,38] [,39] [,40] [,41] [,42] [,43] [,44] [,45] [,46] [,47] [,48] [,49] [,50] [,51] [,52] 

[1,1] (9 0 0 0 0 (e] (e] 176 0 16 826 0 66 3798 800 1274 638 
[53] [,54] [,55] [,56] [,57] [,58] [,59] [,60] [,61] [,62] [,63] [,64] [,65] [,66] [,67] [,68] [,69] 

[1,1] 192 160 0 0 0 (e) (e) (e) (e) 0 ( 0 0 0 0 0 0 
[70] [,71] [,72] (,73] [,74] ([,75] [,76] [,77] [,78] [,79] [,80] [,81] [,82] [,83] [,84] [,85] [,86] 

[1,1] 0 0 0 0 0 0 0 0 0 ( 0 0 ( 0 0 0 0 
[,87] [,88] [,89] [,90] [,91] [,92] [,93] [,94] [,95] [1,96] [,97] [,98] [,99] [,100] [,101] [,102] 

[ie PE | (e) 0 0 ( 28 0 0 276 0 0 1072 80 1776 240 80 528 
[103] [,104] (,105] [,106] [,107] [,108] [,109] [,110] [,111] [(,112] [(,113] [,114] [,115] [(,116 

[1,] 3081 566 1483 112 272 120 0 0 (e] 0 0 0 0 0 
[117] [,118] [(,119] [,120] [,121] [(,122] [(,123] [,124] [,12S] [,126] [,127] [,128] [,129] [(,130] 

[1,1] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
[,131] [,132] [,133] [,134] [,135] [,136] [,137] [,138] [,139] [,140] [,141] [,142] [,143] [,144 

ELS1 0 (e) 0 0 0 0 0 0 0 0 (e) 0 0 160 
[,145] [,146] [,147] [,148] [,149] [,150] [,151] [,152 

[1,] 0 808 0 0 608 0 1480 184 


On peut maintenant exécuter le modèle et en afficher une version graphique: 
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Fr 


R° s | © x] 
> #Croston original (forecast sur 10 périodes) 
> horizon=10 
> fitC<-crost (v,h=horizon,init="naive",type="croston",cost="mse") 
> plot(v,type="l1") 
> lines(fitCS$frc.in,col="red",lwd=2) 
> fforecasts 
> segments (length(v),mean(fitCSfrc.out),length(v)+horizon,mean(fitC$frc.out),col="green", lwd=2) 
> | 
RE | 

R SEE) 

o 
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Lo] 
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= 
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o 
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eo + 

ro CT EE RE 
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Nous pouvons également rajouter (en bleu traitillé) la variante de Syntetos-Boylon que nous 
avons vu dans le cours théorique (ce qui change de toute façon peu le résultat dans le cas 
présent.….): 
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no pe: uen 
R ER ES 
> #Croston avec approximation de Syntetos-Boylan 
> fitSB<-crost(v,h=horizon,init="naive",type="sba",cost="mse") 
> lines(fitSBSfrc.in,col="red",lwd=2) 
> fforecasts 
> segments (length(v),mean(fitsB$frc.out),length(v)+horizon,mean(fitSB$frc.out),col="blue",lwd=25 
>| 
L | 

R se /æx) 
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Bon faut être honnête ce n'est pas vraiment convaincant comme résultat (on s'y attendait!). Il 
vaut peut-être mieux passer par une projection ETS avec un peu de LOESS... (c'est de 
l'ingénierie statistique qui vaut ce qui vaut hein!). Donc voyons cela avec le package forecast 
et sa fonction stlf( ): 
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library("forecast") 

v<-read.csv("c:/tmp/Croston.csv",header=T) 

data.ts <- ts(v,start=c(2010,1), £f=52) 

#Seasonal and Trend decomposition using LOESS Forecasting model 
£foo <- stlf(data.ts, method ="ets",level = c(50,80, S95)) 

| nesuEraus 


Forecasts from STL + ETS(A,Ad,N) 
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Exemples 382.: Comparaisons STL, ETS et TSLM 
R 3.6.3 


Comparons 1c1 les trois méthodes qui nous connues: 


e  STL (Seasonal Trend LOESS) 
e _ ETS (Error Trend Seasonal) 
e TSLM (Trend Seasonal Linear Model) 


D'abord générons une série aléatoire et affichons-là: 


r à 


er EIRE 
> set.seedi{(i) 
> alea<-round(rnorm(36,10,20),2) 
> data<-alea+4* (alea+20)+50*sin(alea*2*pi*1/12)+20*sin(alea*2*pi*1/64) 
> 
> 
> library("forecast") 
> data.ts<-ts(data,start=c(2010,1),frequency=12) 
> plot (decompose (data.ts)) 
> 
R: Devi ES ER ER 
Decomposition of additive time series 
[=] 
8 
TD 8 
do 
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® 8 
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o 
8 
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Maintenant comparison numériquement les différences en utilisant respectivement les 
fonctions str( ), stlf( ) et tsIm( ): 


MR RGui (64-bit) - [R Console] _ X 


ŒR File Edit View Misc Packages Windows Help rx 


> fpremière approche STL (Seasonal Trend LOESS) 
> forecast(stl(data.ts,s.window="periodic"),method="ets",level=c(60,80, 95),h=10) 


Point Forecast Lo 60 Hi 60 Lo 80 Hi 80 Lo 95 Hi 95 
Jan 2013 56.38825 -19.278710 132.0552 -58.8311688 171.6077 -119.824644 232.6011 
Feb 2013 73.355122 -2.311839 149.0221 -41.8642982 188.5745 -102.857773 249.5680 
Mar 2013 108.54132 32.874364 184.2083 -6.6780957 223.7607 -67.671571 284.7542 
Apr 2013 115.51974 39.852779 191.1867 0.3003195 230.7392 -60.693156 291.7326 
May 2013 132.61353 56.946575 208.2805 17.3941145 247.8330 -43.599361 308.8264 
Jun 2013 160.79500 85.128039 236.4620 45.5755784 276.0144 -15.417898 337.0079 
Jul 2013 238.32727 162.660315 313.9942 123.1078544 353.5467 62.114378 414.5402 
Aug 2013 165.48245 89.815490 241.1494 S50.2630297 280.7019 -10.730447 341.6953 
Sep 2013 210.13656 134.469597 285.8035 94.9171363 325.3560 33.923659 386.3495 
Oct 2013 174.02163 98.354673 249.6886 S5S8.8022121 289.2411 —2-191265 350-2345 


> 
> #deuxième approche ETS (Error Trend Seasonal) 
> stlf(data.ts, method ="ets",level=c(60,80, 95),h=10) 


Point Forecast Lo 60 Hi 60 Lo 80 Hi 680 Lo 95 Hi 95 
Jan 2013 57.499560 -17.319251 132.3104 -56.426299 171.4175 -116.732908 231.7241 
Feb 2013 70.91653 -3.898318 145.7314 -43.005366 184.8384 -103.311976 245.1450 
Mar 2013 110.22072 35.405872 185.0356 -3.701176 224.1426 -64.007786 284.4492 
Apr 2013 111.59091 36.776060 186.4058 -2.330988 225.5128 -62.637599 285.8194 
May 2013 130.74136 55.926508 205.5562 16.819459 244.6633 -43.487152 304.9699 
Jun 2013 163.48888 88.674029 238.3037 49.566980 277.4108 -10.739631 337.7174 
Jul 2013 240.76779 165.952943 315.5826 126.845894 354.6897 66.539282 414.9963 
Aug 2013 165.27361 90.458755 240.0885 51.351706 279.1955 —8.954906 339.5021 
Sep 2013 213.44924 138.634389 288.2641 99.527340 327.3711 39.220728 387.6778 
Oct 2013 175.57416 100.759310 250.3890 61.652260 289.4961 1.345648 349.8027 


> 
> #troisième TSLM (Trend Seasonal Linear Model) 
> forecast(tslm(data.ts - trend + season),level=c(60,80, 95),h=10) 


Point Forecast Lo 60 Hi 60 Lo 80 Hi 680 Lo 95 Hi 95 
Jan 2013 14.98316 -95.9492471 125.9156 -155.70588 185.6722 -252.62413 282.5904 
Feb 2013 30.84385 -80.0885549 141.7762 -139.84519 201.5329 -236.76344 298.4511 
Mar 2013 64.92373 -46.0086758 175.8561 -105.76531 235.6128 -202.68356 332.5310 
Apr 2013 69.63122 -41.3011780 180.5636 -101.05781 240.3203 -197.97606 337.2385 
May 2013 84.45405 -26.4783504 195.3865 -86.23499 255.1431 -183.15324 352.0613 
Jun 2013 110.44419 -0.4882095 221.3766 -60.24484 281.1332 -157.16310 378.0515 
Jul 2013 185.78525 74.8528434 296.7176 15.09621 356.4743 -81.82204 453.3925 
Aug 2013 111.21461 0.2822123 222.1470 -59.47442 281.9037 -156.39267 378.8219 
Sep 2013 154.14287 43.2104636 265.0753 -16.54617 324.8319 -113.46442 421.7502 
Oct 2013 114.60794 3.6755344 225.5403 -56.08110 285.2970 -152.99935 382.2152 


Soit graphiquement: 
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le 


R Console PER ES] 
> library("egg") 
> pl<-autoplot (forecast(stl(data.ts,s.window="periodic"),method="ets",level=c(60,80, 95),h=10)) 
> p2<-autoplot (stlf(data.ts, method ="ets",level=c(60,80, 95),h=10)) 
> p3<-autoplot (forecast (tslm(data.ts - trend + season),level=c(60,80, 95),h=10)) 
> grid.arrange(pil, p2, p3, ncol = 1) 
D 
L> 1 
Œ R Graphics: Device 2 (ACTIVE) EE 


Forecasts from STL + ETS(A,N,N) 
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Maintenant répodons à une question fréquente entre le TSLM et la simple régression: 
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R RGuïi (64-bit) - [R Console 
CR File Edit View Misc Packages Windows Help 


> Im(data.ts-time(data.ts)) 


Call: 
im(formula = data.ts - time(data.ts)) 


Coefficients: 
(Intercept) time(data.ts) 
31816.50 =19.75 


> tslm(data.ts - trend ) 


Call: 
tslm(formula = data.ts - trend) 


Coefficients: 
(Intercept) trend 
164.094 -1.312 


> 

> fcomment on peut retomber sur les mêmes pentes? 
> -15.75/12 

[1] -1.3125 

> 
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Exemples 383.: Modèles univariés AR(p), ARIMA(p,d,q) et 


ARCH(p,q) 
R 3.0.2 


Coefficients d'autocorrélation 


Nous allons ici calculer les coefficients d'autocorrélation avec les mêmes données que dans le 
cours théorique après avoir donné la définition (intuitive) de l'autocorrélation. 


Nous utilisons alors la commande acf() native de R pour obtenir: 


R & Console =|©|x 


> data<-c(144,151,134,151,145,145,141,166,151,164,151,176,170,180,156,187, 
+ 166,182,154,169) 
> print (acfi{idata)) 


Autocorrelations of series ‘data’, by lag 


(e) 1 2 3 4 5 6 ‘ 8 9 10 
1.000 0.270 0.712 0.143 0.563 -0.027 0.200 -0.293 0.050 -0.358 -0.161 


Series data 


Nous retrouvons donc exactement les mêmes valeurs que celles calculées à la main et que 
dans le cours Minitab! 
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Coefficients d'autocorrélation partielle 


Nous allons ici calculer les coefficients d'autocorrélation avec les mêmes données que dans le 
cours théorique après avoir donné la définition (intuitive) de l'autocorrélation. 


Nous utilisons alors la commande acf() native de R pour obtenir: 


€ 
R R Console = | | & 
> data<-c(144,151,134,151,145,145, 141,166,151,164,151,176, 170,180,156,1687, 7 
+ 166,182,154,169) 
> print (pacf(data)) 
Partial autocorrelations of series ‘data’, by lag 
d 2 3 4 5 6 7 8 9 10 11 12 he) 


0.270 0.690 -0.211 0.180 -0.288 -0.414 -0.272 0.144 0.157 -0.126 0.032 -0.057 -0.083 


Series data 


LL 
(®) 
< 
S 
= 
(a 
à 


Nous retrouvons donc exactement les mêmes valeurs que celles calculées à la main et que 
dans le cours Minitab! 
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Simulation d'un processus AR(1) 


Juste une petite mise en bouche... 


> 
> 
_ 
> 
> 

D > 
> 
> 
> 
> 
> 
2 
> 
> | 


#processus AR(1) 

n=1000 

bruit=rnormin) 

phii= 0.85 

X=rep(Ni,n) 

X[1]=0 

forit in 2:n){X[t]=phiifX{[t-1] #bruit[t]} 
plot(X,col="blue" ,type="l1",main="AR(1)") 
fet quelques analyses vues dans le cours théorique 
windows () 

plot (acf(X),lwd=5,col="blue" ,main="ACcF") 
windows ({) 

plot (pacf(X}),lwd=5,col="blue" ,main="PACF") 


zoû 620 


Ice 
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Partial ACF 


Figure 311 Graph ACF et PACF de séries temporelles 
Simulation d'un processus AR(2) 


Toujours dans la même idée pour montrer comment le principe de l'exemple précédent est 
extensible: 


#processus AR(2) 

n=1000 

bruit=rnormin) 

phi1i=0.3 

phi2=0.5 

X=rep(Ni,n) 

X[1:2]=0 

LOI. In 3:ni$ 
X{[t]=phiifX[t-1]+phi2fX[t-2]+bruit[t]} 
plot(X,col="blue",tvype="IN,main="AR(2)") 
fet quelques analyses vues dans le cours théorique 
windows () 

plot (acfi(iX),lwd=5,col="blue",main="AcFr") 
windows () 

plot (pac£iX),lwd=5,col="hlue" ,main="PAicr") 


> 
> 
> 
> 
> 
> 
> 
> 
+ 
> 
> 
> 
> 
> 
> 
| 
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Ajuster un modèle AR(p)/ARIMA(p,0,0) 


Commençons par le modèle AR le plus simple: 


> data<-ci144,151,134,151,145,145,141,166,151,164,151,176, 170,180,156, 187, 
+ 166,182,154,169) 

> data.ar<-ar (data) 

> data.ar 


Call: 
ar(x = data) 


Coefficients: 
L 2 
0.0837 0.6897 


Order selected 2 sigma*2 estimated as 121.3 
> plot (forecast (data.ar,10)) 
> | 


Donc selon R le meilleur modèle semble être un modèle AR(2). Graphiquement cela donne: 


Forecasts from AR(2) 


et pour les résidus: 
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> datac-c(144,151,134,151,145,145,141,166,151,164,151,176, 170,18D,156, 197, 
+ 166,182,154,169) 
> data.arima<-arima(data,order=c(0,0,0)) 
> data.arimafresiduals 
Time Series: 
Start = 1 
End = 20 
Frequency = 1 
[1] -15.15 -8.15 -25.15 -8.15 -14.15 -14.15 -18.15 6.85 -8.15 4.85 
[11] -8.15 16.85 10.85 20.85 -3.15 27.85 6-85 22.85  -5,15 9.85 
> sumi(data.arimafresiduals*2) 
[1] 4242.55 
> | 


L'équivalent d'un AR(2) est bien évidemment à un ARIMA(2,0,0) et en général un AR(p) a un 
équivalent ARIMA(p,d,q). Voyons cela: 


R Fichier Edition Voir Misc Packages Fe res. | Aide 


> data<-c(144,151,134,151,145,145,141,166,151,164,151,176,170,180,156,187, 
+ 166,182,154,169) 

> data.arima<-arima(data,order=c(2,0,0)) 

> data.arima 

Series: data 

ARIMA(2,0,0) with non-zero mean 


Coefficients: 
ari ar2 intercept 
0.0788 0.6974 157.3461 
s.e. 0:1413 0.1429 7.5098 


siqma"2 estimated as 92.18: log likelihood=-74.32 
AIC=156.63 AIlCc=159.3 BIC=160.62 


> library(forecast) 
> plot (forecast (data.arima,10)) 
> | 


Les coefficients sont quand même significativement différents (environ 10%). Au niveau 
graphique, cela nous donne quelque chose par contre de très semblable: 
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Forecasts from ARIMA(2.0.0) with non-zero mean 


Enfin, suite à la demande d'un client, si on veut gémparer ce modèle avec une simple 
régression linéaire, on utilisera: à 
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> data<-c(144,151,134,151,145,145,141,166,151,164,151,176,170,180,156,187, 
“+ 166,183,154,169) 
. > data<-ts(data,start=c(2010,1}),frequency=12) 
“> data 
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 
2010 144 151 134 151 145 145 141 166 151 164 151 176 


2011 170 180 156 187 166 183 154 169 
b > data.ar<-ar (data) 
1 > plot (forecast (data.ar,10)) 
| > abline (reg=lm(data-time(data))) 
> 


Forecasts from AR(2) 
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Ajuster un modèle ARIMA(0,0,0)/Moyenne mobile 


Maintenant passons au modèle par le modèle ARIMA(0,0,0) donc de type moyenne simple. 
Cela nous donne: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


library(forecast) 
> data<-ci144,151,134,151,145,145,141,166,151,164,151,176,170,180,156,1687, 
+ 166,182,154,169) 
> data.arima<-arima(data,order=c(0,0,0)) 
> data.arima 
Series: data 
2RIMZ(0,0,0) with non-zero mean 


Coefficients: 
intercept 
159.1500 

s.e. 3.2568 


siqma2 estimated as 212.1: log likelihood=-81.95 
AIC=167.9 LlCc=168.61 BIC=169.89 

> plot (forecast (data.arima,10)) 

> | 


2 R Graphics: Device 2 (ACTIVE) EE -S.(Es) 


Forecasts from ARIMA(0.,0.0) with non-zero mean 


170 


et une petite analyse des résidus: 
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> datac-c(144,151,134,151,145,145,141,166,151,164,151,176, 170,18D,156, 197, 
+ 166,182,154,169) 
> data.arima<-arima(data,order=c(0,0,0)) 
> data.arimafresiduals 
Time Series: 
Start = 1 
End = 20 
Frequency = 1 
[1] -15.15 -8.15 -25.15 -8.15 -14.15 -14.15 -18.15 6.85 
[11] -8.15 16.85 10.85 20.85 -3.15 27.85 6.85 22.85 
> sumidata.arimafresiduals”2) 
[1] 4242.55 
> | 


avec la command native ts.diag() nous pouvons avoir quelques informations équivalents 
sous forme graphique et d'autres qui sont complémentaires: 


R Console 


tsdiagidata.arima) 


Standardized Residuals 


10 


Time 


ACF of Residuals 
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Sinon il y a aussi le package smooth et sa fonction sma( ): 


MR RGui (64-bit) - [R Console] L 


ŒR File Edit View Misc Packages Windows Help | IH IX 


> library("smooth") 

> data<-c(144,151,134,151,145,145,141,166,151,164,151,176,170,180,156,187, 
+ 166,183,154,169) 

> (MA<-sma (data,h=9,silent=FALSE)) 

Time elapsed: 0.02 seconds 

Model estimated: SMA(4) 

Initial values were produced using backcasting. 


Loss function type: MSE; Loss function value: 124.7062 
Error standard deviation: 11.1672 

Sample size: 20 

Number of estimated parameters: 2 

Number of degrees of freedom: 18 

Information criteria: 

AIC AICC BIC BICC 
157.2768 157.9826 159.2682 160.3255 
> cbind(MASfitted,MASforecast) 

Time Series: 
Start = 1 
End = 29 
Frequency = 1 
MASfitted MASforecast 


1 145.00 NA 
2 144.75 NA 
3 146.25 NA 
4 143.50 NA 
5, 145.00 NA 
6 145.25 NA 
7 143.75 NA 
8 145.50 NA 
9 149:25 NA 
10 150.75 NA 
11 155.50 NA 
12 158.00 NA 
13 160.50 NA 
14 165,25 NA 
15 169.25 NA 
16 170.50 NA 
17 173:25 NA 
18 172.25 NA 
19 173.00 NA 
20 172.50 NA 
21 NA 168.0000 
22 NA 168.5000 
23 NA 164.8750 
24 NA 167.5938 
25 NA 167.2422 
26 NA 167.0527 
27 NA 166.6909 
28 NA 167.1449 
29 NA 167.0327 


Et le graphique correspondant: 


R Statistical Software 2400/3133 


Vincent ISOZ, Daname KOLANI 


Sciences.ch 


Ke 
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140 


—— Series 
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ÉCIES) 


SMA(4) 
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—— Point forecast 


On voit que les résultats sont (sans trop de surprises) significativement différents de ceux 


obtenus précédemment. 
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Ajuster un modèle ARIMA(0,1,0) 


Ensuite, dans la complexité croissante, voyons le modèle ARIMA(0,1,0) naïf: 


> data<-c(144,151,134,151,145,145,141,166,151,164,151,176,170,180,156,187, 
+ 166,182,154,169) 

> data.arima<-arima(data,order=c(0,1,0)) 

> data.arima 

Series: data 

ARIMZ(0,1,0) 


sigma"2 estimated as 309: log likelihood=-861.43 
AIC=164.85 AlCc=165.09 BIC=165.8 
> plot (forecast (data.arima, 10)) 


Forecasts from ARIMA(0,1.0) 


et une petite analyse des résidus: 


> data<-c(144,151,134,151,145,145,141,166,151,164,151,176,170,180,156,187, 
+ 166,182,154,169) 

> data.arima<-arima(data,order=c(0,1,0)) 

> data.arimafresiduals 

Time Series: 

Start = 1 

End = 20 

Frequency = 1 


[1] 0.1439999 7.0000000 -17.0000000 17.0000000 -6.0000000 
[6] 0.0000000 -4.0000000 25.0000000 -15.0000000 13.0000000 
[11] -13.0000000 25.0000000 -6.0000000 10.0000000 -24.0000000 
[16] 31.0000000 -21.0000000 16.0000000 -28.0000000 15.0000000 
> sumidata.arimafresiduals*2) 
[i] 5871.021 
> | 
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et toujours avec tsdiag( ) : 


R R Console 


> tsdiag(data.arima) 


Standardized Residuals 


10 


Time 


ACF of Residuals 


p values for Ljung-Box statistic 


Figure 312 Graph des résidus standardisé, ACF des résidus et p-valeurs de la statistique de Ljung-Box 


On peut obtenir le même résultat avec la fonction naïve() du package forecast: 


R Statistical Software 2403/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


MR RGui (64-bit) - [R Console] — 4 


ŒR File Edit View Misc Packages Windows Help 8: XÀ 


ÉGOISOSIOIE | 


> data<-c(144,151,134,151,145,145,141,166,151,164,151,176,170,180,156,187, 
+ 166,183,154,169) 

> library("forecast") 

> naive(data,h=10) 


Point Forecast Lo 80 Hi 80 Lo 95 Hi 95 
21 169 146.30033 191.6997 134.28385 203.7162 
22 169 136.89781 201.1022 119.90394 218.0961 
23 169 129.68301 208.3170 108.86986 229.1301 
24 169 123.60065 214.3993 99.56769 238.4323 
25 169 118.24199 219.7580 91.37232 246.6277 
26 169 113.39738 224.6026 83.96314 254.0369 
27 169 108.94231 229.0577 77.14969 260.8503 
28 169 104.79563 233.2044 70.80789 267.1921 
29 169 100.90098 237.0990 64.85154 273.1485 
30 169 97.21733 240.7827 59.21788 278.76821 
> Rance 
> 


Ce qui donne: 


MR RGuiï (64-bit) - [R Graphics: Device 2 (ACTIVE)] os) X 


R File History Resize Windows - F x 


BII8]E) 


Forecasts from Naive method 
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Ajuster un modèle ARIMA(0,1,1)/Lissage exponentiel simple 


Toujours en complexité croissante, voyons maintenant le modèle à lissage exponentiel simple 
ARIMA(0,1,1): 


> data<-c(144,151,134,151,145,145,141,166,151,164,151,176,170,180,156,187, 
+ 166,162,154,169) 
\ > data.arima<-arima(ldata,order=c{(0,1,1)) 
> data.arima 
Series: data 
2RIMA(O,1,1) 


Coefficients: 
mal 

-0.6457 

s.e. 0.1307 


sigma*2 estimated as 160: log likelihood=-75.45 
21IC=154.89 AICc=155.64 BIC=156.78 

> plot (forecast (data.arima, 10)) 

+ 


associé donne: 


Forecasts from ARIMA(0,1,1) 


R Statistical Software 2405/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


et une petite analyse des résidus: 


> data<-c(144,151,134,151,145,145,141,166,151,164,151,176,170,180,156,187, 
+ 166,182,154,169) 
> data.arima<-arima(data,order=c(0,1,1)j) 
> data.arima$residuals 
Time Series: 
Start = 1 
End = 20 
Frequency = 1 
[1] 0.1439999 5.8806607 -13.0335553 8.8575980 -0.4028543 
[C6] -0.2568451 -4.1588370 22.3044129 -0.6066620 12.6069708 
[11] -4.8601168 21.8614529 8.1160206 15.2405765 -14.1588814 
[16] 21.8573394 -6.8863043 11.5533815 -20.5397604 1.7370842 
> sumidata.arima$fresiduals"2) 
[1] 3040.955 
> | 


et toujours avec tsdiag( ) : 


Standardized Residuals 
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Ajuster un modèle ARIMA(0,2,2)/Lissage exponentiel double de Holt 


Toujours en complexité croissante, voyons maintenant le modèle à lissage exponentiel double 
de Holt ARIMA(0,2,2): 


> data<-c(144,151,134,151,145,145,141,166,151,164,151,176,170, 180,156,187, 
+ 166,182,154,169) 

> data.arima<-arima(data,order=c(0,2,2)) 

> data.arima 

Series: data 


ARIMA(O,2,2) 


Coefficients: 
mal maz 
—-1.6623 1.0000 
3.e. 0.2074 0.2047 


siqgma2 estimated as 125.2: log likelihood=-71.9 
AIC=149.79 AICe=151.51 BIC=152.46 

> plot (forecast (data.arima, 10)) 

> | 


et le graphique associé: 


Forecasts from ARIMA(0.2.2) 


et une petite analyse des résidus: 
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> data<-c(144,151,134,151,145,145,141,166,151,164,151,176,170,180,156,187, 
+ 166,182,154,169) 
> data.arima<-arima(data,order=c(0,2,2)) 
> data.arimafresiduals 
Time Series: 
Start = 1 
End = 20 
Frequency = 1 
[1] 0.06439873 -0.17754243 -10.99725004 11.03580010 0.44512808 
[C6] -0.25061634 -4.15153158 19.56826255 -3.67587189 4.23639438 
[11] -14.25773470 9.58203302 -1.94611391 3.65407235 -24.28070432 
[16] 10.53392446 -11.21852087 8.01544738 -19.04796663 3.60439995 
> sumidata.arimafresiduals"2) 
[1] 2253.:31 
> | 


et avec la commande tsdiag( ) : 
Console 


tsdiag(data.arima) 


Standardized Residuals 


ACF of Residuals 


p values for Ljung-Box statistic 
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Ajuster un modèle ARMA(1,1/ARIMA(L0,1) 


Toujours en complexité croissante, voyons maintenant le modèle ARMA(1,1) dont 
l'équivalent est ARIMA(1,0,1): 


> data<-c(144,151,134,151,145,145,141,166,151,164,151,176, 170, 180,156, 197, 
+ 166,182,154,169) 

> data.arima<-arima(ldata,order=c(1,0,1)) 

> data.arima 

Series: data 


ARIMB(I1,0,1) with non-zero mean 


Coefficients: 
arl mal intercept 
0.868936 -0.6040 158.0856 
sces 0D:1295 0.1672 7.9402 


sigma2 estimated as 152.2: log likelihood=-75.68 
AIC=165.76 AlCc=168.43 BIC=169.74 

> data.arima$model[1] #phi 

$phi 

[1] 0.8935852 


> data.arima$fmodel[2] #theta 
$ftheta 
[1] -0.6040321 


et le graphique associé: 


Forecasts from ARIMA(1.0,1) with non-zero mean 
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et une petite analyse des résidus: 


> data<-c(144,151,134,151,145,145,141,166,151,164,151,176,170,180,156,187, 

+ 166,182,154,169) 

> data.arima<-arima(data,order=c{(1,0,1)) 

> data.arima$fresiduals 

Time Series: 

Start = 1 

End = 20 

Frequency = 1 
[1] -11.6367151 -0.4819892 -17.7204109 3.8932791 -4.4069710 -4.0452031 
[7] -7.8316169 18.4507028 -3.0140566 10.4253268 -6.0734427 20.5774175 

[13] 8.3357525 16.3029272 -11.8204894 23.63681108 -3.6448987 14.6405780 

[19] -16.6117707 4.5311937 

> sumidata.arimafresiduals*2) 

[1] 3043.016 

> | 


À R Console 


tsdiag(data.arima) 


Standardized Residuals 


p values for Ljung-Box statistic 
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Recherche du meilleur modèle ARIMA 


Nous allons ici utiliser le fichier de données habituel suivant: 


| YahooSP' 


Fichier Edition Format Affichage 2 


l'Date" ;"Open";"High";"Low":;"Close";"Votume";"24 dj Close" 
"44":2010-10-29:118.28:118.72;118.07;118.49;144305500;110.71 
"45":2010-10-28:119 06:119.11:117.83:118.4:168576000,110.62 
"46":2010-10-27,117.89:118.51:117.26:118.38:190024000;110 61 
"47":2010-10-26,118.1:118.84:117.87:118.72;158982900;110 92 
"4$":2010-10-25:119.14:119.76:118.61:118.7:151145700;110.9 
"49:2010-10-22:,118.31:118.53:118:118.35:108212400;110.58 
"50":2010-10-21:118.4:119.09:117.21:118.13:221585500;110.37 
"51":2010-10-20;,116.94:118.44:116.87:117.87,200051800;110.13 
"52":2010-10-19:117.19:11785:11602;116.73;280604700;109 Oé 
"53":2010-10-18:117.74:118.67:117.31:118.28;141204800;110.51 
"54":2010-10-15:118.28:118.35:116.76;117.7;243705000;109 97 
"55":2010-10-14,117.81:11801;116.72;117.46,217764300;109.75 
"56":2010-10-13:117.66,118.55:117.38;117.92:194347200;110.18 
"57":2010-10-12,116.27:117.35:11565;117.01,182210000;109.33 
"58":2010-10-11:116.72:11697:11625:116.65:103098300;108 99 
"59":2010-10-08,116.05:11686:11561:116.54;,177760100;108.89 


« 


Avec le package zoo et la commande aggregate par mois (as.yearmon), nous regroupons ces 
données par mois: 


Gui (64-bit)-[ 
R Fichier Edition Voir Misc Packages Fenêtres Aide 


> tsa<-read.zoo{("C:/YahooSPY.csv",sep=";",.header=T,format="$%-%m-#d") 
> tsa<-aggregate (tsa, FUN=mean, as.vyearmon) 
> frequency(tsa) #nous vérifions la fréquence 
CE LAS 
> headitsa) 
Open High Lot Close Volume 
févr. 1993 44.30737 . 45000 .-05000 .29158 285136. 
mars 1993 45.08304 .27130 -.93739 .12000 131269. 
avr. 1993 44.44762 .56810 -.21667 .35762 128438. 
mai 1993 44.62700 .79550 . 46650 .-66300 90400. 
juin 1993 45.019855 .12045 .86591 .99182 156272. 
juil. 1993 44.680857 .92857 . 64476 -80048 291314. 
> #nous calculons les rendements 
> ret<-diffitsa$Close)/lagitsaf$Close,k=-1) *100 
> headiret) 
mars 1993 avr. 1993 mai 1993 juin 1993 juil. 1993 août 1993 
1.8703805 -1.6896741 0.6884521 0.7362205 -0.4252817 1.7278148 
> 


Bon une fois ceci fait, nous chargeons le package forecast et utilisons la commande 
auto.arima(}) qui va chercher le meilleur modèle ARIMA possible (la recherche peut suivant 
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le nombre de données prendre plusieurs dizaines de secondes) ainsi que les commandes 
confint() , accuracy( ) et predict() qui vont nous donner quelques informations diverses 
complémentaires: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


EEE) 


> library(forecast) 

> mod<-auto.arima(ret,stationary=TRUE,seasonal=FALlSE,ic="aic") 
> mod 

Series: ret 

ARIMBZ(O,0,1) with non-zero mean 


Coefficients: 
mal intercept 
0.2815 0.5420 
s.e. 0.0701 0.3245 


sigma"2 estimated as 13.62: log likelihood=-577.71 
AIC=1161.42 AlCce=1161.54 BIC=1171.49 
> confint (mod) 

2.5 $% 97.5 $& 
mal 0.14404323 0.4190057 
intercept -0.09406446 1.1781050 
> accuracy(mod) 

ME RHMSE ME MPE MAPE MASE 
Training set -0.002345796 3.691066 2.664239 112.8014 150.4476 0.9659402 
> predict (mod,n.ahead=3) 
$pred 
Jan Feb Mar pr May Jun Jul iug $ep Oct Noy Dec 

2010 1.3858112 0.5420203 
2011 0.5420203 


$se 


Jan Feb Mar Apr May Jun Jul iug Sep Oct Noy Dec 
2010 3.691066 3.834547 
2011 3.834547 


> 


+ 


Ensuite faisons un plot de ce que nous avons vu dans le cours théorique (sachant qu'il y a 
beaucoup de choses que nous n'avons pas étudié non plus et que nous ne présenterons donc 
pas ici): 
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plot (forecast (mod,n.ahead=3)) 
lines(fitted({(mod),1lty=2,lwd=2,col="red") 


2000 2005 
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Simulations de modèles ARIMA 


Nous allons ici reproduire les modèles obtenus plus haut avec leurs coefficients/paramètres 
respectifs. Évidemment, et comme nous l'avons vu dans le cours théorique, chaque fois que 
vous relancerez une simulation pour un même modèle ARIMA avec des paramètres 
identiques, le résultat sera différent. 


Nous commençons avec le modèle AR(2) que nous avons obtenu plus haut). Comme la 
commande native arima.sim( ) ignore l'interception, nous devons l'ajouter 
systématiquement: 


KR Fichier Edition Voir Misc Packages Fenêtres Aide 


SIA] 


> data<-c(144,151,134,151,145,145,141,166,151,164,151,176,170,180,156,187, 

+ 166,182,154,169) 

> data.arima<-arima(data,order=c(2,0,0)) 

> arima.sim(imodel=as.list (coef (data.arima)),n=20) 

Time Series: 

Start = 1 

End = 20 

Frequency = 1 
[1] -1.0017888 0.7948052 0.4641716 1.3756805 1.1423079 -1.2082263 1.8963943 
[8] 0.6935560 -0.5743589 -1.0843954 -2.1165998 -1.1970653 -0.7368205 1.4042732 

[15] -0.0209877 -2.4011538 0.4855412 0.1948019 0.9000237 -0.5412893 

> plot (arima.sim(imodel=as.list (coef (data.arima)),n=20)+ 

+ HÉRdse 

> 


et le graphique associé (qui donc au même titre que les valeurs sera différent à chaque 
réexécution des commandes ci-dessus): 


R Graphics: Device 2 (ACTIVE) 


(ee) 
[se] 
[re] 
on 
ee 
© 
5 1 
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[re] 
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Time 


Pour le modèle ARIMA(0,0,0), la syntaxe sera: 
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R R Console 


Li 


data<-c(144,151,134,151,145,145,141,166,151,164,151,176,170,180,$ 
166,182,154,169) 

data.arima<-arima(data,order=c(0,0,0)) 

plot (arima.simimodel=as.list (coef (data.arima)),n=20) + 
coef(data.arima) ,ylab="Simulations") 


— 
[e] 
k 
a 

on 
© 

= Oo 

D  LN 
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E 

O1 
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t- 
re] 
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et ainsi de suite. avec en fonction des modèles de subtilités pour rapatrier le constante donc 
n'oubliez pas d'utiliser la commande str(data.arima) pour voir le contenu da la liste. 


R Statistical Software 2415/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Ajuster un modèle GARCH(1,1) 


Le but ici va être de vérifier si nous obtenons le même résultat que dans le cours théorique et 
surtout de déterminer (si possible) la méthode utilisée par R pour déterminer les paramètres 
du modèle GARCH(1,1). 


Nous partons donc des mêmes données que dans le cours théorique de 1267 lignes: 


Fichier Edition Format Affichage 


Utilisons d'abord la fonction garch() du package tseries et comparons le résultat à ce qui 
nous est connu: 
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R RGui (64-bit) - [R Console] 
| File Edit View Misc Packages Windows Help 


> library("tseries") 

|> mydata<-read.csv("c:/tmp/GARCH.csv") 

> fit<-garch(mydata,order=c(1,1),trace-=FALSE) 
> summary(fit) 


Call: 
garch(x = mydata, order = c(1, 1), trace = FALSE) 


Model : 
GARCH(1,1) 


Residuals: 
Min 10 Median 30 Max 
0.9472 0.9704 0.9786 0.9853 1.0052 


Coefficient (s): 
Estimate Std. Error t value Pr(>|ltl|) 


a0 3.001e-01 3.811e+01 0.008 0.994 
al 9.555e-01 1.048e+02 0.009 0.993 
b1 8.583e-15 1.092e+02 0.000 1.000 


Diagnostic Tests: 
Jarque Bera Test 


data: Residuals 
X-squared = 47.406, df = 2, p-value = 5.081e-11 


Box-Ljung test 


data: Squared.Residuals 
X-squared = 842.03, df = 1, p-value < 2.2e-16 


> coef(fit) 

a0 al b1 
3.001021e-01 9.555199e-01 8.582746e-15 
[> nn 
> 


Les intervalles de confiances des paramètres: 


Packages Fenêtres Aide 


> confint (fit) 

2.5 % 97.5 % 
a0 -74.38524 74.98545 
ail -204.41109 206.32213 
214.04178 
> 


R 
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et le graphique associé: 


26 28 30 32 34 36 


sart(252)" fitéfited values, 1] 


0 200 400 600 800 1000 1200 


Attention à ne pas oublier de contrôler avant leséälculs que les résidus satisfont les conditions 
d'application du modèle GARCH (voir le cours théorique)! 


Alors avec cette première méthode que ce soit au niveau des paramètres ou du graphique cela 
est très différent de toutes les méthodes théoriques que nous avons déterminées. Donc nous 
laisserons de côté cette méthode à défaut de perdre du temps à décortiquer l'algorithme R 
utilisé. 
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La deuxième méthode consiste à utiliser la fonction garchFit() du package fGarch: 


R R Console 


> library(fGarch) 
> fit<-garchFit (-garch{(i, 1) 


Series Initialization: 
A1RMZ Model: 
Formula Mean: 
GARCH Model: 
Formula Variance: 
ARML Order: 

Max ARMA Order: 
GARCH Order: 

Max GARCH Order: 
Maximum Order: 
Conditional Dist: 
h.start: 
llh.start: 

Length of Series: 
Recursion Init: 
Series Scale: 


Parameter Initialization: 
Initial Parameters: 
Limits of Transformations: 


Which Parameters are Fixed? 


Parameter Matrix: 


Lai 
Hu -99.60141986 99. 
omega 0.00000100 100. 
alphai 0.00000001 KE 
gammai -0.99999999 1 
betai 0.00000001 Z, 
delta 0.00000000 25 
skew 0.10000000 10. 
shape 1.00000000 10. 
Index List of Parameters to 
ru omega alphal betal 
L 2 3 5 
Persistence: 


--- START OF TRACE --- 
Selected Algorithm: nlminb 


R coded nliminb Solver: 


0: 1592.9842: 9.96014 
1: 1525.1318: 10.0290 
2: 1311.4964: 9.62965 
3: 1302.6332: 9.60341 
4: 1225.7267: 9.72065 
5: 1214.0427: 9.61690 
6: 1208.68214: 9.61736 
7: 1199.7247: 9.65521 
8: 1197.8632: 9.65472 
9: 1197.7460: 9.65366 
10: 1197,5499: 9.65317 


R Statistical Software 


: data = mydata) 


artira 

- arma(0, 0) 
garch 

- garch(i, 1) 


1267 
rc i 
0.1854356 


$params 
SU, $V 
$includes 


V params includes 
60142 9.960142 TRUE 
00000 0.100000 TRUE 
00000 0.100000 TRUE 
00000 0.800000 TRUE 
00000 2.000000 FALSE 
00000 1.000000 FALSE 
00000 4.000000 FALSE 

be Optimized: 


9 
0 
(a) 
-00000 0.100000 FALSE 
[a 
2 
1 


0.100000 0.100000 0.800000 
0.0612052 0.104741 0.781950 
1.00000e-06 0.236028 0.740576 
0.00553903 0.236171 0.740654 
0.00142212 0.243210 0.736777 
1.00000e-06 0.243323 0.736375 
0.00106142 0.243329 0.736378 
0.000921870 0.263952 0.729836 
0.000474024 0.263952 0.729821 
0.000591098 0.264306 0.729591 
0.000493939 0.264675 0.729356 


ul 
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24: 1152.6593: 9.65750 
25: 1152.6329: 9.656864 
26: 1152.6319: 9.65855 
27: 1152.6296: 9.656828 
28: 1152.6295: 9.656818 
29: 1152.6295: 9.656822 
30: 1152.6295: 9.655822 


.-00275105 
-00270435 
-00270867 
-00273906 
-00273563 
-00273622 
-00273622 


O000G00G0O0 


Final Estimate of the Negative LLH: 


LLH: -952.3256 
ru 


nortm LLH: 


omega 


-0.77531 
alphai 


0.998451 1.00000e-08 
0.991199 1.00000e-08 
0.990816 1.00000e-08 
0.988861 1.00000e-08 
0.988826 1.00000e-08 
0.988876 1.00000e-08 
0.988875 1.00000e-08 
61 
betal 


1.790978e+00 9.408872e-05 9.86574Se-01 1.000000e-08 


R-optimhess Difference Approximated Hessian Matrix: 


mu omega 
ru —-2.865344e+05 -11132706.2 
omega -1.113271e+07 -73126863526.1 -252 
alphai 4.199592e+02 -252050.0 - 
betai -2.730811e+05 -927298.3 L 


attri(,"time") 


Time difference of 0 


—-- END OF TRACE --- 


Time to Estimate Parameters: 


Time 
> coefi(fit) 
Tu 


omega 


-04000211 secs 


Êitterence of 0.1860101 secs 


alphai 


1.790978e+00 9.408872e-05 9.886748e-01 
* fitfsigma.t, type="l") 


> plot(sqrt (252) 
> 


« 


alphai betai 

419.9592 -2730.8111 

050.0002 -927298.2752 

569.0740 -605.1578 

605.1578 -977.7221 
betal 


1.000000e-08 


Avec le graphique associé: 
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Index 


On peut aussi obtenir le graphique ci-dessus de la variance conditionnelle, ainsi que d'autres, 
de la manière suivante: 
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a D 


R: NES 
> par(mfrow=c(3,2)) 
> plot(fit, which = 1) #série temporelle 
> plot(fit, which = 2) #variance conditionelle 
> plot(fit, which = 4) #acf des observation 
> plot(fit, which = 7) #résidus 
> plot(fit, which = 4) #acf des résidus 
> plot(fit, which = 13) #qq-plot ou résidus standardisés 
> | 
k — _—_| 
R EEE 
Time Series Conditional SD 
a se æ 
ON Lou © ñ 
à / i\ # 
8 anne h, ELA | à 
À 
se pr ra CE ag À JF ya 
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] Vs 
él Para” e las (se ww 
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08 


ACF 
04 
res 
-02 00 02 04 
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Lags Index 
ACF of Observations qnorm - QQ Plot 
D 
Le] + 
E Pt « 
È LT pe 
ra ST 
2 se 
ë + 
E « D » 7" 
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Theoretical Quantiles 


Alors que dire du résultat... D'abord la manière que R (disons plutôt les packages 
correspondants...) détermine la moyenne empirique nécessiterai de décortiquer le script car ce 
n'est a priori pas la moyenne arithmétique, ni géométrique n1 la médiane. 


Sinon pour les trois autres paramètres nous sommes à peu près bon et nous retrouvons les 
mêmes résultats que dans le cours théorique que si nous considérons le £ par rapport à la 


moyenne empirique (alors que MATLAB le fait par rendement successifs). 


En ce qui concerne le graphique, là aussi c'est très différent de calculs faits à la main dans le 
cours théorique et aussi très différent de ce que nous avons obtenons avec MATLAB. 


Nous pouvons sinon (sujet non étudié dans le cours théorique), faire aussi de la "prédiction" 
mais le problème... c'est que nous ne sommes pas arrivés à déterminer le graphique qui est 
fait car il ne correspond ni au graphique de la série temporelle, ni à celui de la variance 
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> predicz(fiz, n.ahead = 20, plot=TRUE) 
mMecriFourecasLl meanError 


-190978 0 
-790978 0 


-790978 0 
-190978 0 


QE Graphics Device 2 (ACTIVE) 


-.1758605 
-1751483 
-790978 0. 
-.1737391 
-790978 0. 


1746412 


1730421 


-1723500 


SLäandazrdDevialion 
0.1758605 
0.1751483 

-1744412 
-.1737391 
1730421 
-1723500 


lowerInle:val upperIulerval 


USE 


-446298 
-447€93 
-4495079 
-450455 
-151822 


L.453178 


-13565€ 
-134262 
-1326876 
-131500 
-130134 
<126077€ 


Prediction with confidence intervals 


Xe = 1 96/MSE 
Xun + 1.96VMSE 
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Exemple 384.: Test de causalité de Granger WP 
R 3.6.3 


Le test de causalité de Granger est utilisé pour déterminer si une série chronologique est utile 
ou non pour en prévoir une autre. 


Ce test utilise les hypothèses nulles et alternatives suivantes : 


e _ Hypothèse nulle (HO) : la série chronologique x ne Granger-cause pas la série 
chronologique y 


e  Hypothèse alternative (HA) : la série chronologique x Granger-cause la série 
chronologique y 


Le terme « causes de Granger » signifie que connaître la valeur de la série chronologique x à 
un certain décalage est utile pour prédire la valeur de la série chronologique y à une période 
ultérieure. 


Ce test produit une statistique de test F avec une valeur p correspondante. Si la p-valeur est 
inférieure à un certain niveau de signification (c'est-à-dire à = 0.05), alors nous pouvons 
rejeter l'hypothèse nulle et conclure que nous avons suffisamment de preuves pour dire que la 
série chronologique x Granger-cause la série chronologique y. 


Pour cet exemple, nous utiliserons l'ensemble de données ChickEgg qui est préchargé dans le 
package Imtest. Cet ensemble de données contient des valeurs pour le nombre d'œufs 
fabriqués ainsi que le nombre de poulets aux Étäts-Unis de 1930 à 1983 : 


 RGui (64-bit) - [R Console] — O 
R File Edit View Misc Packages Windows Help 


#on charge le package contenant le test de granger 
library("lmtest") 


V 


VV V 


#on charge le jeu de données ChickEgg datas 
data (ChickEgg) 


fun aperçu 
head(ChickEgg) 
chicken egg 
[1,] 468491 3581 
[2,1] 449743 3532 
[3,1] 436815 3327 
[4,1] 444523 3255 R 
[5,1] 433937 3156 
[6,] 389958 3081 
> | 


VV V 
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Ensuite, nous utilisons la fonction grangertest( ) pour effectuer un test de causalité de 
Granger pour voir si le nombre d'œufs fabriqués est prédictif du nombre futur de poulets. 


Nous allons exécuter le test en utilisant trois décalages : 


 RGui (64-bit) - [R Console] 
R File Edit View Misc Packages Windows Help 


SIea) 


> library("lmtest") 
> data(ChickEgg) 
> head(ChickEgg) 
chicken egg 
[1,] 468491 3581 
[2,1] 449743 3532 
[3,1] 436815 3327 
[4,1] 444523 3255 
[5,] 433937 3156 
[6,] 389958 3081 


Granger causality test 


Model 2: chicken - Lags(chicken, 1:3) 


Res.Df Df Pr(>F) 
1 44 
2 47 -3 5.405 0.002966 


v 


Ÿ 
& 
Voici comment interpréter la sortie : 


> #nous performoms le test de causalité de Ginger 
> grangertest{(chicken - egg, order = 3, data = ChickEgg) 


Model 1: chicken - Lags(chicken, 1:3) + Lags(egg, 


e Modèle 1 : Ce modèle tente de prédire le nombre de poulets en utilisant le nombre de 
poulets au cours des trois années précédentes et le nombre d'œufs au cours des trois 


années précédentes comme variables prédictives. 


e Modèle 2 : Ce modèle tente de prédire le nombre de poulets en utilisant uniquement le 
nombre de poulets au cours des trois années précédentes comme variables prédictives. 


e F:Ils'agit de la statistique du test EF. Il s'avère que c'est 5.405. 


e Pr): Il s'agit de la valeur de p qui correspond à la statistique de test F. Il s'avère 


que c'est .002966. 


Puisque la p-valeur est inférieure à 0.05, nous pouvons rejeter l'hypothèse nulle du test et 
conclure que connaître le nombre d'œufs est utile pour prédire le nombre futur de poulets. 


Bien que nous ayons rejeté l'hypothèse nulle du test, il est en fait possible qu'un cas de 
causalité inverse se produise. C'est-à-dire qu'il est possible que le nombre de poules modifie le 


nombre d'œufs. 


Pour exclure cette possibilité, nous devons effectuer le test de Granger-Causalité à l'envers, en 
utilisant les poulets comme variable prédictive et les œufs comme variable de réponse : 
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GR RGui (64-bit) - [R Console] 


R File Edit View Misc Packages Windows Help 


BEC) 


> library("lmtest") 
> data(ChickEgg) 
> head(ChickEgg) 
chicken egg 
[1,] 468491 3581 
[2,1 449743 3532 
[3,] 436815 3327 
[4,] 444523 3255 
[5,] 433937 3156 
[6,] 389958 3081 
> #nous performoms le test de causalité de Granger 
> grangertest (chicken - egg, order = 3, data = ChickEgg) 
Granger causality test 


Model 1: chicken - Lags(chicken, 1:3) + Lags(egg, 1:3) 
Model 2: chicken - Lags(chicken, 1:3) 


Res.Df D£f F Pr(>F) 
: à 44 
2 47 -3 5.405 0.002966 


> #et dans le sens inverse 
> grangertest(egg - chicken, order = 3, data = ChickEgg) 
Granger causality test 


Model 1l: egg - Lags(egg, 1:3) + Lags(chicken, 1:3) 
Model 2: egg - Lags(egg, 1:3) 


Res.Df Df F Pr(>F) 
x Ê 44 
2 47 -3 0.5916 0.6238 


> | 


La p-valeur du test est de 0.6238. Comme ce n'est pas inférieur à 0.05, nous ne pouvons pas 
rejeter l'hypothèse nulle. Autrement dit, le nombre de poulets n'est pas prédictif du nombre 


futur d'œufs. 


Ainsi, nous pouvons conclure que connaître le nombre d'œufs est utile pour prédire le nombre 


futur de poulets. 
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Exemple 385.: Modèle TBATS 
R 3.63 


Comme nous l'avons mentionné dans le cours théorique, c'est une méthode empirique. Pour 
rappel, l'abréviation signifie: 


Trigonometric terms for seasonality 

Box-Cox transformations for heterogeneity 

ARMA errors for short-term dynamics 

Trend (possibly damped) 

Seasonal (including multiple and non-integer periods) 


D'abord chargeons et découvrons le jeu de données avec lequel nous allons travailler: 


R File Edit View Misc Packages Windows Help Zn x 


Bla) els] 


library("forecast") 

library("zoo") 

library("lubridate") 

mydata<-read.csv("c:/tmp/sales.csv",header=T, sep=",",stringsAsFactors=FALSE) 
*on filtre un peu pour prendre seulement un article d'un magasin donné 

df <- mydata[which(mydataS$store==1 & mydataSitem ==1),c(1,4)] 

str(df) 
data.frame': 1826 obs. of 2 variables: 

$ date : chr "2013-01-01" "2013-01-02" "2013-01-03" "2013-01-04" ... 

$ sales: int 13 11 14 13 10 12 10 9 12 9 ... 
> head(df) 

date sales 

1 2013-01-01 13 
2 2013-01-02 11 

3 2013-01-03 14 

4 2013-01-04 13 
5 
6 
> 


D'AAAA AA 


2013-01-05 10 
2013-01-06 12 
tail(df) 

date sales 

1821 2017-12-26 16 

1822 2017-12-27 14 

| 1823 2017-12-28 19 

1824 2017-12-29 15 

1825 2017-12-30 27 

1826 2017-12-31 23 


> #nombre d'années dans le jeu initial utile pour tard 
> (Annees<-lubridate::time length(difftime(as.Date(max(df$date)), as.Date(min(df$date))), "years")) 


[1] 5 

> 

> df<- read.zoo(df, format = "$5Y-%m-$%d") 

> plot(df) 

>| 

< > 


Avec le graphique correspondant: 
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r 


df 


50 
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Index 


On fait une analyse de l'ACF: 


D 
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fl 


MR Console So | T | & 


> acf(df) 


Series df 


On lance maintenant l'ajustement du modèle: 


R Statistical Software 2429/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


MR RGui (64-bit) - [R Console] — 


GR File Edit View Misc Packages Windows Help =] Ie Ex 


> fLes ventes ont toutes l'air d'avoir une périodicité hebdomadaire et annuelle 
> (fit<-thats(df,seasonal.periods = c(7,365))) 
TRATS(0-239; {0,0}, —, 1<7,3>,; <365,6>}) 


Call: tbats(y = df, seasonal.periods = c(7, 365)) 


Parameters 
Lambda: 0.238803 
Alpha: 0.01558787 
Gamma-1 Values: 0.0003275112 -0.001321891 
Gamma-2 Values: 0.002166953 -0.0001732746 


Seed States: 
| [,1] 
[1,] 3.878958012 
[2,1] -0.277719696 
[3,] -0.027443156 
[4,] 0.132211894 
[5,] -0.055119018 
[6,] 0.191895672 
[7,1] 0.089115666 
| [8,1] -0.497609479 

[9,1 -0.037368335 
[10,] -0.102748946 
[11,] -0.020661916 
[12,] -0.050842363 
[13,] 0.002238892 
| [14,] -0.082358064 
| [15,1] -0.103466007 
[16,] -0.071637563 
[17,] 0.022690156 
[18,] 0.060276708 
[19,] 0.066820947 
attr(,"lambda") 

[1] 0.2388028 


sigma: 0.4760076 
AIC: 19203.96 
> | 


Et faisons maintenant une visulation graphique d'une projection sur 3 ans: 
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r 


horizon fcast<-3*365 en jours 
fcast<-forecast(fit,level=c(80,95),h=horizon fcast) 

plot (fcast,xaxt = "n") 

#*on corrige le problème des axes (il y a probablement plus élégant...) 
maxdate<-max(round(as.numeric(rownames (as.data.frame(fcast))))) 


axis(1,at=seq(maxdate-Annees-horizon fcast/365,maxdate), 
labels=seqg(year (min (mydata$date)),year (min (mydata$date))+Annees+horizon f$ 


VÆVNVNNVNNNVNV NV 


RES 


x 


Forecasts from TBATS(0.239, {0,0}, -, {<7,3>, <365,6>}) 


50 


40 


20 


10 
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Voyons comment obtenir les valeurs directement plutôt que sous forme graphique: 


(es 
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MR RGui (64-bit) - 
R File 


[R Console] 


Edit View Misc 


Packages Windows 


EROSESIEIE 


> fexemple projection sur 10 jours 
> #il faut évidemment corriger les dates 
> forecast(fit,level=c(80,95),h=10) 

Point Forecast 


15711.0027 
15711.0055 
15711.0082 
15711.0110 
15711.0137 
15711.0164 
15711.0192 
15711-02719 
15711.0247 
15711.0274 
> | 


R Statistical Software 


-28397 
-.26365 
-20027 
-.77788 
-19659 
.98664 
.72066 
.76264 
.76888 


Help 


Lo 80 
8.674693 
10.203109 
10.962773 
10.913430 
12.143041 
14.041898 
14.665193 
8.996786 
10.573156 
11.354943 


Hi 80 
16.97762 
19.50266 
20.74260 
20.662700 
22.65055 
25.67930 
26.66443 
17:51599 
20.11023 
21.38166 


Lo 95 
7.121063 
8.440206 
3.098443 
9.055589 

10.124296 
11.781800 
12.327469 
7.398073 
8.760306 
9.438510 


Sciences.ch 


Hi 95 
19.94486 
22-19367 
24.18894 
24.09920 
26.33134 
29.772221 
30.82292 
20.55394 
23.47836 
24.90793 
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Exemple 386.: Modèle Prophet 
R 3.63 


Modèle empirique mis en place par l'équipe de Facebook: 


https://facebook.github.io/prophet/ 


Voyons comment le mettre en place. D'abord construisons un jeu de données aléatoire 
relativement petit: 


le x 


Lslelx) 


library("prophet") #Bayesian based curve fitting method 

set.seed(1) 

alea<-round(rnorm(36,10,20),2) 

y<-alea+4* (alea+20)+50*sin(alea*2*pi*1/12)+20*sin(alea*2*pi*1/64) 

ds<- seq(from = as.Date("2017-01-01"), to = as.Date("2017-02-05"), by = 'day') 
data.ts<-data.frame (ds, y) 

plot (data.ts,type="l") 


mn 
dv vvvvvvv 
300 


200 


100 


Jan 02 Jan 09 Jan 16 Jan 23 Jan 30 Feb 06 


ds 


Maintenant utilisons les fonctions prophet( ), make _future_dataframe( ) et predict( ) du 
package prophet pour obtenir les valeurs futures: 
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R RGui (64-bit) - [R Console] — [=] X 
ŒR File Edit View Misc Packages Windows Help sr ix 


ESOISOSNE 


> m <-— prophet (data.ts) 
Disabling yearly seasonality. Run prophet with yearly.seasonality=TRUE to override this. 
Disabling daily seasonality. Run prophet with daily.seasonality=TRUE to override this. 
> future <- make future dataframe(m, periods = 10) 
> forecast <- predict(m, future) 
> tail(forecast,10)[,c(1:2)] 
ds trend 
37 2017-02-06 121.7123 
38 2017-02-07 120.7382 
39 2017-02-08 119.7641 
40 2017-02-09 118.7900 
41 2017-02-10 117.8158 
42 2017-02-11 116.8417 
43 2017-02-12 115.8676 
44 2017-02-13 114.8935 
45 2017-02-14 113.9193 
46 2017-02-15 112.9452 


plot(m, forecast) 


300 - 


200 - 


100- 


L ! L Li 
Jan 01 Jan 15 Feb 01 Feb 15 
ds 
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Et traçons les composantes du modèle Prophet à l'aide de la fonction 
prophet_plot_components( ): 


1 R Console 


> insiste forecast) 
> 


HE IES 


QR À Graphics! Device 2 (ACTIVE) 


120 - 


' t L 
Jan 01 Jan 15 Feb 01 Feb 15 
ds 


80- 


-40- 


ll ' ' L l ' ' 
Sunday Monday Tuesday Wednesday Thurs day Friday Saturday 
Day of week 
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Exemple 387.: Détection des valeurs aberrantes 
R 3.6.2 


L'exemple illustré ci-dessous vient de: 


https://towardsdatascience.com/time-series-anomaly-detection-with-anomalize-library- 
67472003c003 


Nous conseillons aussi la lecture de la vignette du package correspondant: 


https://cran.r-project.org/web/packages/anomalize/vignettes/anomalize_methods.html 


Voyons l'exemple sans parler de la théorie sous-jacent car 1l s'agit de techniques totalement 
empiriques et formellement peu élégantes. 


Generalized Extreme Studentized Deviate (GESTD) 


Commençons avec la méthode basée sur le Generalized Extreme Studentized Deviate test*° 


(GESD) : 


R File Edit View Misc Packages Windows Help -5 _ 


CHSRESEE | 


|> library("anomalize") | 
> library("tidyverse") 
> library("tibbletime") 
> library("tidyquant") 
> 
> tobtention de quelques données 
> data <- tq get ("AAPL',from = "2018-01-01",to = "2020-12-31", 
+ get = "stock.prices") 
> #un petit coup d'oeil 
> head(data) 
# À tibble: 6 x 8 
symbol date open high low close volume adjusted 
<chr> <date> <db1> <db1l> <dbl> <db1l> <db1> <db1> 
1 AAPL 2018-01-02 42.5 43.1 42.3 43.1 102223600 41.4 
2 AAPL 2018-01-03 43.1 43.6 43.0 43.1 118071600 41.4 | 
3 AAPL 2018-01-04 43.1 43.4 43.0 43.3 89738400 41.6 
4 AAPL 2018-01-05 43.4 43.8 43.3 43.8 94640000 42.1 
5 AAPL 2018-01-08 43.6 43.9 43.5 43.6 82271200 41.9 
6 AAPL 2018-01-09 43.6 43.8 43.4 43.6 86336000 41.9 
> 
> fdétection des anomalies 
> anomalized <- data %5>% 
_ time decompose (close,method = "stl") %>% #11 y a la méthode Twitter aussi... 
+ anomalize (remainder,method="gesd",alpha=0.05,max anoms=0.2) %>% 
+ time recompose () 
Converting from tbl_ df to tbl time. 
Auto-index message: index = date 
frequency = 5 days 
trend = 63 days 
> 
> tet le graph 
> anomalized %>% 
di plot anomalies (time recomposed = TRUE, ncol = 3, alpha dots = 0.25)+ 
+ | labs(title = "AAPL Anomalies") 
à 


40 Notez que l'ESD généralisée est essentiellement le test de Grubbs appliqué séquentiellement. 
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Ce qui donne le graphique suivant: 


AAPL Anomalies 


1° 


anomaly © No © Yes 


On voit que le jeu de donnéss anomalized contient un colonne anomaly qui nous permettra de 
filter les anomalies au besoin: 
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© L © -J o Un & W DH 


Væh 


> anomalized 
# À time tibble: 755 x 
# Index: date 


date 
<date> 
2018-01-02 
2018-01-03 
2018-01-04 
2018-01-05 
2018-01-08 
2018-01-09 
2018-01-10 
2018-01-11 
2018-01-12 
2018-01-16 


R RGuï (64-bit) - [R Console] 


|R File Edit View Misc Packages 


observed 
<db1> 
43.1 
43.1 
43.3 
43.8 
43.6 
43.6 
43.6 
43.8 
44.3 
44.0 


Windows Help 


10 


season trend remainder remainder 11 remainder 12 


<db1> 
=0:0722 
0.0219 
0.114 
—-0.0334 
—-0.0302 
-0.0722 
0.021939 
0.114 
—0.0334 
—-0.0302 


... with 745 more rows, and 2 


<db1> 
43.3 
43.3 
43.3 
43.3 
43:3 
43:3 
43.2 
43.2 
43.2 
43.2 


more variables: 


<db1> 
—-0.207 
—-0.290 
—-0.164 
0.495 
0.347 
0.403 
0.317 
0.491 
1.10 
0.881 


recomposed 11 <dbl>, recomposed 12 <db1l> 


<db1> 
9% 70 
=5.70 
=<5-10 
-5-70 
<5: 70 
-5.70 
<5s 70 
=5:70 
=5: 70 
=5sv0 


<db1> 
CPR E 
5.71 
3271 
5-71 
5:72 
CAEN 
5-71 
572 
571 
5271 


anomaly 
<chr> 
No 

No 

No 

No 

No 

No 

No 

No 

No 

No 
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InterQuartile Range (IQR) 


Et maintenant comparons juste le graphique avec la méthode IQR: 


> #détection des anomalies 

> anomalized <-— data %>% 

+ time decompose (close,method = "stl") %>% #11 y a la méthode Twitter aussi... 
+ anomalize (remainder,method="igr",alpha=0.05,max anoms=-0.2) %>% 

+ time recompose () 

Converting from tbl_ df to tbl time. 

Auto-index message: index = date 

frequency = 5 days 

trend = 63 days 

> 

> fet le graph 

> anomalized #%>% 

| à plot_anomalies(time recomposed = TRUE, ncol = 3, alpha dots = 0.25)+ 
+ labs (title = "AAPL Anomalies") 


AAPL Anomalies 


anomaly ® No © Yes 
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Exemple 388.: Transformée de Fourier Rapide (FFT) 
R 3.02 


La transformée de Fourier Rapide est un outil très important dans l'étude des séries 
chronologiques pour authentifier s'il y a des harmoniques périodiques dans une série de 
mesures et la fréquence des ces dernières. 


Je n'ai malheureusement pas trouvé de fonction ou de package proposant une FFT avec 
exactement le même résultat que celui fourni par Matlab (qui reste souvent le logiciel étalon 
pour ce qui est relatif au traitement du signal). 


Donc à défaut voici une série de commandes (qui peuvent bien évidemment être mis sous la 
forme d'une fonction simple) permettant d'obtenir exactement le même résultat que Matlab et 
faisant appel à la fonction native fft() de R (merci à un internaute anonyme!): 


e 


R CA\Users\Isoz Vincent\Documents\Professionel\Cours\R\Exercices\Finance\FFT.R - Editeur R (ni Sem) 
#paramètres de base de l'algorithme 

T <= 5 

dt <- 0.002 #secondes diminuer cette valeur si les fréquences sont élevées! 

n <- T/at 

F <- 1/dt # domaine des fréquences analysées -F/2 -> F/2 

af <— 1/T 

t <- seq(0,T,by=dt) 


freq <- 5 #Hz 


#function ou vecteur d'entrée à analyser 
y <-— cos(2f*pi*60*t) + sin(Z*pi*220*t) 


#vecteur de fréquences 
£ <- 1:lengthit)/T 


#Transformée de Fourier 
Ÿ <— fft(y) 
mag <- sqrt(Re(Y)"2+Im(t)*2)#2/n #implitude 


#plot des différentes graphs 
par (mfrow=c(2, 1)) 
plotit,y,type="l",xlim=c(0,T)) 
grid(NULL,NULL, col = "lightgray", lty = "dotted'",luwud = 1) 


plotif{i:lengthif)/2],mag[1i:length(f}/2],type="l",xlab="Frequency,Hz",vylab="ämplitude") 
grid(NULL,NULL, col = "lightgray", lty = "dotted",luwud = 1) 


Ce qui donne graphiquement en sortie: 
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FR R Graphics: Device 2 (ACTIVE) SR] X | 
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Frequency,Hz 


Figure 313 Graph Transformée de Fourier 


et voilà :-) 
ToDo: Rapatrier les valeurs des pics comme dans MATLAB. 


Certaines personnes préfèrent cependant les périodogrammes (dont je ne suis pas un fan): 
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T<-5 

dt<-0.002 
t<-seq(0,T,by=dt) 
y<-cos(2fpi*60ft)+sin(2tpif220ft) 
spectrumiy]) 
£1=60;:22=220 
sample=1/at 
f1/sample 

C1] O,12 

> f2/sample 

[1] 0.44 

> | 


VVNNNNNNVV 


< b 


Raw Periodogram 


spectrum 
1e-12  1e+00 


1e-24 


0.0 0.1 0.2 0.3 04 05 


frequency 
bandwidth = 0.000113 


Figure 314 Graph périodogramme transformée de Fourier 


R Statistical Software 2442/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Exemple 389.: Transformée de Fourier Inverse Rapide (IFFT) 
R 3.42 


Nous allons vérifier ici comment nous pouvons faire la transformée de Fourier inverse du 
signal dont nous avons fait la transformée de Fourier afin de vérifier si nous retombons bien 
sur nos pattes! 


| 
| M RGuiï (64-bit) - [R Console — = 


File Edit View Misc Packages Windows Help a 


CESSE ES 


#fParamètres de base de l'algorithme 


| 
| T <- 5 
| dt <— 0.002 #secondes diminuer cette valeur si les fréquences sont élevées! 
n <- T/dt 
F <-— 1/dt # domaine des fréquences analysées -F/2 -> Fr/2 
df <= 1/7 
E <- segq(0,T,by=dt) 


freq <- S #Hz 


#*Function ou vecteur d'entrée à analyser 
y <— cos(2*pi*60*t) + sin(2*pi*220*t) 


#Vecteur de fréquences 
£ <- 1:length(t)/T 


#Transformée de Fourier 
> 4 <- fft(y) 
#Transformée de Fourier inverse 
ifft <- fft(fft(y), inverse = TRUE)/length(t) 


#plot des différentes graphs 
par (mfrow=c(2, 1)) 
plot(t,y,type="l",xlim=-c(0,0.1),main="Signal Original") 
grid (NULL, NULL, col = "lightgray", lty = "dotted",lwd = 1) 


VVNVVVNVNNVNNVNVNNNVNNVNNNN NV NNNNNNVNNN NV 


> plot(t,ifft ,type="l",xlim=c(0,0.1),main-"Transformée Inverse de la FFT") 
Warning message: 
In xy.coords(x, y, xlabel, ylabel, log) 
imaginary parts discarded in coercion 
> grid (NULL,NULL, col = "lightgray", lty = "dotted",lwd = 1) 
> 


Ce qui donne: 
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QE Graphics Device 2 (ACTIVE) 


Signal Original 


10 
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© 
G 


Transformée inverse de la FFT 
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Exemple 390.: Analyses de données de panel 
R 3.1.1 


Les données de Panel sont simplement un groupe des données longitudinales mesurées donc 
pendant un certain temps. L'exemple le plus typique en entreprise étant la mesure des ventes 
pendant plusieurs années d'articles (produits différents). 


Voyons comment analyser ce type de données avec R. Nous chargeons d'abord le package 
psel qui contient un jeu de données bien adapté à ce type d'exemple (% de participation aux 
votations présidentielles américaines depuis 1932 par Etat et par éléction): 


library(pscl) 

print (xyplot (demVote - year | state, 
data=presidentialElections, 

scales=list (y=list (cex=.35) ,x=l1ist(cex=.35)), 
strip=strip.custom(ipar.stripatext=list (cex=.5)),, 
xlab="Year", ps 

ylab="Democratic Vote ($)", 

type="l")] 

} 


> 
> 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
> 


Cela nous donne: 


LILI 
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Ê 
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Figure 315 Graph de données de panel 


Ceci état pour poser le contexte. Ce qui nous intéresse est de comparer le tout. Donc déjà nous 
pouvons superposer toutes les données: 
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print (xyplot (demVote - year, 
group=state, 
data=presidentialElections, 
col="black", 

xlab="Year", 
ylab="Democratic Vote ($)", 
type="l") 

] 


VH++++++V 


R 


Ce qui donne: 


100 
80 
S 
£2 
© 60 
2 
5 
Le] 
[e] 
S 40 
Q 
20 


1940 1960 1950 2000 


Year 


Nous savons que rien ne nous interdit de faire une ANOVA par Etat en passant par une 
régression car nous avons étudié cela en cours. 
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Nous avons alors 


> w <- IlmidenVote - as.factor (state) ,subset=vyear>1968,presidentialElections) 
> anoval(w) 
Analysis of Variance Table 


Response: demVote 

DE Sum Sq Mean Sq F value Pri>F) 
as.factor(state) 51 38394 752.82 16.734 < 2.2e-16 ‘tt 
Residuals 509 22698 44.99 


Signif. codes: O0 ‘#*#* 0.001 ‘**’ 0.01 **’ 0.05 R 0.1 * ” 1 
> | 


« 


La valeur de Fisher est significative ce qui indique que la régression par Etats peut être 
considérée comme ayant tous ses coefficients significativement non nuls et donc que ce type 
d'analyse à un intérêt certain. 
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Exemple 391.: Prévisions avec l'apprentissage machine et le 


package ModelTime 
R 4.0.5 


Ce qui suit est un copie traduite de l'excellent article disponible ici (de Matt Dancho): 


https://www.business-science.io/code-tools/2020/06/29/introducing-modeltime.html 


L'idée est d'introduite l'écosystème ModelTime qu'on peut résumer par l'image suivante: 


modeltime modeltime modeltime modeltime 
resavaple ensemble )LUON H,0 


Nous chargeons les packages et le jeu de données que nous allons utiliser tout au long de cet 
exemple: 


8 File Edit View Misc Packages Windows Help : 


SERIE | 


> library("modeltime") 

> library("tidymodels") 

> library("modeltime") 

> library("timetk") 

> library("lubridate") 

> library("tidyverse") 

> bike transactions tbl <- timetk::bike sharing daily +>% 
select (dteday, cnt) %5>% 

set_names(c("date", "value")) 


VV V 


v 


V + + 


> bike transactions tbl 
4 A tibble: 731 x 2. 


date value 

<date> <db1> 
1 2011-01-01 985 
2 2011-01-02 801 
3 2011-01-03 1349 
4 2011-01-04 1562 
5 2011-01-05 1600 
6 2011-01-06 1606 
7 2011-01-07 1510 
8 2011-01-08 959 
9 2011-01-09 822 
O 2011-01-10 1321 


. With 721 more rows 


V # + 
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Voyons à quoi cela ressemble: 


Fr 


QR R Console | = | E | = | 
> bike transactions tbl $>#% 

+ timetk::plot time series (date, value, .interactive = FALSE) 
>| 

Q R Graphics: Device 2 (ACTIVE 


Time Series Plot 


7500 


ul 
In 


co00 ÿ! M { 


or el. 


2011-01 2011-07 2012-01 2012-07 


Ensuite, nous utilisons time_series_split( ) pour créer un ensemble d'apprentissage/test: 


e Le réglage assess = "3 mois" indique à la fonction d'utiliser les 3 derniers mois 
de données comme ensemble de test. 


e Le réglage cumulative = TRUE indique à l'échantillonnage d'utiliser toutes les 
données antérieures comme ensemble d'apprentissage. 


ŒR RGui (64-bit) - [R Console] 


R File Edit View Misc Packages Windows Help 


> splits <- bike transactions tbl $>% 
- timetk::time series split (assess = "3 months", cumulative = TRUE) 


Using date var: date 

> splits 
<Analysis/Assess/Total> 
<641/90/731> 

>| 


Ensuite, nous visualisons la répartition apprentissage/test: 
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e tk_time_series_cv_plan() : convertit l'objet fractionné en un data.frame 


e  plot_time_series_cv_plan( ) : trace les données d'échantillonnage de la série 
chronologique à l'aide des colonnes « date » et « valeur ». 


> splits +>#% 
- timetk::tk time series cv plan() +>% 
timetk::plot time series cv plan(date, value, .interactive FALSE) 


ERIES 


Time Series Cross Validation Plan 


Slice1 


Legend — training — testing 
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26. Finance Quantitative 


La finance quantitative nécessite l'utilisation de nombreuses sources de données financières. 
Actuellement, l'accès gratuit à ces dernières se réduit comme peau de chagrin... (Yahoo!, 
Google, Quandi, etc.). Évidemment dans un contexte professionnel, on aura tendance à 
utiliser principalement Bloomberg pour extraire des données de qualité et sans trop de limites 
contraignantes. Par ailleurs il existe déjà un package R pour se connecter au terminal 
Bloomberg via son APT et dont les détails sont disponibles en suivant le lien suivant: 


https://cran.r-project.org/web/packages/Rblpapi/index.html 


Pour ceux souhaitant aussi une liste relativement exhaustive des packages les plus importants 
en finance pour R, nous recommandons la lecture complète de la page suivante: 


https://cran.r-project.org/web/views/Finance.html 


Ceci ayant été dit... commençons! 


Exemples 392.: Finance "scolaire" 
R 3.02 


Réviser les bases de la finance avec GUIDE 


Nous allons voir ici quelques démos du package GUIDE qui intéressera particulièrement les 
enseignants pour dispenser des formations de fiänce niveau L1 à M2. Il s'agit vraiment d'un 
magnifique outil pour accélérer l'apprentissage de nombreux concepts typiquement étudiés 
lors des CFA, FRM, CAIA et autres du même genre! 


Pour cela, après avoir installé ce package, nous écrivons: 


se, RGui (64-bit} - [RC 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> library (GUIDE) 
> GUIDE() 


> | 


Ce qui donne en plein écran: 
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GUIDE 


N A GUI for DErivatives in R 


Forwards Futures Options Swaps Stochastic Processes Value atRisk Bonds Utilities 


_— Author: S Subramanian, SSSIHL, India 


Les outils disponibles sont de gauche à droite: 


(Forma) Futures Optio Forwards Options Swaps Stoch: 
Com 


Commodity modities 

Currency Currencies 

Stock Stocks 

Bond Forward Tree Bond Futures Tree 

Forward Rate Eurodollar futures 

Value of FRA Cash Price of T-Bond Future 


Forwards Futures m7 Swaps Stoch Forwards Futures Options Stochastic Processes 
P (Soft { PAL graphs DRE rate swap 

Premium 3D plots Currency swap (Fixed-Fixed 

Stock Option Tree Credit Default swap 

Bond Option Tree Interest rate swap Tree 


Cap Tree Swaption Tree 
Floor Tree 

Black Schales 

Implied Volatility 

Option Greeks 

Greeks 3D plots 

Hedging with greeks 


Trading Strategies 
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GUID 


Forwards Futures Options Swaps Value at Risk 
Brownian Motion 


Arithmetic Brownian Motion 
Geometric Brownian Motion 


Jump Diffusion 


GUID 


Forwards Futures Options Swaps Stochastic Processes | Value he 


Single stock 


Bonds Utili 


Two stocks 
VaR Behavior graphs 


SUIDE 


Forwards Futures Options Swaps Stochastic Processes Value at Risk  Bonds 
Present Value of an amou 


Future Value of an amoun 
Present Value of Annuity 
Future Value of Annuity 
Rate conversion 

p-value calculator 
z-value calculator 


_ 
Nous détaillerons chacune des options avec uns concret ultérieurement pour comparer les 
résultats au cours théorique. Cela est important car le package GUIDE contient le minimum 
qu'est censé connaître tout bon manager ou employé au bénéfice d'un MB A/CFA/CAIA/FRM 
ou autre certification du même genre! 


Attention!!! Lorsque vous changez les paramètres dans une boîte de dialogue, il faut valider 
par la touche ENTER pour que les calculs prennent effet avec les nouveaux paramètres. 


Pricing naïf d'un Future/Forward 
Nous allons pouvoir vérifier le bon fonctionnement de ce package avec par exemple un petit 


calcul simple pour lequel nous ne trouvons aucune fonction dans MATLAB. Il s'agit du calcul 
du prix future sur taux de change que nous avons calculé dans le cours théorique: 
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Spot: 1.6 
Risk free: 10.03 
Maturity: 10.5 


Foreign Interest(s): 0.015 
Interest time(s): 


Type of Income 
Ce Vield 


© Cash 


Price = 1.612 


Ou sans interface, en utilisant la fonction forwarü( ) du package FinancialMath: 


R RGui (64-bit) - [R Console] _ O 


R File Edit View Misc Packages Windows Help 


> library("FinancialMath") 
> forward(S=1.6,t=-0.5,r-0.015,position="long") 
€ 


‘Payof£f" 

Stock Price Payoff 
1 0 -1.6120451 
2 1 -0.6120451 
3 2 0.3879549 
+ 3 1.3879549 


S$SPrice 
[1] 1.612045 


>| 


Nous retrouvons donc bien la même valeur que dans le cours théorique, quelle que soit la 
méthode! 
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Rendements discrets, rendements logarithmiques leur moyenne et 
écart-type 


Nous allons reproduire ici les exemples du cours théoriques calculés à la main et faits aussi 
avec Microsoft Excel. 


Nous avons alors en comparant: 


e La moyenne arithmétique et l'écart-type des rendements 
e La moyenne géométrique avec l'écart-type géométrique des rendements décimaux 
e La moyenne arithmétique avec l'écart-type des rendements logarithmiques 


R File Edit View Misc Packages Windows Help lex 


> fquelques rendements 

> R<-c(2;:1.5;,3,5;:6,0) 

|> #on les normalise 

> R norm<-R/100+1 

> 

> #d'abord la moyenne arithmétique 

> mean(R) 

[1] 2.916667 | 


> sdiR) | 
[1] 2.245366 
> 


> #la moyenne géometrique 

> library("EnvStats") 

> (geoMean(R_norm)-1) “100 

[1] 2.896302 

> (geoSD(R norm) -1) *100 

[1] 2.202035 

| > 

> fenfin pour terminer avec les rendements logarithmiques 
> (mean(log(R/100+1,base-=exp(1))))*100 
[1] 2.855152 

> (sd(log(R/100+1,base=exp (1) )))*100 
[1] 2.17814 

> | 


Ce qui est conforme aux calculs faits à la main et avec Microsoft Excel. 


Le lecteur aura probablement noté l'utilisation du package EnvStats et ses fonctions 
geoMean( ) et geoSD(). 
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Plus proche matrice de corrélation réelle (semi-positive définie) 


Dans le cours théorique nous avons démontré qu'une matrice de variances-covariances (et 
donc de corrélation) devait être positive définie et nous avons parlé du fait que des praticiens 
dans la finance (et pas seulement!) construisent des matrices de corrélations empiriques 
(quasi-corrélations) et passent ces dernières dans des algorithmes (il en existe plusieurs types) 
pour les mettre en conformité avec les propriétés mathématiques ad hoc. 


Nous allons dans l'exemple qui va suivre comparer au résultat obtenu avec le solveur de 
Microsoft Excel et la méthode basée sur la norme de Frobenius mais en utilisant la fonction 
nearPD() (pour "nearest positive definite") du package Matrix de R. 


D'abord vérifions que la matrice estimée soit effectivement pas positive semi-définie: 


R File Edit View Misc Packages Windows Help 


> EstimatedCM<-matrix(c(1,0.8,-0.4,-0.2, 


+ 0:8;1,=-0:3,0;:5, 
+ -0.4,-0.3,1,0.5, 
+ —0.2,0.5,0.5,1),nrow=4,ncol=4) 


> #on affiche la matrice pour le principe 
> EstimatedCM 


[1] [,2] [,3] [,4] | 
[1,] 1.0 0.8 -0.4 -0.2 | 
[2,1 0-8 1.0 -0-3 0.5 | 
[3,] -0.4 -0.3 1.0 0.5 
[4,1] -0.2 0.5 0.5 1.0 


> fpour le fun on check les valeurs propres 

> eigen(ECMatrix Corr)S$values 

[1] 2.03852755 1.57260336 0.47346368 -0.08459459 
> 


Donc oui... Voyons comment corriger le tir: 
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GR RGui (64-bit) - [R Console se un V | 


R File Edit View Misc Packages Windows Help 


> Matrix::nearPD(EstimatedCM) 
Smat 
4 x 4 Matrix of class "“dpoMatrix" 

[1] [,2] [,3] [,4] 
Le A | 1.0209364 0.7720221 -0.4098328 -0.1787085 
[2:1 0.7720221 1.0373877 -0.2868602 0.4715476 
[3,] -0.4098328 -0.2868602 1.0046179 0.4900005 
[4,] -0.1787085 0.4715476 0.4900005 1.0216526 


Seigenvalues 
[1] 2.038528e+00 1.572603e+00 4.734637e-01 2.038528e-08 


$Scorr 
[1] FALSE 


SnormF 
[1] 0.08459461 


Siterations 
[EL 2 


$rel.tol 
[1] 0 


$Sconverged 
[1] TRUE 


attr(,"class") 
[1] "“nearPD" 
>| 


Comme nous nous y attendions, le choix de l'algorithme influe quand même significativement 
sur les valeurs de la plus proche matrice de corrélation. Mais au moins c'est une vraie matrice 
positive définie maintenant! 
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Marche aléatoire 


Nous avons vu dans le cours théorique que aussi bien en physique théorique (mécanique 
statistique) qu'en finance (dont une proportion importante découle de la mécanique 
statistique...) la marche aléatoire est utile pour comprendre la construction intellectuelle de la 
valorisation d'instruments financier. 


Voyons donc comment créer une marche aléatoire simple avec le graph fameux correspondant 
(notez que comprendre ce genre de script vous sera utile plus tard pour apprendre la 
programmation dans R): 


R 4-bit onsole = 
AR Fichier Edition Voir Misc Packages Fenêtres Aide 
BOIS GSIEIE 


random.walk <- function(nsteps, x0=0) !{ 
x <- numeric(nsteps + 1) 
x[1] <- x0 
for (i in seq len(nsteps)) { 
x[i+1] <- x{i] + sign(rnorm(n=1, mean=0)) 
} 
x 
} 
set.seed(1i) 
nsteps <- 20 
nrep <-— 10 
cols <- rainbow(nrep) 
plot (NA, xlim=c(l, nsteps+1), ylim=c(-nsteps , nsteps ), xlab="Step number", ylab="Position") 
for (i in 1:nrep)!{ 
lines (random.walk(nsteps ), col=cols{i]) 


VH+HVVVVVV + + + + + + + V 
si 


<Ÿ 
Ce qui donne graphiquement: 
[ ee, nt) one 
MR Graphics: L -TIVE CHERE 
oO 
La 
_ 
= 
© <> nt 
8 © — 
(re 
> 
[=] 
S 
5 10 15 20 
Step number 
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Reste à faire des arbres de type CRR avec drift, Jarrow-Rudd, Leisen-Reimer et Tian comme 
nous le verrons à la page 2538. 


Ne 
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Exemple 393.: Comptes de produits et charges 
R 3.2.3 


En finance avant d'investir des certaines obligations ou actions il peut être intéressant d'avoir 
une idée de leur état financier via une analyse de leurs comptes de produits et charges (CPC) 
conformément aux standards du International Financial Reporting Standards (IFRS). 


Le package quantmod permet d'obtenir ces informations rapidement via les bases de données 
Google et les fonctions principales getFinancial et viewFinancials. 


Voyons un exemple avec Apple et les données qui sont publiques... (faut pas compter au 
21% siècle y avoir les grandes entreprises suisses car elles savent à peine utiliser 
correctement un système informatique.….). 


D'abord on charge les données: 


R RGui (64-bit) - [R Console] 
KR File Edit View Misc Packages Windows Help 


> library(quantmod) 

> # obtenir les 3 principaux états financiers 
> # qui vont être stockés dans AAPL.f 
> 


getFinancials("AAPL") 
[1] "AAPL.f" 
> # objet de type "financials" 
> class (AAPL.f) 
[1] "financials" 
> | 


Attention!!!! Depuis Mars 2018, Google a désactivé le service qu'utilisait le package 
allons le voir plus bas! 


Ce qui donne annuellement: 
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R RGui (64-bit) - IR Console] 
R File Edit View Misc Packages Windows Help 


SSI ele) els] 


> # imprimer les comptes de produits et charges 
> viewFinancials (AAPL.f, type = "IS", 
Annual Income Statement for AAPL 


Sciences.ch 


(IS) 


avec périodicité annuelle (A) 


period = "zA") 


Revenue 

Other Revenue, 
Total Revenue 
Cost of Revenue, 
Gross Profit 
Selling/General/Admin. Expenses, Total 
Research & Development 
Depreciation/Amortization 
Interest Expense (Income) 
Unusual Expense (Income) 
Other Operating Expenses, 
Total Operating Expense 
Operating Income 

Interest Income (Expense), Net Non-Operating 
Gain (Loss) on Sale of Assets 

Other, Net 

Income Before Tax 
Income After Tax 
Minority Interest 
Equity In Affiliates 
Net Income Before Extra. 
Accounting Change 
Discontinued Operations 
Extraordinary Item 

Net Income 

Preferred Dividends 
Income Available to Common Excl. Extra Items 
Income Available to Common Incl. Extra Items 
Basic Weighted Average Shares 

Basic EPS Excluding Extraordinary Items 

Basic EPS Including Extraordinary Items 

Dilution Adjustment 

Diluted Weighted Average Shares 

Diluted EPS Excluding Extraordinary Items 
Diluted EPS Including Extraordinary Items 
Dividends per Share - Common Stock Primary Issue 
Gross Dividends - Common Stock 

Net Income after Stock Based Comp. Expense 
Basic EPS after Stock Based Comp. Expense 
Difluted EPS after Stock Based Comp. Expense 


Total 


Total 


- Net Operating 


Total 


Items 


t 
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170910.00 
NA 
170910.00 
106606.00 
64304.00 
10830.00 
4475.00 


233715.00 
NA 
233715.00 
140089.00 
93626.00 
14329.00 
8067.00 
NA 

NA 

NA 

NA 
162485.00 
71230.00 


182795.00 
NA 
182795.00 
112258.00 
70537.00 
11993.00 
6041.00 
Na 

Na 

NA 

Na 
130292.00 
52503.00 


121911.00 
48999.00 
NA 

NA 
-24.00 
50155.00 
37037.00 


39510.00 


39510.00 
39510.00 
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Et en trimestriel: 


R RGui (64-bit) - [R Console] 
R File Edit View Misc Packages Windows Help 


EBROIS GB) 


> # CPC trimestrielle 
> viewFinancials (AAPL.f, type = "IS", period = “Q") 
Quarterly Income Statement for AAPL 

2016-03-26 2015-12-26 2015-09-26 
Revenue 50557.00 75872.00 51501.00 
Other Revenue, Total NA Na NA 
Total Revenue 50557.00 75872.00 51501.00 
Cost of Revenue, Total 30636.00 45449.00 30953.00 
Gross Profit 19921.00 30423.00 20548.00 
Selling/General/Admin. Expenses, Total 3423.00 3848.00 3705.00 
Research & Development 2511.00 2404.00 2220.00 
Depreciation/Amortization NA NA 
Interest Expense (Income) - Net Operating NA NA 
Unusual Expense (Income) NA NA 
Other Operating Expenses, Total NA NA 
Total Operating Expense 36570.00 51701.00 36878.00 
Operating Income 13987.00 24171.00 14623.00 
Interest Income (Expense), Net Non-Operating NA NA 
Gain (Loss) on Sale of Assets NA NA 
Other, Net -263.00 -149.00 
Income Before Tax 24573.00 15062.00 
Income After Tax 18361.00 11124.00 
Minority Interest 
Equity In Affiliates 
Net Income Before Extra. Items 18361.00 
Accounting Change 
Discontinued Operations 
Extraordinary Item 
Net Income 18361.00 11124.00 
Preferred Dividends NA NA 
Income Available to Common Excl. Extra Items 18361.00 11124.00 
Income Available to Common Incl. Extra Items 18361.00 11124.00 
Basic Weighted Average Shares Na Na 
Basic EPS Excluding Extraordinary Items NA NA 
Basic EPS Including Extraordinary Items NA NA 
Dilution Adjustment NA NA 
Diluted Weighted Average Shares 5594.13 5682.52 
Diluted EPS Excluding Extraordinary Items 
Diluted EPS Including Extraordinary Items 
Dividends per Share - Common Stock Primary Issue 
Gross Dividends - Common Stock 
Net Income after Stock Based Comp. Expense 
Basic EPS after Stock Based Comp. Expense 
Diluted EPS after Stock Based Comp. Expense 


< 
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Et les tableaux de trésorerie annuelles: 


R RGuiï 64-biti - [R Console] 


R File Edit View Misc Packages Windows Help 


ÉAOSOSIORE 


> # imprimer les tableaux de Lcrésurie annuelles 
> viewFinanciels (AAPL.f,type = "CF", period = "A") 


Annual Cash Flow Statement for AAPL 


2015-09-26 


Net Income/Starting Line 
Depreciation/Depletion 
Amortization 

Deferred Taxes 

Non-Cash Items 

Changss in Working Capital 

Cash from Operating Activities 
Capital Expenditures 

Other Investing Cash Flow Items, Total 
Cash from Investing Activities 
Finensing Cash Flow Items 

Total Cash Dividends Paid 

Issvance (Retirement) of Stock, Net 
issvance (Retirement) of Debt, Net 
Cash from Financing Activities 
Foreign Exchange Effects 

Net Change in Cash 

Cash Interest Paid, Supplemental 
Cash Taxes Paid, Supplemental 
attr(,"col desc”) 

[1] "52 weeks ending 2015-09-26" "52 weeks 
[4] "52 weeks ending 2912-09-29" 


>| 


53394 
11257 
N2z 
1362 
3586 
11647 
81266 
-11488 
-44786 
-56274 
—750 
-11561 
-34710 
29305 
-17716 
NA 
7276 
514 
13252 


2014-09-27 
39510 
7946 
Na 
2347 
2863 
7047 
59713 
-9813 
-12766 
-22579 
=439 
-11126 
-44270 
18266 
-37549 
NA 
-£15 
339 
10026 


2013-09-28 2012-09-29 


37037 
6757 
NA 
1141 
2253 
6478 
53665 
-9076 
—24698 
-33773 
—381 
-10564 
-22330 
16896 
-16379 
NA 
3513 
NA 
9128 


in 


41733 
3277 
N2 
4405 
1740 
-299 
50856 
-9402 
—38825 
-48227 
1351 
-2488 
-561 
NA 
-1698 
NA 

931 

NA 
7682 


Sciences.ch 


ending 2014-09-27" "52 weeks ending 2013-09-2€" 


R Statistical Software 


2463/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Et les bilans annuels: 


R RGui (64-bit) - [R Console] _ O X 
R File Edit View Misc Packages Windows Help - 5 x 


> # imprimer les bilans annuels 
> viewFinancials (AAPL.f, type = "BS", period = "A") 
Annual Balance Sheet for AAPL 

2015-09-26 2014-09-27 2013-09-28 2012-09-29 
Cash & Equivalents 9731.00 3612.00 5554.00 7637.00 
Short Term Investments 20481.00 11233.00 26287.00 18383.00 
Cash and Short Term Investments 41601.00 25077.00 40546.00 29129.00 
Accounts Receivable - Trade, Net 16849.00 17460.00 13102.00 10930.00 
Receivables - Other NA Na Na Na 
Total Receivables, Net 30343.00 27219.00 20641.00 18692.00 
Total Inventory 2349.00 2111.00 1764.00 791.00 
Prepaid Expenses NA NA Na NA 
Other Current Assets, Total 15085.00 14124.00 10335.00 9041.00 
Total Current Assets 89378.00 68531.00 73286.00 57653.00 
Property/Plant/Equipment, Total - Gross 49257.00 39015.00 28519.00 21887.00 
Accumulated Depreciation, Total -26786.00 -18391.00 -11922.00 -6435.00 
Goodwill, Net 5116.00 4616.00 1577.00 1135.00 
Intangibles, Net 3893.00 4142.00 4179.00 4224.00 
Long Term Investments 164065.00 130162.00 106215.00 92122.00 
Other Long Term Assets, Total 5556.00 3764.00 5146.00 5478.00 
Total Assets 290479.00 231839.00 207000.00 176064.00 
Accounts Payable 35490.00 30196.00 22367.00 21175.00 
Accrued Expenses 24169.00 7689.00 4782.00 3283.00 
Notes Payable/Short Term Debt 8499.00 6308.00 0.00 0.00 
Current Port. of LT Debt/Capital Leases 2500.00 NA Na NA 
Other Current liabilities, Total 9952.00 19255.00 16509.00 14084.00 
Total Current Liabilities 80610.00 63448.00 43658.00 38542.00 
Long Term Debt 53463.00 28987.00 16960.00 Na 
Capital Lease Obligations NA NA NA NA 
Total Long Term Debt 53463.00 28987.00 16960.00 0.00 
Total Debt 64462.00 35295.00 16960.00 0.00 
Deferred Income Tax 24062.00 20259.00 16489.00 13847.00 
Minority Interest NA NA NA NA 
Other Liabilities, Total 12989.00 7598.00 6344.00 5465.00 
Total Liabilities 171124.00 120292.00 83451.00 57854.00 
Redeemable Preferred Stock, Total NA NA NA NA 
Preferred Stock - Non Redeemable, Net NA NA NA NA 
Common Stock, Total 27416.00 23313.00 19764.00 16422.00 
Additional Paid-In Capital NA NA NZ NA 
Retained Earnings (Accumulated Deficit) 92284.00 87152.00 104256.00 101289.00 
Treasury Stock - Common NA NA NA NA 
Other Equity, Total -464.00 -40.00 -191.00 731.00 
Total Equity 119355.00 111547.00 123549.00 118210.00 
Total Liabilities & Shareholders6e#39; Equity 290479.00 231839.00 207000.00 176064.00 


r 


Maintenant voyons avec le package finreportr et d'abord ses deux fonctions et 
Companylnfo( ) et GetBalanceSheet( ): 
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R RGui (64-bit) - [R Console] — 0 
ŒR File Edit View Misc Packages Windows Help -#x 
mn 
> library("finreportr") 
> CompanyInfo("AAPL") 
company CIK SIC state state.inc FY.end street.address city.state 
1 APPLE INC 0000320193 3571 CA CA 0930 ONE APPLE PARK WAY CUPERTINO CA 95014 
> GetBalanceSheet ("AAPL",2016) 
Metric Units Amount startDate endDate 
1 Cash and Cash Equivalents, at Carrying Value usd 14259000000 <NA> 2013-09-28 
2 Cash and Cash Equivalents, at Carrying Value usd 113844000000 <NA> 2014-09-27 
3 Cash and Cash Equivalents, at Carrying Value usd 21120000000 <NA> 2015-09-26 
4 Cash and Cash Equivalents, at Carrying Value usd 204684000000 <NA> 2016-09-24 
s Available-for-sale Securities, Current usd 20481000000 <NA> 2015-09-26 
6 Available-for-sale Securities, Current usd 46671000000 <NA> 2016-09-24 
% Accounts Receivable, Net, Current usd 166849000000 <NA> 2015-09-26 
8 Accounts Receivable, Net, Current usd 15754000000 <NA> 2016-09-24 
9 Inventory, Net usd 2349000000 <NA> 2015-09-26 
10 Inventory, Net usd 2132000000 <NA> 2016-09-24 
11 Nontrade Receivables, Current usd 113494000000 <NA> 2015-09-26 | 
12 Nontrade Receivables, Current usd 13545000000 <NA> 2016-09-24 | 
13 Other Assets, Current  usd 15085000000 <NA> 2015-09-26 
14 Other Assets, Current usd 8283000000 <NA> 2016-09-24 
15 Assets, Current usd 689378000000 <NA> 2015-09-26 
16 Assets, Current usd 106869000000 <NA> 2016-09-24 
47 Available-for-sale Securities, Noncurrent usd 164065000000 <NA> 2015-09-26 
18 Available-for-sale Securities, Noncurrent usd 170430000000 <NA> 2016-09-24 
19 Property, Plant and Equipment, Net usd 22471000000 <NA> 2015-09-26 
20 Property, Plant and Equipment, Net usd 27010000000 <NA> 2016-09-24 
21 Goodwill usd 5116000000 <NA> 2015-09-26 
22 Goodwill usd 5414000000 <NA> 2016-09-24 
23 Intangible Assets, Net (Excluding Goodwill) usd 3893000000 <NA> 2015-09-26 
24 Intangible Assets, Net (Excluding Goodwill) usd 3206000000 <NA> 2016-09-24 
25 Other Assets, Noncurrent usd 5422000000 <NA> 2015-09-26 
26 Other Assets, Noncurrent usd 8757000000 <NA> 2016-09-24 
27 Assets usd 290345000000 <NA> 2015-09-26 
28 Assets usd 321686000000 <NA> 2016-09-24 
29 Accounts Payable, Current usd 35490000000 <NA> 2015-09-26 
30 Accounts Payable, Current usd 37294000000 <NA> 2016-09-24 | 
31 Accrued Liabilities, Current usd 25181000000 <NA> 2015-09-26 | 
32 Accrued Liabilities, Current usd 22027000000 <NA> 2016-09-24 
33 Deferred Revenue, Current usd 8940000000 <NA> 2015-09-26 
34 Deferred Revenue, Current usd 8080000000 <NA> 2016-09-24 
35 Commercial Paper usd 8499000000 <NA> 2015-09-26 
36 Commercial Paper usd 8500000000 <NA> 2015-09-26 
37 Commercial Paper usd 8100000000 <NA> 2016-09-24 
38 Commercial Paper usd 8105000000 <NA> 2016-09-24 
39 Long-term Debt, Current Maturities usd 2500000000 <NA> 2015-09-26 
40 Long-term Debt, Current Maturities usd 3500000000 <NA> 2016-09-24 | 
41 Liabilities, Current usd 680610000000 <NA> 2015-09-26 | 
42 Liabilities, Current usd 793006000000 <NA> 2016-09-24 | 
43 Deferred Revenue, Noncurrent usd 3624000000 <NA> 2015-09-26 | 
v| 
< > 
Et la fonction GetCashFlow( ): Ke 
Ÿ 
R RGui (64-bit) - [R Console] — O 
Œ File Edit View Misc Packages Windows Help -#» 
> GetCashFlow("AAPL",2016) | 
Metric Units Amount startDate endDate | 
a Cash and Cash Equivalents, at Carrying Value usd 14259000000 <NA> 2013-09-28 | 
2 Cash and Cash Equivalents, at Carrying Value usd 136844000000 <NA> 2014-09-27 | 
3 Cash and Cash Equivalents, at Carrying Value usd 211120000000 <NA> 2015-09-26 | 
4 Cash and Cash Equivalents, at Carrying Value usd 204840000000 <NA> 2016-09-24 
5 Net Income (Loss) Attributable to Parent  usd 39510000000 2013-09-29 2014-09-27 | 
6 Net Income (Loss) Attributable to Parent usd 168024000000 2014-09-28 2014-12-27 | 
# Net Income (Loss) Attributable to Parent usd 13569000000 2014-12-28 2015-03-28 | 
8 Net Income (Loss) Attributable to Parent usd 10677000000 2015-03-29 2015-06-27 | 
9 Net Income (Loss) Attributable to Parent usd 111124000000 2015-06-28 2015-09-26 | 
10 Net Income (Loss) Attributable to Parent usd 53394000000 2014-09-28 2015-09-26 | 
11 Net Income (Loss) Attributable to Parent  usd 168361000000 2015-09-27 2015-12-26 | 
12 Net Income (Loss) Attributable to Parent usd 10516000000 2015-12-27 2016-03-26 
13 Net Income (Loss) Attributable to Parent usd 7796000000 2016-03-27 2016-06-25 | 
14 Net Income (Loss) Attributable to Parent usd 9014000000 2016-06-26 2016-09-24 | 
35 Net Income (Loss) Attributable to Parent usd 45687000000 2015-09-27 2016-09-24 | 
16 Depreciation, Amortization and Accretion, Net usd 7946000000 2013-09-29 2014-09-27 | 
17 Depreciation, Amortization and Accretion, Net usd 111257000000 2014-09-28 2015-09-26 | 
18 Depreciation, Amortization and Accretion, Net usd 10505000000 2015-09-27 2016-09-24 | 
19 Share-based Compensation usd 2863000000 2013-09-29 2014-09-27 | 
20 Share-based Compensation usd 3586000000 2014-09-28 2015-09-26 | 
21 Share-based Compensation usd 4210000000 2015-09-27 2016-09-24 | 
22 Deferred Income Tax Expense (Benefit) usd 2347000000 2013-09-29 2014-09-27 | 
23 Deferred Income Tax Expense (Benefit) usd 1382000000 2014-09-28 2015-09-26 | 
24 Deferred Income Tax Expense (Benefit) usd 4938000000 2015-09-27 2016-09-24 | 
25 Increase (Decrease) in Accounts Receivable usd 4232000000 2013-09-29 2014-09-27 | 
26 Increase (Decrease) in Accounts Receivable usd —611000000 2014-09-28 2015-09-26 | 
27 Increase (Decrease) in Accounts Receivable usd -1095000000 2015-09-27 2016-09-24 
28 Increase (Decrease) in Inventories usd 76000000 2013-09-29 2014-09-27 
29 Increase (Decrease) in Inventories usd 238000000 2014-09-28 2015-09-26 
30 Increase (Decrease) in Inventories usd —217000000 2015-09-27 2016-09-24 
31 Increase (Decrease) in Other Receivables usd 2220000000 2013-09-29 2014-09-27 
32 Increase (Decrease) in Other Receivables usd 3735000000 2014-09-28 2015-09-26 
33 Increase (Decrease) in Other Receivables usd 51000000 2015-09-27 2016-09-24 
34 Increase (Decrease) in Other Operating Assets usd -167000000 2013-09-29 2014-09-27 
35 Increase (Decrease) in Other Operating Assets usd 179000000 2014-09-28 2015-09-26 | 
36 Increase (Decrease) in Other Operating Assets usd -1090000000 2015-09-27 2016-09-24 
37 Increase (Decrease) in Accounts Payable usd 5938000000 2013-09-29 2014-09-27 
38 Increase (Decrease) in Accounts Payable usd 5400000000 2014-09-28 2015-09-26 | 
39 Increase (Decrease) in Accounts Payable usd 1791000000 2015-09-27 2016-09-24 | 
40 Increase (Decrease) in Deferred Revenue usd 1460000000 2013-09-29 2014-09-27 | 
41 Increase (Decrease) in Deferred Revenue usd 1042000000 2014-09-28 2015-09-26 | 
42 Increase (Decrease) in Deferred Revenue usd -1554000000 2015-09-27 2016-09-24 | 
43 Increase (Decrease) in Other Operating Liabilities usd 6010000000 2013-09-29 2014-09-27 | 
44 Increase (Decrease) in Other Operating Liabilities usd 8746000000 2014-09-28 2015-09-26 | 
45 Increase (Decrease) in Other Operating Liabilities usd -2104000000 2015-09-27 2016-09-24 | 
46 Net Cash Provided by (Used in) Operating Activities, Continuing Operations usd 59713000000 2013-09-29 2014-09-27 | 
47 Net Cash Provided by (Used in) Operating Activities, Continuing Operations usd 681266000000 2014-09-28 2015-09-26 | 
v| 
< He] 
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Exemple 394.: Valeur présente d'une obligation et rendement 
R 3.0.2 


Nous allons reprendre ici l'exemple du cours que nous avons fait après la démonstration 


mathématique détaillée. Rappelons juste que l'exemple numérique est celui repris de la page 
Wikipédia: 


https://en.wikipedia.org/wiki/Bond_duration 


D'abord nous allons calculer la valeur présente (present value) d'une obligation de 2 ans 
d’une valeur nominale de 100 dollars, un coupon semestriel de 20% et un rendement de 4% 


composé semestriellement. Le PV total sera à l'aide de la fonction bondpv( ) du package 
derivmkts: 


R 
R File Edit View Misc Packages Windows Help 


> library("derivmkts") 

> coupon <- 20; mat <- 2; freq <- 2; principal <- 100; yield <- 0.04; 

> (price<-bondpv(coupon, mat, yield, principal, freq)) 

[1] 130.4618 

> bondyield(coupon, mat, price-=price, principal, freq) | 
[1] 0.04 

> duration(price, coupon, mat, principal, freq, modified=TRUE) | 
[1] 1.742636 | 
> duration(price, coupon, mat, principal, freq, modified-FALSE) 

[1] 1.777489 

> convexity(price, coupon, mat, principal, freq) 

[1] 4.094113 

> | 


Ce qui est parfaitement conforme aux calculs "à la main” (excepté pour la convexité que nous 
avons la flemme de calculer)! 
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Exemple 395.: Liquidités et illiquidités 
R 3.53 


Illiquidité de Rolle (1984) 


Nous avons démontré dans le cours théorique l'origine de relation du Bid et Ask spread de 
Roll (selon son article de 1984 qui est très détaillé ce qui est plutôt rare...) qui permet donc 
d'estimer le prix statistique de transaction d'un instrument (puisque c'est justement la 
différence statistique entre le bid et le ask). Malheureusement, à notre connaissance, aucun 
package à ce jour n'intègre le calcul correspondant. Voyons comment alors écrire le calcul 
depuis zéro car ce n'est pas bien long et c'est aussi un excellent exemple d'application de la 
fonction lag( ): 


- n 
R BK ES 
> library("zoo") 
> c=1 
> time = 1:100 
> epsilon = rnorm(time) 
> prices = cumsum(epsilon) 
> mt = zoo(prices) 
at=ntte 
> bt=mt-c 
> 
> qt = sign(rnorm(time)) 
> pt =nt + (e * at) 
> plot(p t) 
> returns <- na.omit((m t/lag(m t))-1) 
> cost <- sgrt(2 * cov(returns [1:length(returns )-1], lag(returns , na.pad=FALSE))) 
> cost 
[1] 0.08847571 
> 

k ——— 
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Ratio de Biaïs (bias ratio) 


Le but ici va être simplement de reproduire cet indicateur empirique tel que calculé "à la main 
dans le cours théorique" avec Microsoft Excel. 


Pour cela nous partons du même jeu de données (Fairfield Sentry pour rappel est connu pour 


avoir une grande part de sens rendements grâce aux fonds de Maddoff...) mis dans un fichier 
CSV dont nous avons éléminé les valeurs manquantes: 


Table 1: Fairfield Sentry monthly returns from Dec. 1990 to Oct. 2008. 


Year | Jan | Feb | Mar | Apr | May | Jun Jul | Aug | Sep | Oct | Nov | Dec 

2008 | 0.63 | 0.06 | 0.18 | 0.93 | 0.81 | -0.06 | 0.72 | 0.71 | 0.50 | -0.06| na | na 
| 2007 | 0.29 | -0.11 | 1.64 | 0.98 | 0.81 | 0.34 | 0.17 | 0.31 | 0.97 | 0.46 | 1.04 | 0.23 | 
| 2006 | 0.70 | 0.20 | 1.31 | 0.94 | 0.70 | 0.51 | 1.06 | 0.77 | 0.68 | 0.42 | 0.86 | 0.86 | 
| 2005 | 0.51 | 0.37 | 0.85 | 0.14 | 0.63 | 0.46 | 0.13 | 0.16 | 0.89 | 1.61 | 0.75 | 0.54 
| 2004 | 0.88 | 0.44 | -0.01 | 0.37 | 0.59 | 1.21 | 0.02 | 1.26 | 0.46 | 0.03 | 0.79 | 0.24 | 
2003 | -0.35 | -0.05 | 1.85 | 0.03 | 0.9 | 0.93 | 1.37 | 0.16 | 0.86 | 1.26 | -0.14 | 0.25 
| 2002 | -0.04 | 0.53 | 0.39 | 1.09 | 2.05 | 0.19 | 3.29 | -0.13 | 0.06 | 0.66 | 0.09 | 0.00 | 
2001 | 2.14 | 0.08 | 1.07 | 1.26 | 0.26 | 0.17 | 0.38 | 0.94 | 0.66 | 1.22 | 1.14 | 0.12 
| 2000 | 2.14 | 0.13 | 1.77 | 0.27 | 1.30 | 0.73 | 0.58 | 1.26 | 0.18 | 0.86 | 0.62 | 0.36 | 
1999 | 1.99 | 0.11 | 2.22 | 0.29 | 1.45 | 1.70 | 0.36 | 0.87 | 0.66 | 1.05 | 1.54 | 0.32 
1998 | 0.85 | 1.23 | 1.68 | 0.36 | 1.69 | 1.22 | 0.76 | 0.21 | 0.98 | 1.86 | 0.78 | 0.26 
| 1997 | 2.38 | 0.67 | 0.80 | 1.10 | 0.57 | 1.28 | 0.68 | 0.28 | 2.32 | 0.49 | 1.49 | 0.36 | 
1996 | 1.42 | 0.66 | 1.16 | 0.57 | 1.34 | 0.15 | 1.86 | 0.20 | 1.16 | 1.03 | 1.51 | 0.41 
| 1995 | 0.85 | 0.69 | 0.78 | 1.62 | 1.65 | 0.43 | 1.02 | -0.24 | 1.63 | 1.53 | 0.44 | 1.03 | 
| 1994 | 2.11 | -0.44 | 1.45 | 1.75 | 0.44 | 0.23 | 1.71 | 0.35 | 0.75 | 1.81 | -0.64 | 0.60 | 
| 1993 | -0.09 | 1.86 | 1.79 | -0.01 | 1.65 | 0.79 | 0.02 | 1.71 | 0.28 | 1.71 | 0.19 | 0.39 
| 1992 | 0.42 | 2.72 | 0.94 | 2.79 | -0.27 | 1.22 | -0.09 | 0.85 | 0.33 | 1.33 | 1.35 | 1.36 | 
1991 | 3.01 | 1.40 | 0.52 | 1.32 | 1.82 | 0.30 | 1.98 | 1.00 | 0.73 | 2.75 | 0.01 | 1.56 
| 1990 | | | | | 2.77 | 


Nous utilisons pour cela le package YRmisc et sa fonction pt.bias( ): 
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 RGui (64-bit) - [R Console] — 0 


R File Edit View Misc Packages Windows Help _ CU ix 


> library("YRmisc") 
> library("moments") 
> vields<-read.csv("c:/tmp/Bias ratio Yields.csv",sep=",",header=T) 
> summary(yields) 
Year Attribute Value 
Min. :1990 Length:215 Min. :-0.6400 
1st Qu.:1995 Class :character 1st Qu.: 0.2950 
Median :1999 Mode :character Median : 0.7300 
Mean :1999 Mean : 0.8421 
3rd Qu.:2004 3rd Qu.: 1.2700 
Max. :2008 Max. : 3.2900 
> head(yields) 
Year Attribute Value 
1 2008 Jan 0.63 
2 2008 Feb 0.06 
3 2008 Mar 0.18 
4 2008 Apr 0.93 
5 2008 May 0.81 
6 2008 Jun -0.06 
> tail(yields) 
Year Attribute Value 
210 1991 Aug 1.00 
211 1991 Sep 0.73 
212 1991 OGE 2.75 
213 1991 Nov O.01 
214 1991 Dec 1.56 
215 1990 Dec 2.77 


> r<-yields$Value 

> pt.biasi(r) 

[1] 0.6555556 

> #jour pour comparer avec le skewness 
> moments::skewness(r) 

[1] 0.7811937 

> | 


Ce qui ne correspond pas du tout au calcul fait avec Microsoft Excel qui est de 5.18 !!! 
Notons par ailleurs que le Skewness (sans surprises!) nous amène à la même conclusion! 


Donc pourquoi cette différence importante entre le 5.18 obtenu avec Microsoft Excel et ce 
package R? La raison est simple! Malheureusement le code de ce package utilise: 


nc pe _ _#rilre là. +6]) 
FRS RO RE D Er] € li — 6.) 


Au lieu de: 


#(rilr: € [0,+6]) 


Bias Ratio = BR = 
1+#(rilrie[-6.0)) 
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Exemple 396.: Mouvement Brownien vs Mouvement de Lévy 
R 3.0.2 


Dans le cours théorique de finance quantitative nous avons assez longuement étudié le 
mouvement brownien. Nous avons cependant aussi parlé des processus de Lévy pour les 
distributions à queues épaisses. Voyons-en un exemple en commençant d'abord avec le 
processus gaussien bivarié à la main: 


| R R Console -|e (=) | 


N<-100 

xX<-cumsum(rnortm (N)) 

y<-cumsum(rnortm (N)) 

pilot ix,v,type="o",pch = 16,xlab="", vlab="", 
axes=FAiLSE,main="Mouvement brownien") 
box(j:gridi) 


VVY+HNVVV 


sex) 


Mouvement brownien 


Figure 316 Graph Mouvement Brownien 


et ensuite avec le cas classique du processus de Lévy (aussi bidimensionnel) basé sur une 
distribution de Student (remarquez le fait que parfois vous obtiendrez un grand saut): 
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R R Console [S | KES 
> N<-100 , 
> x<-cumsum(irti(N,df=2)) 
> v<-cumsumirt(N,df£f=2)) 
> plot(x,y,type="o",pch = 16,xlab="",vlab="", 

+ axes=FALSE,main="Processus de Lévy") 

> box(j;:gridi) 

> | 


R R Graphics: Device 2 (ACTIVE) 


… 


Processus de Lévy 


Bon mais en réalité nous savons qu'il y a beaucoup plus de processus de diffusion! Il existe un 
package très complet, nommé yuima, pour lequel il existe un livre dédié de relativement 
bonne qualité et qui aussi sa propre app Shiny (très utile pour comprendre certains points du 
fonctionnement du package): 


https://vuimaproject.com/ 


Voyons d'abord comment simuler une mouvement brownien avec ce package: 
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GR RGui (64-bit) - [R Console (e 
M File Edit View Misc Pa es Windows Help = IRiIx 


> library("yuima") 

> model <- setModel(drift="0.3",diffusion="4", 
> X<-simulate (model) 

Warning message: 

In yuima.warn("'delta' (re)defined.") 

YUIMA: 'delta' (re)defined. 


> data=zoo (X@data@original.data) 
> head(data,4) 
Series 1 
0 100.00000 
0.01 99.52017 
0.02 99.63415 
0.03 100.07092 
> 


> simhack <- function() { 

+ s <- simulate (model) 

+ return(s@data@zoo.data[[1]]) 
+ ÿ 


> r <- replicate(100,simhack()) 

There were 50 or more warnings (use warnings() 
> matplot(r,type="l",1lty=1) 

>| 


> #on crée une fonction pour boucle une simulation 


> #On exécute 100 fois pour créer une matrice de simualtions 


state.var="x",time.var="t",solve.var="x",xinit=100) 


to see the first 50) 


Ce qui donnera: 


R À Graphics: D 
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Et voyons maintenant comment simuler un processus de Lévy à sauts de Poisson de type 
Student à deux degrés de liberté: 


> model <- setMcdal (drs tte" 13%, 45 ttusions'é", jmp.ccett="1",meaenrests st {irtensity="i", dteliet("at(z, 
+ measure-type="CP", stat=. yvar="x", tire. var="=",solve vaz="x",xirit=iuu 
> siucauk <— [uuclic::(i 4 

5 <— simulale(uodel , Lrue.param — lislmu—.1, sigea—-.2)) 

reczrn(sfdataëz2o.datalf1ll; 


<-— rcplicatc(100,simnacki); 
re worc 50 or morc warnings (usc warnings() to s2c the first 50) 
matploz (r,zype="1",1ty=1) 


A Grishits Deite 2 (ACTIVE) 
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Exemple 397.: Pont Brownien et Excursion Brownienne 
R 4.12 


Voyons comment obtenir ces deux concepts vus dans le cours théorique. 


Pour cela, rappelons d'abord le mouvement brownian standard: 


F5 


R Console EEE 
> n <- 1001 
> times <- seg(0, 1, length.out=n) 
> 
> set.seed(17) 
> dW <- rnorm(n)/sqrti(n) 
> NW <- cumsum(dW) 
> 
> plot(times,W,type="l") mouvement brownien original 
? 
r'1 "s Al E) 
o 
o 
T 
o 
La 
[æ) 
Z [æ) 
o 
La 
[æ)] 
[] 
T 
o 
| 
ao 
= | 
[] 
0.0 02 0.4 06 0.8 
times 


Et voici comment obtenir le pont brownien: 
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L 
mR R Console sex) 


n <-— 1001 
times <- seqgq(0, 1, length.out=n) 


set.seed(17) 
dW <- rnorm(n)/sqgrti(n) 
W <- cumsum(dW) 


#Pont brownien (0,0) à (1,cible) 
B <- W - times * W{n] 


VVYVVNVNVNVNNVNV NV 


-06 -04 “02 00 O2 


-0.8 


0.0 02 04 06 0.8 1.0 


times 


Et enfin l'excursion Brownienne“!: 


41 Selon la méthode décrite ici: https://projecteuclid.org/download/pdf_1/euclid.aop/1176995155 
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QE Console 


n <-— 1001 
times <- seq(0, 1, length.out=n) 


set.seed(17) 
dW <- rnorm(n)/sgrt(n) 
NW <- cumsum(dW) 


> fPont brownien (9,0) à (l,cible) 
B <- W - times * Win] 


# construction de Vervaat de l'excursion brownienne 
> Bmin <- min(B) 

tmin <- which(B == Bmin) 

newtimes <— (times{tmin] + times) #% 1 

J<-floor (newtimes * n) 

BE <- B[J] - Bmin 

plot(l:length(BE)/n,BE,type="l") 


0.4 06 


1length(BE}n 
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Exemple 398.: Mouvement Brownien Géométrique et test 


d'adéquation 
R 3.6.2 


Nous savons quelle est l'import de mouvement brownien géométrique dans le modèle de 
Black and Scholes, Black-Merton et aussi KMV. 


Quand on traite avec de tels processus de diffusion, un minimum est de vérifier si on a bien 
affaire à ces derniers (et non pas à autre chose...). Donc voyons comment rapidement en 
simuler et tester leur adéquation (le rendement logarithmique devant suivre une loi normale). 


D'abord voyons comment simuler un mouvement brownien standard ou géométrique avec le 
package fExpressCertificates et sa fonction GBM( ) (ou respectivement sa fonction BM( )): 


r 


R ts tes) 
> library("fExpressCertificates") 
> T<-1 
> mc.steps<-100 
> dt<-T/mc.steps 
> t<-seq(0, T, by=dt) 
> #il y aussi la fonction BM... 
> S_ t<-GBM(S0=100, mu=0.05, sigma=0.3, T=T, N=mc.steps) 
> plot(t,S t,type="l",main="Sample paths of the Geometric Brownian Motion") 
> | 
L a 
R EE ES 
Sample paths of the Geometric Brownian Motion 
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Maintenant regardons s'il passe le test de Normalité de Jaque-Berra avec la fonction 
jarque.bera.test( ) du package tseries et quelques graphiques avec la fonction hist( ) du 
package base et la fonction qqPlot( ) du package car: 
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MA Console 


> library("tseries”") 
> jarque.bera.test (LogReturns) 


Jarque Bera Test 


data: LogReturns 
X-squared = 5.9288, df = 2, p-value = 0.05159 


library("car") 
par (mfrow = c(1, 2)) 
hist (LogReturns, main="Histogram of log-normal data", xlab="Values") 


qgPlot (LogReturns, main="QQ pilot for log-normal data") 
1] 62 20 


VV VVYV NV 


ME Graphics: Device 2 (ACTIVE) 


Histogram of log-normal data 


3 Ê 
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norm quantiles 
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Exemples 399.: Import de données avec les packages 


quantmod, xts et Quand 
R 3.02 


Accéder aux cours (trades) des titres est normalement tâche facile vu les nombreux packages 
dont dispose R à cet effet. Toutefois ces packages communiquent avec des API de 
plateformes quoique officielles YahooFinance, GoogleFinance, Quand, Morningstar... mais 
qui changent souvent les spécifications d'où le dysfonctionnement récurrent qui touche très 
souvent ce type de package. Donc ne soyez pas étonné si une des exemples ci-dessous marche 
avec des messages d'avertissements, marche partiellement ou ne marche pas du tout... 


Nous allons d'abord installer le package quantmod: 


re 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> install.packages ("quantmod") 

Installing package into ‘C:/VideoZ2Brain/Packages’ 

{as ‘lib’ is unspecified) 

also installing the dependencies ‘Defaults’, ‘xts’, ‘zoo’, ‘TTR’ 


essai de L'URL 'http://cran.rstudio.com/bin/windows/contrib/3.0/Defaults 1.$ 
Content type 'application/zip' length 129684 bytes (126 Kb) 

URL ouverte 

downloaded 126 K 


essai de l'URL 'http://cran.rstudio.com/bin/windows/contrib/3.0/xts 0.9-7.2$ 
Content type 'application/zip' length 661085 bytes (645 Kb) 

URL ouverte 

downloaded 645 Kb NS 


essai de L'URL 'http://cran.rstudio.com/bin/windows/contribh/3.0/z00 1.7-10.$ 
Content type 'application/zip' length 875129 bytes (854 Kb) 

URL ouverte 

downloaded 554 K 


essai de L'URL 'http://cran.rstudio.com/bin/windows/contrib/3.0/TTR 0.22-0.$ 
Content type 'application/zip' length 282557 bytes (275 Kb) 

URL ouverte 

downloaded 275 K 


et nous faisons quelques tests dans l'ordre de difficulté croissant au niveau du bagage 
mathématique nécessaire que nous avons étudié dans le cours théorique d'économie 
quantitative: 
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Récupérer des données brutes 


Rappels sur les objets XTS et ZOO 


La grande majorité des packages en finance utilisent des objets zoo, xts, ou ts. Il est peut-être 
bon avant de continuer de faire un rappel de comment construire un objet zoo ou xts à partir 
d'un data frame: 


R 
R File Edit View Misc 


Packages Windows Help D 


> library("xts") 
> (mydata<-data.frame (Date=c("1986-02-03","1986-02-04","1986-02-05","1986-02-06"), 
+ Return = c(0.1, 0.15, 0.16, 0.18))) 

Date Return 


1 1986-02-03 0.10 
2 1986-02-04 0.15 
3 1986-02-05 0.16 
4 1986-02-06 0.18 
> (mydata<-xts(x = mydatal,-1], order.by = as.Date(mydataS$Date))) 

[1] 
1986-02-03 0.10 
1986-02-04 0.15 
1986-02-05 0.16 | 
1986-02-06 0.18 
> colnames (mydata)<-c("Return") 
> mydata 

Return 
1986-02-03 0.10 
1986-02-04 0.15 
1986-02-05 0.16 
1986-02-06 0.18 
> 
> class (mydata) 
ELT "xs" “z060" 
> | 


Voilà ceci est fait! Maintenant pour d'autres notions importantes, le lecteur pourra se référer à 
la CheatSheet ci-dessous et particulièrement les zones en rouge (!): 
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Sciences.ch 


R For Data Science Cheat Sheet 


xts 


Learn R for data science interactively at www.DataCamp.com 


Repiace values ñ 
Replace dates from 1 
| _ Replace the value at 1 


eXtensible Time Series (xts) is a powerful package that 
provides an extensible time series class, enabling uniform 
handling of many R time series classes by extending zoo. 


Load the package as follows: 


> library(xts) 


xts objects have three main components: 
- coredata: always à matrix for xts objects, while it could also be a 
vector for zoo objects 
- index: vector of any Date, POSIXct, chron, yearmon, 
yearqtr, Or DateTime classes 
- xtsAttributes: arbitrary attributes 


Date()-1:10) 


1"), lengthe5, by="days") 


> mar55 


Omit NA values in x =5 


[Fil missing values in x+ 22 
last observation 
[Fil missing values in x+ =2 using 
St= #12) |next observation 
|Interpolate NAS using linear 


[approximation 


using 


L Arithmetic Operations 


Applying Functions 


Take index values by time 


Calculate the yearly mean 
lit xe=5 by year 

Create a list of yearly means 

Find the last observation in 

each year in x25 


Caleulate cumulative annual 
passengers 


Apply sd to rolling margins of xt25 


] Get value for March 1955 


<= _xt35["1955-03"] 


Subset 


> xts4 <= x 


Convert To And From xts 


z.by 


> xtS. 


| Get all data from 1954 
1954-03"] | Extract data from jan to March ‘54 
-02" | Get all data until March °54 
SL | Subset »+.s4 using 2 


> dat 
> xts 


0 first () and last () 


coredata()Or as.numeric() 
+ ] 


x Addition ] 
x 


) Multiplication 
a(xts4) Subtraction 
xts3 [_ Division 


>» € a(xts4) / 


Shifting Index Values 


> xts5 - 
P diffixts5, la 


lag(xts5) 


Period-over-period differences 
g=12,differences=1) s 


Lagged difference 


b xtsl - merge(xts2, index(xtsl),fillena.locf) | Subtraction 


xts1 + merge(xts2,index(xtsl),fll=0) Addition 


ers) 


Import From Files 


seng 


> first(xtsd,'l 
P first(last(xtsd, "1 w 


TExtract first week 
Get first 3 days of the last week of data 


week") 


ek"),13 


days") 


> xts2[i 


> xtal [index] 


1] = |Extract rows with the index of xt. 3 
|Extract rows using the vector days 
| rows using days as POSIXCt| 

y Uets1)=»6) [index of weekend days 


|Extract weekend days of x+=1 


Extract core data of objects 
Extract index of objects 


coredata(xts2) 


Periods, Periodicity & Timestamps 


> t{xtsS) <- "hY-im-èd Change format of time display 
d < 29" 


nde 


Time Zones 


— PAsia/Hong_Ko | Change thetime zone 
) Extract the current time zone 


} 
Class Attributes 


85) Estimate frequency of observations 
Convert xt =5 to yearly OHLC 
Convert »+ = 3 to monthly OHLC 


Convert to yearly OHLC 
Count the months in xt=5 
Count the quarters in xt. 
Count the years in xe.25 
2-4) | Make index unique 
RUE) | Remove duplicate times 
Round index time to the next = seconds 


> merge(xts2,xtsl,joine'left',fill=0) | Leftjoinof xts2 and xts1, 


Inner join of x+22 and xes1 


fill empty spots with 0 


Display structure of 
num 


First part of xt. 
Last part of xt 52 


DataCamp 
am Rfor Data Science 


Sans packages, non automatisé 


Figure 317 Cheatsheet XTS 


Maintenant, nous allons d'abord commencer par la finance qualitative (simpler is better.….). 
C'est-à-dire l'affichage des valeurs d'indices ou d'actifs via de simples graphiques. 


Nous utiliserons ici exclusivement le système de données de Yahoo (si vous souhaitez utiliser 
le service Bloomberg voyez du côté de http://docenti.luiss.it/fasano/bloomr/). Si vous 
cherchez à récupérer les données pour un indice ou une entreprise particulière dont vous ne 
connaissez pas le code, vous pouvez utiliser la page suivante: 


http://finance.yahoo.com/lookup 


Pour commencer, nous allons et importer des données de Yahoo à l'ancienne (sans packages!) 
et utiliser le package ggplot2 pour les plotter et utiliser la commande geom_ribbon() pour 

faire une bande de fluctuation des cours par rapport à la moyenne arithmétique (le SPY est un 
fond qui a pour but de répliquer le S&P 500): 
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> 
> 
> à 
> 
> 
> 
> 
> 
> 
> 
> 
+ 
+ 
L 
> 
> 
> 
> 
> 


V + + V UP © NH 


library(iggplotz) 

#on choisit l'indice du stock 

stock index<-"Spy" 

#on définit le début 

start _vyear<-2008;start month<-1;start day<-15 
#on définit la fin 

finish year<-2010;finish month<-12;finish day<-31 
#ffréquence de mesure 

frequency="u"  f#d, w ou m 


URL<-paste({"http://ichart.finance.yahoo.com/table.csv?s=",stock index,"ea=", 
start month-1,"€<b=",start day,"ec=",start year, 

"ed=",finish month-1,"<e=",finish day,"ef=",finish year, 

"ceg=", frequency,sep="") 


mydata <- read.csv(URL) 

mydatafDate <- as.Date(mydatafDate, "£Y-%m-%d") 
#voir à quoi cela ressemble 

mydata[1:5,] 

Date Open High Low Close Volume idj.Close 
2010-12-27 125.13 126.20 125.04 125.75 67860800 116.11 
2010-12-20 124.64 125.82 123.98 125.60 90745700 117.97 
2010-12-13 125.05 125.23 123.75 124.30 153599100 116:75 
2010-12-06 122.63 124.60 122.41 124.48 1377785500 116.30 
2010-11-29 118.50 123.03 117.74 122.89 204222500 114.82 
ggplot imydata,aes(x=Date,y={(High+Louw) /2))+ 
geom ribboniaes (ymin=Low, ymax=High) ,alpha=0.2)+ 
geom line (|) 


Attention!!!! Depuis Mai 2017, Yahoo a rendu les choses compliquées (avec des cookies 
sous formes de sessions). et le code suivant ne fonctionne plus!!!!!!! Mieux vaut passer 
par la package quantmod (dans une certaine mesure...) ou Quandl comme nous allons le 


voir plus bas! 


Ce qui donne: 
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Date 


Figure 318 Graph d'une série financier ae intervalle de fluctuation (ggplot) 
Ÿ 
ou avec un autre style visuel en utilisant le script R suivant: 


library(ggplotz2) 

#on choisit l'indice du stock 

stock _index<-"Spy" 

#on définit le début 

start _year<-2008;start month<-1;start day<-15 

#on définit la fin 

finish year<-2010;finish month<-12;finish day<-31 
#fréquence de mesure 

frequency="u"  f#d, w ou M 


URL<-paste {"http://ichart.finance.yahoo.com/table.csv?s=",stock index,"ea=", 
start month-1,"<h=",start day,"ec=", start year, 

"ed=",finish month-1,"£e=",finish day,"ef=",finish year, 
"ceg=",frequency,sep="") 


mydata <- read.csv (URL) 
mydataf$Date <- as.Date(mydatafDate, "$Y-%m-#%d") 


mydata$Date <- as.Date(mydatafDate, "$Y-%m-$%da") 
mydata<-mydata[1:100,] 

ggplot (mydata,aes(x=Date,y=(High+Low) /2))+ 
geom line (aes(y=High),linetype="dotted")+ 

geom line (aes{y=Low), linetype="dotted")+ 

geom line} 


> 
à 
” 
> 
> 
La 
r 
> 
> 
> 
> 
+ 
+ 
+ 
> 
> 
> 
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> 
+ 
+ 
+ 
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Ce qui donne: 


140 — 


{High + Low)/2 


= 100 - 


l 1 Il 1 


[l [l 
2008-01 2008-07 2009-01 2009-07 2010-01 2010-07 2011-01 


…€t puis comme la finance c'est un peu jouer au casino (pile ou face) sur les marchés financier 


un bon petit jeu est souvent ludique (et au passage une application ludique de la commande 
sapply() ): 
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R R Console SI ES 


PileOuFace<-function(i){ 

resultat<-sample(c(1,-1),1) 

} 

repete_experience<-1:10000 

x<-sapply(repete experience,PileOuFace) 

capital<-cumsum(x) 

plot(repete experience,capital,type="1",main="Evolution capital au cours des essais") 
abline (h=0) 


VVNNNN+H+V 


“ 


Evolution capital au cours des essais 


4000 6000 8000 10000 


repete_experience 


R Statistical Software 2485/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Avec package, non automatisé différé ou actuel (indices/titres/options/dividendes) 


Récupérons des données brutes de l'indice S&P 500 (abrégé GSPC, INX ou $SPX) avec la 
commande getSymbols.yahoo() du package quantmod: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


ÉBSOBEE 


> libraryiquantmod) 
> SP500Quote<-getSymbols.vyahoo("*GSPC",from="1950-01-01",verbose=F,auto.assign=F) 
> head(SP500Quote) 

GSPC.Open GSPC.High GSPC.Low GSPC.Close GS$SPC.Volume GSPC.idjusted 
1950-01-03 16.66 16.66 16.66 16.66 1260000 16.66 


1950-01-04 16.85 16.85 16.85 16.85 1890000 16.85 
1950-01-05 16.93 16.93 16.93 16.93 2550000 16.93 
1950-01-06 16.98 16.98 16.98 16.98 2010000 16.98 
1950-01-09 17.08 17.08 17.08 17.08 2520000 17.08 
1950-01-10 17.03 17.03 17.03 14:09 2160000 17:03 
> #ceci n'est pas un data frame mais un objet xts!!!l] 


C'est simple et limpide! Mais il y a de fortes chances que quantmod ne fonctionne plus un 
jour ou l'autre vu qu'il utilise Yahoo! en arrière-plan et que cette dernière entreprise n'est pas 
fan de ce genre de pratiques. 


Rappel: Pour extraire la première colonne (colonnes des dates) d'un objet XTS ou ZOO , il 
faudra utiliser la fonction index ), ainsi cela donnera dans le cas présent 
index(SPOS00Quote). 


Souvent le résultat est assez gigantesque. II est parfois intéressant d'observer la différence 
entre les quelques premières et dernières lignes. Pour rappel, cela se fait avec: 


R RGui (€ [R Co 
R File Edit View Misc Packages Windows Help = (X 


> dim(SP500Quote) 
[1] 17407 6 
> SP500Quotelc(1:3, (nrow(SPS0O0Quote)-2) :nrow(SPS00Quote)),] 
GSPC.Open GSPC.High GSEC.Low GSPC.Close GSPC.Volume GSPC.Adjusted 


1950-01-03 16.66 16.66 16.66 16.66 1260000 16.66 
1950-01-04 16.85 16.85 16.85 16.85 1890000 16.85 
1950-01-05 16.93 16-93 16.93 16.93 2550000 16:93 
2019-03-06 2790.27 2790.27 2768.69 2771.45 3786600000 2771.45 
2019-03-07 2766.53 2767.25 2739.09 2748.93 3904860000 2748.93 
+ sh 2730.79 2744.13 2722.27 2743.07 3423130000 2743.07 
> 


Notons qu'on peut obtenir la liste des stocks disponibles avec certaines métadonnées de la 
manière suivante: 
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R t e CO 
@R File Edit View Misc Packages Windows Help - # x 


1 SEC @ E | 


> stocks<-stockSymbols() 
Fetching AMEX symbols... 
Fetching NASDAQ symbols... 
Fetching NYSE symbols... 

> dim(stocks) 


[1] 6828 8 
> str(stocks) 
"data.frame': 6828 obs. of 8 variables: 
Symbol : chr "AAMC" "AAU" "ACU" "ACY" ... 
Name : chr "Altisource Asset Management Corp" "Almaden Minerals, Ltd." "Acme United Corporation." "AeroCentury Corp." ... 


LastSale : num 35.5 0.611 17 12.09 38.75 ... 
MarketCap: chr "$56.26M" "S$68.25M" "$57.27M" "$18.69M" ... 


IPOyear : int NA 2015 1988 NA NA NA 2018 2014 NA NA ... 
Sector : chr "Finance" "Basic Industries" "Capital Goods" "Technology" ... 
Industry : chr "Real Estate" "Precious Metals" "Industrial Machinery/Components" "Diversified Commercial Services" ... 


Exchange : chr "AMEX" "AMEX" "AMEX" "AMEX" ... 


A7 A An A A A Lun 


Nous pouvons obtenir l'équivalent avec la commande as.xts() du package xts associée à la 
commande get.hist.quote() du package tseries: 


mé, RGui (64-bit) - [R Cc 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> librarvyi(ixts) 

> library(tseries) 

> GSPC<-as.xts(get.hist.quote{"*GSPC",start="1970-01-02",quote=c{"Open","High","Low","Close","Volume","AidjClose"))) 
essai de l'URL 'http://chart.yahoo.com/table.csv?s="GSPCca=0€ch=02ec=1970ecd=4ce-28cf-2014ecg=-deq=qey=-0ez=*GSPCEx=. csv! 
Content type 'text/csv' length unknown 

URL ouverte 

downloaded 622 Kb 


> dim(GSPC) 
[1] 11204 
> head(GSPC) 

Open Close Volume AdjClose 
1970-01-02 92.06 ë : 93.00 6050000 93.00 
1970-01-05 93.00 ; ë 93.46 11490000 93.46 
1970-01-06 93.46 : è 92.82 11460000 92.82 
1970-01-07 92.82 . : 92.63 10010000 92.63 
1970-01-08 92.63 5 : 92.68 10670000 92.68 
LL 92.68 . ; 92.40 9360000 92.40 
> 


Si nous voulons le dernier cours du jour? d'un titre (ci-dessous le titre de Google) avec le prix 
de l'offre et de la demande nous utiliserons la commande getQuote( ) : 


42 Cette fonction ne peut en renvoyer qu'un seul et le dernier! Il n'existe pas à jour de paramètres pour en 
rappatrier d'autres. Normalement, Yahoo met à jour cette valeur chaque minute! 
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RRGU (GA bE RE 


KR Fichier Edition Voir Misc Packages Fenêtres Aide 


> libraryiquantmod) 
> Quotes<-getQuote("GOOG", what=yahooQr(c("Bid","isk","Last Trade (Price Only)"))) 
> Quotes 
Trade Time Bid sk Last 
à 2014-02-19 04:00:00 1197.5 1204.94 1202.34 
> 


et avec la commande getOptionChain() nous avons les informations concernant les options 
(dérivés) du sous-jacent choisi (du moins quand certaines des informations ne sont pas 
manquantes): 


R Fichier Edition Voir Misc Packages Fenétres Aide 


SOSCSIOIE 


> library(quantmod) 
> Quotes<-getOptionChain("GOOG", NULL) 
> str(Quotes) 
List of 8 
$ févr. 2014:List of 3 
..$ calls :'data.frame': 353 obs. of 7 variables: 
Strike: num [1:353] 545 545 550 S50 555 570 580 585 590 595 ... 
: num [1:353] 524 522 539 517 512 ... 
: num [1:353] 0 00000 
: num [1:353] NA Ni NA NA 
: num [1:353] Ni Ni NA NA 
: num [1:353] 3 18 1 18 16 
: num [1:353] 
ts :'data.frame': 
Strike: num [1:332] 600 610 625 635 640 650 675 700 710 725 ... 
: num [1:3321 0.05 0.19 0.2 0.2 0.2 0.05 0.35 0.1 0.2 0.2 ... 
: num [1:332] 
: num [1:332] 
: num [1:332] 
: num [1:332] ne 
: num [1:3521 22 1 1 2 2 102 2 206 + 6 ... 
: chr "GO0oG" 
$ mars 2014 :List of 3 
..$ calls :'data.frame': 410 obs. of 7 variables: 
..$ Strike: num [1:410] 435 440 445 450 455 460 465 470 475 480 ... 
$ Last : num [1:410] 678 675 670 642 577 ... 
..$ Chg : num [1:410] 0 O0 00000000... 
..$ Bid : num [1:410] Ni Ni Ni NA NA Ni NA NA NA NA ... 
$ 
$ 


..$ p 


AD AN A9 AN AN A9 AN 29 A9 AN 19 A9 AN 


isk : num [1:410] Ni Ni Ni Ni NA NA NA NA NA NA ... 
Vol : num [1:410] 1111212 3 1 1 ... 


si ef OI : num [1:4101 6 4 6 15 2 4 5 43 3 .…….. 
..$ puts :'data.frame!: 433 obs. of ‘7 variables: 


On peut donc extraire un sous élément facilement: 
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#R RGui (64-bit) - [R Console — (a 


R File Edit View Misc Packages Windows Help -|#1xX 


EC 


> head(Quotes[[1]]$calls,10) 
Strike Last Chg Bid Ask Vol OI 


G00G190322C00820000 820.0 367.36 48.38998 363.0 368.0 2 2 
G00G190322C00900000 900.0 296.80 0.00000 283.0 288.0 k' 17 
G00G190322C00920000 920.0 201.23 0.00000 263.0 268.0 0 19 
G00G190322C00930000 930.0 171.00 0.00000 253.0 258.0 
G00G190322C00940000 940.0 182.20 0.00000 243.0 248.0 0 19 
| G00G190322C01000000 1000.0 196.81 0.000000 183.0 188.0 20 22 
| G00G190322C01030000 1030.0 99.45 0.00000 153.0 158.0 0 5 
G00G190322C01035000 1035.0 151.14 56.04000 148.0 153.0 4, 5 
Go00G190322C01037500 1037.5 70.40 0.00000 145.5 150.5 L.. + 
G00G190322C01045000 1045.0 94.50 0.00000 138.0 143.0 A 


A 


La premier élément correspondant au "ticker" que nous décortiquerons plus bas! 
Dont la source est en réalité ici: 


http://finance.yahoo.com/q/op?s=GOO0G&ql=1 


Revenant au package quantmod, nous pouvons transformer simplement la période de fenêtre 
d'analyse avec les fonctions to.weekly( ), to.monthly( ), to.quarterly( ), to.yearly( ) et nous 
pouvons faire encore plus (se référer à la documentation du package!): 


K 
Ne) 
à 
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| R RGui (64-bit 


| File Edit View Misc Packages Windows 


[R Console 


ESS 0SIOIE 


Help 


> library("quantmod") 
> SPS00Quote<-getSymbols.yahoo("”"GSPC", from="1950-01-01",verbose=F,auto.assign=F) 
> head(SP500Quote) 
GSPC.Open GSPC.High GSPC.Low GSEC.Close GSPC.Volume GSPC.Adjusted 


1950-01-03 
1950-01-04 
1950-01-05 
1950-01-06 
1950-01-09 
1950-01-10 


16.66 
16.85 
16.93 
16.98 
17.08 
17.03 


16.66 
16.85 
16.93 
16.98 
17.08 
17.03 


16.66 
16.85 
16.93 
16.98 
17.08 
17-03 


> SPS00QuoteWeekly<-to.weekly(SP500Quote) 
> head(SP500QuoteWeekly) 
SP500Quote.Open SP500Quote.High SP500Quote.Low SP500Quote.Close SP500Quote.Volume SP500Quote.Adjusted 
16.66 

17.08 

16.72 

16.92 

17.02 

17:32 

> SPS00QuoteMontly<-to.monthly(SP500Quote) 
> head(SP500QuoteMontly) 
SP500Quote.Open SP500Quote.High SP500Quote.Low SP500Quote.Close SP500Quote.Volume SP500Quote.Adjusted 


1950-01-06 
1950-01-13 
1950-01-20 
1950-01-27 
1950-02-03 
1950-02-10 


Jan 1950 
Feb 1950 
Mar 1950 
Apr 1950 
May 1950 
Jun 1950 


16.66 
17.05 
17.24 
17.53 
18.22 
18.77 


16.98 
17.09 
16.90 
16.92 
17.29 
17.32 


17.09 
17:32 
17.56 
18.05 
18.78 
19.40 


16.66 
16.85 
16-93 
16.98 
17.08 
17.03 


16. 
16. 
16: 
16. 
A ie LA 
17. 


16.66 
16:99 
17.07 
17353 
18.11 
17.44 


> SPS00QuoteQuarterly<-to.quarterly(SP500Quote) 
> head(SP500QuoteQuarterly) 
SP500Quote.Open SP500Quote.High SP500Quote.Low SP500Quote.Close SP500Quote.Volume SP500Quote.Adjusted 


1950 Q1 
1950 o2 
1950 03 
1950 Q4 
1951 Q1 
1951 o2 


16.66 
17.53 
17.64 
19.69 
20.77 
21-32 


17.56 
19.40 
19,45 
20.43 
22.20 
22.81 


> SPS00QuoteYearly<-to.yearly(SP500Quote) 
> head(SP500QuoteYearly) 
SP500Quote.Open SP500Quote.High SP500Quote.Low SP500Quote.Close SP500Quote.Volume SP500Quote.Adjusted 
16.66 
20.77 
23.80 
26.54 
24.95 
36.75 


1950-12-29 
1951-12-31 
F952=-12-31 
1953-12-31 
1954-12-31 
1955-12-30 
>| 


20.43 
23.85 
26-59 
26.66 
35:96 
46.41 


16.66 
17.44 
16.68 
19.00 
20.69 
20.96 


16. 
20. 
23: 
FER 
24. 
34. 


1260000 
1890000 
2550000 
2010000 
2520000 
2160000 


66 
67 
72 
73 
02 
21 


66 
69 
09 
pet 
80 
58 


16 
16 
16 
16 
17 
LT 


17.0 
17:2 
17.2 
2701 
16.7 
17:6 


17.29 
17:69 
19.45 
20.43 
21.48 
20.96 


20 
23 
26 
24 
35 
45 


16.66 
16.85 
16.93 
16.98 
17.08 
17.03 


-98 
-67 
-90 
- 82 
AS 
-24 


5 
2 
J 
6 
8 
3 


sas 
IT 
97 
201 
-98 
.-48 


7710000 
13610000 
7430000 
6690000 
9390000 
7920000 


38770000 
30200000 
37450000 
42630000 
42230000 
45660000 


106420000 
130520000 
122060000 
141300000 
135110000 
104140000 


500300000 
427680000 
327040000 
354700000 
571980000 
648450000 


16.98 
16.67 
16.90 
16.82 
17:29 
17.24 


17.05 
17:22 
17.29 
17.96 
18.78 
17.69 


17.29 
17:69 
19.45 
20.43 
21.48 
20.96 


20.43 
23.77 
26.57 
24.81 
35.98 
45.48 


On peut s'amuser à appliquer les fonction Delt( ), diff( ) et log( ) vu au début du cours pour 
calculer les ratios et rendements: 
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O 


R RGui (64-bit) - [R Console] 
GR File Edit View Misc Packages Windows Help a x 


> library("quantmod") 
> SP500Quote<-getSymbols.yahoo (""GSPC", from="1950-01-01",verbose=F,auto.assign=F) 
> head(sPS00Quote, 10) 

GSPC.Open GSPC.High GSPC.Low GSPC.Close GSPC.Volume GSEC.Adjusted 


1950-01-03 16.66 16.66 16.66 16.66 1260000 16.66 
1950-01-04 16.85 16.85 16.85 16.85 18930000 16.85 
1950-01-05 16.93 16.93 16.93 16.93 2550000 16.93 
| 1950-01-06 16.98 16.98 16.98 16.98 2010000 16.98 
1950-01-09 17.08 17.08 17.08 17.08 2520000 17-08 
1950-01-10 17:03 17.03 17.03 17.03 2160000 17.03 
1950-01-11 17.09 17.09 17.09 17-09 2630000 17.09 
1950-01-12 16.76 16.76 16.76 16.76 2970000 16.76 
1950-01-13 16.67 16.67 16.67 16.67 3330000 16.67 
| 1950-01-16 16-72 16.72 16.72 16.72 1460000 16.72 


> #On calcule le Delta: (Close(t)/Close(t-1)-1) 
> head(Delt (SP500QuoteSGSPEC.Close),10) 
Delt.l.arithmetic 


1950-01-03 NA 

1950-01-04 0.011404562 | 
1950-01-05 0.004747774 | 
1950-01-06 0.002953337 | 
1950-01-09 0.005889282 | 
1950-01-10 —-0.002927342 

1950-01-11 0.003523135 | 
1950-01-12 —0.019309538 | 
1950-01-13 —-0.005369928 | 
1950-01-16 0.002999340 | 


> #On calcule les log return 
> head(diff(log(SP500QuoteS$GSPC.Close)),10) 
GSPC.Close 
1950-01-03 NA 
1950-01-04 0.011340020 
1950-01-05 0.004736539 
1950-01-06 0.002948985 
| 1950-01-09 0.005872007 
1950-01-10 -0.002931635 
1950-01-11 0.003516944 
1950-01-12 -0.019498402 
1950-01-13 -0.005384398 
bi 0.002994851 
> 


Ou on peut calculer les rendements aussi avec la fonction monthlyReturn( ) (la même 
fonction existe pour le jour, l'année et autre.…..): 
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MR RGui (64-bit) - [R Console] 


ŒR File Edit View Misc Packages Windows 


ÉOSOSIOIE) 


> head(yearlyReturn(SP500Quotel,4]),10) 
yearly.returns 


1950-12-29 0.22629052 
L951-12-31 0.16348507 
1952-12-31 0.11779554 
1953-12-31 -0.06624016 
1954-12-31 0.45022174 
1955-12-30 0.26403558 
1956-12-31 0.02616530 
1957-12-31 -0.14313255 
1958-12-31 0.38059505 
1959-12-31 0.08476725 


Sciences.ch 


> head(monthlyReturn(SP500Quotelf,4]),10) 
monthly.returns 


1950-01-31 0.023409304 
1950-02-28 0.009970675 
1950-03-31 0.004065157 
1950-04-28 0.038750605 
1950-05-31 0.045657129 
1950-06-30 —-0.058040465 
1950-07-31 0.008479310 
1950-08-31 0.032511211 
1950-09-29 0.055917535 
1950-10-31 0.004113110 


> head(dailyReturn(SP500Quotel[,4]),10) 
daily.returns 


1950-01-03 0.000000000 
1950-01-04 0.011404562 
1950-01-05 0.004747774 
1950-01-06 0.002953337 
1950-01-09 0.005889282 


1950-01-10 —-0.002927342 
1950-01-11 0.003523135 
1950-01-12 -0.019309538 
1950-01-13 -0.005369928 


1950-01-16 
> | 
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Nous pouvons aussi obtenir les dividendes avec la fonction getDividends( ) : 


ÊFE RGui (64-bit) -[ 
R Fichier Edition Voir Misc Packages Fenétres Aide 


> getDividends("KO",from="2010-01-01") #Coca-Cola 
[C1] 
2010-03-11 0.220 
2010-06-11 0.220 
2010-09-13 0.220 
2010-11-29 0.220 
2011-03-11 A.235 
2011-06-13 (235 
2011-09-13 0.235 
2011-11-29 0.235 
2012-03-13 0.255 
2012-06-13 0.255 
2012-09-12 0.255 
2012-11-28 0.255 
2013-03-13 0.280 
2013-06-12 0.280 
2013-09-12 0.260 
2013-11-27 0.280 
2014-03-12 0.305 
2014-06-12 0.305 
2014-09-11 0.305 
2014-11-26 0.305 
2015-03-12 0.330 
> qi) 
> | 


(a) 
(a) 
(a) 
(a) 
(a) 
(e) 
(a) 
(e) 
(e) 
(e) 
(e) 
(e) 
(e) 
(a) 
(e) 


Pour extraire un ensemble d'indices, nous pouvons utiliser une simple boucle for: 
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R AGui (64-bit) - [R Console] — O 
ŒR File Edit View Misc Packages Windows Help 5x 
SIA) Bale) @l ls) 
ñ 
> library("quantmod") 
> #To get the daily prices of the stocks 
> date _ debut <- "2017-11-29" 
> tickers <- 
+ c("SBUX","C","AAPL", "AMZN", "CAT", "DAL", "MCD", "GS", "K","VZ", "DEP", "CVX") 
> Stock _ Prices = NULL 
> for(ticker in tickers)!{ 
+ Stock Prices <- cbind(Stock Prices, getSymbols(ticker, src = 
+ "yahoo", from=date debut,verbose=F,auto.assign=F)[,6])} 
> colnames (Stock Prices) <- tickers 
> dim(Stock_ Prices) 


[LT 319 12 
> Stock Prices 

SBUX c AAPL AMZN CAT DAL MCD GS K VZz PEP CVX 
2017-11-29 55.91519 72.90105 166.2601 1161.27 134.1766 50.47413 164.1900 237.1229 63.47424 47.14743 111.40262 111.70416 
2017-11-30 56.21659 73.34795 168.5851 1176.75 137.1797 51.26854 166.6613 243.2927 63.378644 48.08281 111.86826 113.42957 
2017-12-01 55.73047 73.35766 167.8003 1162.35 137.5393 50.43538 167.5336 244.5797 63.21560 48.42296 112.11788 113.92528 
2017-12-04 57.13053 74.90234 166.5741 1133.95 137.5199 51.25886 165.3821 246.2498 64.70042 48.86704 112.77073 115.19312 
2017-12-05 57.69444 74.35829 166.4171 1141.57 136.1981 50.75508 167.6498 243.9706 65.11235 48.11116 112.89555 114.76416 
2017-12-06 57.63611 73.28965 165.7991 1152.35 136.3925 50.66789 168.1247 241.6323 65.26562 47.88440 114.15325 114.02060 
2017-12-07 57.49999 72.84277 166.1032 1159.79 138.8707 51.74325 167.5723 244.1965 64.44178 47.636874 112.06988 114.03966 
2017-12-08 56.98468 73.55195 166.1522 1162.00 139.8135 51.79169 167.8049 245.9551 63.73288 48.27179 111.91626 114.31612 
2017-12-11 57.43193 73.68797 169.3895 1168.92 139.7260 52.67329 167.9018 245.7390 63.75205 48.98042 112.70354 114.79275 
2017-12-12 57.62638 73.97942 168.4380 1165.08 139.3858 51.94669 166.9133 253.1564 63.17726 50.25595 112.71313 114.08734 
2017-12-13 57.84028 72.99820 168.9971 1164.13 144.3910 51.95638 168.1925 251.0736 63.06232 49.97249 113.09716 114.32565 
2017-12-14 58.04446 71.81297 168.9481 1174.26 142.1654 53.52583 167.7952 250.9950 62.31512 49.45284 113.30838 113.94434 
2017-12-15 56.67357 72.63875 170.6648 1179.14 142.5639 54.34930 168.6868 252.6554 62.25763 49.76463 114.46047 114.13501 
2017-12-18 56.42077 73.51310 173.0683 1190.58 145.5573 54.32024 168.8225 255.4553 62.88031 50.31264 113.33718 114.10639 
2017-12-19 56.40132 72.57074 171.2240 1187.38 146.6652 54.01023 168.0375 251.9775 62.71745 49.91581 113.87483 114.23985 
2017-12-20 56.12909 72.53189 171.0376 1177.62 148.2299 54.46556 166.8551 250.7003 64.05859 49.85911 114.26846 115.24079 
2017-12-21 55.98325 73.65882 171.6851 1174.76 150.2903 54.28148 166.5450 256.4279 64.80580 50.08587 113.53880 118.98714 
2017-12-22 55.71101 73.33823 171.6851 1168.36 151.3690 54.28148 166.1283 254.4238 65.23689 50.255985 113.86522 119.13966 
2017-12-26 55.55545S 72.64846 167.3295 1176.76 152.0396 54.66900 166.0023 253.1957 65.28478 50.28429 114.14365 120.09294 
2017-12-27 55.68185 72.75533 167.3589 1182.26 153.0892 54.36868 167.3397 251.4568 65.41889 50.34098 114.53728 119.68304 
2017-12-28 56.20687 72.93991 167.8298 1186.10 153.9639 54.59150 167.7564 251.9971 65.16981 50.48271 114.58528 119.71162 
2017-12-29 55.83741 72.28902 166.0149 1169.47 153.1476 54.25243 166.8067 250.2877 65.12193 50.01029 115.13252 119.33986 
2018-01-02 56.03186 72.24043 168.9873 1189.01 152.6227 54.96933 167.8727 251.1817 65.11235 50.57719 113.34679 121.61818 
2018-01-03 57.08191 72.46388 168.9579 1204.20 152.8560 53.95209 167.1653 248.8435 64.80580 49.53787 113.04916 122.50471 
2018-01-04 57.29581 73.35766 169.7427 1209.59 154.9552 53.95209 168.3379 252.3213 65.84039 49.69849 113.60599 122.12341 
2018-01-05 57.95696 73.26052 171.6753 1229.14 157.4044 54.22336 168.6771 251.0343 66.04156 49.58511 113.93243 121.92322 
2018-01-08 57.66527 72.40559 171.0376 1246.87 161.3599 52.97362 168.5608 247.3895 66.26189 49.50008 113.27957 122.52377 
2018-01-09 57.53888 73.16336 171.0180 1252.70 161.7486 52.47953 168.1828 249.4821 65.88829 49.31851 113.36599 121.86601 
2018-01-10 58.16114 73.49367 170.9788 1254.33 161.2044 54.11680 168.1538 249.8652 64.20229 49.39496 112.78994 122.64770 
2018-01-11 58.33614 73.40623 171.9500 1276.68 164.4407 56.69378 168.0375 250.6512 63.20602 49.79631 112.21389 126.37498 
2018-01-12 58.72505 74.64975 173.7256 1305.20 165.5097 57.96290 168.2119 252.5178 61.97025 49.55741 112.69392 127.35685 
2018-01-16 58.88061 74.91206 172.8427 1304.86 164.5476 57.49788 168.3185 253.9227 63.16770 49.36629 113.15476 125.84116 


S 


ÿ à 5 Ÿ 
Nous pouvons vectoriser aussi la procédure: * 


R RGui (64-bit) - [R Console] _ X 


ŒR File Edit View Misc Packages Windows Help EX 


ES 


> library("quantmod") 

> tickers <- c("GOOG","CVX","SPY","PG","JEM","MSFT","AAPL") 
> getSymbols(tickers) 

pausing 1 second between requests for more than 5 symbols 
pausing 1 second between requests for more than 5 symbols 
pausing 1 second between requests for more than 5 symbols 
[11 "GOO0G" "CVX" "SEY”" "EG" "JPM"  "MSFT" "AAPL" 

> fun <- function(i) { 


+ return(Cl(get(tickers [i]))) 
FE} 
> mydata <- do.call(merge, lapply(l:length(tickers), fun)) 
> head(mydata) 

GOO0G.Close CVX.Close SPY.Close PG.Close JPM.Close MSFT.Close AAPL.Close 
2007-01-03 232.2842 70.97 141-237 64.54 48.07 29.86 11.97143 
2007-01-04 240.0686 70.28 141.67 64.05 48.19 29.81 12.23714 
2007-01-05 242.0209 70.55 140.54 63.50 47.79 29.64 12.15000 
2007-01-08 240.2276 71.45 141.19 63.64 47.95 29.93 12.21000 
2007-01-09 241.1814 70.63 141.07 63.48 47-75 29.96 13.22429 
2007-01-10 243.1486 69.41 141.54 64.24 48.10 29.66 13.85714 
> 
< > 


Et bien évidemment, rien ne nous empêche de faire un graphique: 
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à R Console | (==) | E | x 


R 
> zoo.mydata <- as.zoo (mydata) 
> plot (zoo.mydata) 

> | 


QR KR Graphics: Device 2 (ACTIVE [Ss|a|x| 
zoo.mydata 
a 
s _ 
8 à ® 
+ 2 8 
< O 
O 2 Ds 
© © = 7 
O D 8 
O 8 Fi 
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Le Oo 
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Lu] 
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> a 
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Index 


Ou une matrice de corrélation: 
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>» 


3 
@RR Console o || x 


> library("corrplot") 
> corrplot (cor (mydata),method="ellipse") 


> | 


Œ 
F 


R R Graphics: Device 2 (ACTIVE) 


GOOG.Close 
VX Close 
PY Close 

PG.Close 


[e) 


G006 Close PA À / ’ 
9/0 
Spy Close VA À r S 
SO. 
ALL, 
MSET Ciose / LÀ 4 # 


CII 


Signalons que nous pouvons aussi obtenir les cours du FOREX par rapport à une monnaie 
donnée à l'aide du package quantmod comme ci-dessous: 


Î 


NN ANS 


\ NANS\--- 
NNANA 
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R RGui (64-bit) - [R Console] - O 
R File Edit View Misc Packages Windows Help - x 


SFGEEC SE | 


> library("quantmod") 
> #fMarche seulement pour les 180 derniers jours! 
> last (getSymbols ("GBP/USD",src="oanda", from="2019-01-10",to="2019-03-14",verbose=FALSE, auto.assign=FALSE), 10) 


GBP.USD 
2019-03-03 1.320812 
2019-03-04 1.320898 
2029-03-05 1:315972 
2019-03-06 1.315070 
2019-03-07 1.313595 
2019-03-08 1.305868 
2019-03-09 1.301565 
2019-03-10 1.301193 
2019-03-11 1.305700 
12019-03-12 1.314172 
>| 
< > 


Ou avec le package Quand dans une version un peu plus complexe..: 


ee 


mRRC [el IX) 
> library("Quandl") 
> library("xts") 
> currencies <- c( "USD", "CHF", "GBP", "JPY", "RUB", "CAD", "AUD") 
> currencies <- paste("CURRFX/EUR", currencies, sep = "") 
> currency ts <- lapply(as.list(currencies), Quandl, start date="2005-01-01" 
+ ,end date="2013-06-07", type="xts") 
> +on prend que les USD, GBP, CAD et AUD 
> Q <- cbind( 
+ currency ts{[[1]]$Rate,currency ts{[[3]]$Rate,currency ts[[6]]$Rate,currency ts[[7]]$Rate) 
» 
> matplot(Q, type = "ll", xlab = "", ylab = "", main = "USD, GBP, CAD, AUD",xaxt = 'n') 
> ticks = axTicksByTime(currency ts[[1]]) 
> axis(1, at = ticks, labels = names(ticks)}) 
> legend("topright", legend = c("USD/EUR", "GBP/EUR", "CAD/EUR", "AUD/EUR"), 
+ col = 1:4, pch = 19) 
> | 
Fr 
GR R Graphics: Device 2 (ACTIVE) ER ES 
USD, GBP, CAD, AUD 
USD/EUR 
GBP/EUR 
— CAD/EUR 
a AUD/EUR 
Souue, 
w A 
— ré 
ep pe Ts 
o é 
<— Hi à 
HU LRU ee LS Fe er term pan, , Mini 
Lt ss M de : ne ae gran 
Le 
o 


Jan 02 2005 Jan 01 2007 Jan 01 2009 Jan 02 2011 Jan 01 2013 
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Avec package, automatisé en temps réel actualisé (indices/titres/options) 


Voici un script qui tourne (tant qu'il n'y a pas d'erreurs) indéfiniment à stocker dans un fichier 
* {xt du même nom que l'action, le prix de la demande d'une action à l'aide à nouveau du 
package quantmod et de la fonction getQuote( ) que nous avons déjà vus plus haut. 


Empiriquement j'ai mis un timer de "1 minute" soit "60 secondes" qui affiche régulièrement 
l'avancement dans la fenêtre de commande: 


KR Fichier Edition Packages Fenétres Aide 


library (quantmodi) 


tck = "YHOO" 
filename = pastelitck, ".txt", sep="") 


while (TRUE) { 
temp <- getQuotei(tck]) 
temp <- pasteltemp([1]], temp[[2]], "in", sep = ","] 


cat (file = filename, temp, append = TRUE) 
print (temp{[[1]]}) 
Sys.sleep(60) 

} 


mydata <- read.table(filename, stringsiäsFactors = FALSE, sep=","] 
mydata <- xtsimydata [,2], as.POSIXct (mydata [,1])); 
names (mydata ] <- teck 
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Ce qui donne en quelques minutes: 


K Fichier” Edition Voir Misc Packages Fenétres Aide 


tex = "YHOO" 


filename = paste(tck, ".txt", sep="") 
while (TRUE) { 


temp <- getQuote (teck) 


PER H NN NN NN 


La 


[1] 
[1] 
[1] 
[1] 
[1] 
[1] 
[1] 
[1] 
[1] 
[1] 


temp <- paste(temp{[1ifN, 


cat (file 


temp[[2]], "in", 
temp, append = TRUE) 


see 1 
filename, 


print (temp{[[1]]) 
5ys.sleep(60) 


"2014-11-13 
FeBia- lits 
"2014-11-13 
"2014-11-13 
"2014-11-13 
"2014-11-13 
#2014-11-13 
F2014-11-13 
"2014-11-13 
"2014-11-13 


03:50:00,50.565,\n" 
03:51:00,50.55,\n" 
03:52:00,50.54,\n" 
03:59:00,50:55;\n" 
03:54:00,50.48,\n" 
03:55:00,50.4999,\n" 
03:56:00;50.5,\x" 
03:57:00,50.49,\n" 
03:58:00,50.475,\n" 
03:59:00,50.49,\n" 


"2014-11-13 
"2014-11-13 
"2012-11-13 
"2014-11-15 


[1] 
[1] 
[1] 
[1] 


04:00:00,50.5,\n" 
04:00:00,50.5,ïn" 
04:00:00,50.5,\n" 
04:00:00,50.5,\n" 


> 

> mydata <- read.table(filename, stringsAisFactors = FALSE, 
> mydata <- xts(mydata [,2], as.POSIXcet (mydata [,1]));: 

> names (mydata ) <- teck 


sep=",") 
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Soit: 


R Fichier Edition Voir Misc Packages Fenétres Aide 


> mydata 


2014-11-13 
2014-11-13 
2014-11-13 
2014-11-13 
2014-11-13 
2014-11-13 
2014-11-13 
2014-11-13 
2014-11-13 
2014-11-13 
2014-11-13 
2014-11-13 
2014-11-13 
2014-11-13 
> | 


et le fichier texte correspondant: 


Fichier Edition Format Affichage 


2014-11-13 03:50:00, 50.565, 
2014-11-13 03:51:00,50.55, 
2014-11-13 03:52:00,50.54, 
2014-11-13 03:53:00,50.55, 
2014-11-13 03:54:00,50.48, 
2014-11-13 03:55:00,50.4999, 
2014-11-13 03:56:00,50.5, 
2014-11-13 03:57:00,50.49, 
2014-11-13 03:58:00,50.475, 
2014-11-13 03:59:00,50.49, 
2014-11-13 04:00:00,50.5, 
2014-11-13 04:00:00,50.5, 
2014-11-13 04:00:00,50.5, 
2014-11-13 04:00:00,50.5, 


4 
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Avec package, non automatisé différé ou actuel (matières premières) 


Le suivi du cours des matières premières est évidemment tout aussi important que les 
indices/titres ou options. 


Nous utilisons pour cela la commande getMetals( ) : 


R File Edit View Misc Packages Windows Help ||") x 


> getMetals(c("XAU","XAG"),from=Sys.Date()-180) #XAU=Or, XAG-=Argent 
[1] "XAU/USD" "XAG/USD" 
|> attention gratuitement on peut importer seulement les derniers 180 jours! 
> head (XAUUSD) 
XAU .USD 
2019-05-14 1297.771 
2019-05-15 1296.880 
2019-05-16 1291.876 
2019-05-17 1282.310 
2019-05-18 1277.532 
2019-05-19 1277.578 
> head (XAGUSD) 
| XAG.USD 
[2019-05-14 14.79143 
2019-05-15 14.80411 
2019-05-16 14.69473 
2019-05-17 14.46861 
2019-05-18 14.40422 
+ été 14.406877 
> 


Et sous forme graphique: 
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> chartSeries (XAUUSD,theme="white") 


[2013-12-14/2014-12-14] 


Last 1222.79 


déc. 14 2013 avr. 012014  juil.012014 oct. 01 2014 


et: 
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> chartSeries (XAGUSD, theme="white") 


Last 17.0%42 


déc. 14 2013 avr. 012014 juil. 012014 oct. 01 2014 
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Volatilité Historique 
Nous avons mentionné dans le cours théorique qu'il existe 6 types de volatilité historique 
(nous avons démontré mathématiquement l'origine uniquement de la première) qui sont pour 


rappel: 


e Volatilité historique Cloture-Cloture: 


2 


N TR ET C; \’ 
enr pes (ue à) -@le2-0(ls 5) | 


CD 


_ D» log - x log 7 + log = x log a 


. — - » (ie — ; + à (log 34 — (2 x log2 — 1) (log à) 


e Volatilité historique de Yang de Zhang: 
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Sciences.ch 


o° = 03 + ko? + (1 — ko, 


2 
me) 


0, 
Ho = + log — 


& 2 
N Ci 
%— T1 (log ©, En be) 


1 7 0. 
Co = —— (log C. 


C 
le — + >_ log ©, 
D 1 H; H; L; L; 
o2, = F5 (log X log à + log &- x log + ) 


— 1 
= 
n+1 


RÉ — 
e 


Voyons d'abord comment obtenir la volatilité historique cloture-cloture avec la fonction 
volatility() du package TTR chargé automatique par quantmod: 


Lo 
S 
NI 
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= 


re 
f 


R SEE 


> library("quantmod") 
> SP500Quote<-getSymbols.yahoo('"GseC',f£from='1950-01-01',verbose-=F,auto.assign-F) 
> head(SP500Quote) 

GSPC.Open GSPC.High GSPC.Low GSPC.Close GSPC.Volume GSPC.Adjusted 


1950-01-03 16.66 16.66 16.66 16.66 1260000 16.66 
1950-01-04 16.8 16.85 16.85 16.85 1890000 16.85 
1950-01-05 16.93 16.93 16.93 16.93 2550000 16.93 
1950-01-06 16.98 16.98 16.98 16.98 2010000 16.98 
1950-01-09 17.08 17.08 17.08 17.08 2520000 17.08 
1950-01-10 17.03 17.03 17.03 17-03 2160000 27:03 


> vol<-volatility(SP500Quote,n=25,N=252,calc="close") 
> head(vol) 

[1] 

1950-01-03 NA 

1950-01-04 NA 

1950-01-05 NA 

1950-01-06 NA 

1950-01-09 NA 

1950-01-10 NA 

> chartSeries (vol) 


Et la fonction volatility( ) peut respectivement prendre comme paramètres calc, les valeurs 
suivantes: close, garman.klass, parkinson, rogers.satchell, gk.yz, yang.zhang. 
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Vérifier la Normalité des retours/rendements (return) 


D'abord observons la normalité sur une longue période de l'indice S&P 500: 


R R Console ==. EE 
> library(quantmod) k 
> SP5S00Quote<-getSymbols.yahoo("*GSPC",from="1950-01-01",verbose=F,auto.assign=F) 
> x<-SP500Quote$GSPC.Close 
> headi(x) 

GSPC.Close 
1950-01-03 16.66 
1950-01-04 16.85 
1950-01-05 16.93 
1950-01-06 16.98 
1950-01-09 17.08 
1950-01-10 17.03 
> x<-diffilogi{ix)) 
> headi(x) 

GSPC.Close 

1950-01-03 Ni 
1950-01-04 0.011340020 
1950-01-05 0.004736539 
1950-01-06 0.002948985 
1950-01-09 0.005872007 


1950-01-10 -0.002931694 

> qaqnormix[-1,],main="Normality of returns on 64 years",ylim=c(-0.05,0.05)) 
> qaqline(x,col="red") 

> 


Petit pic de rappel du cours de finance quantitatie au passage: 
QŸ 


1og| 2 |= log (p,)-log(p, ;)=diff (log, 


t-1 


Pas convaincant comme le montre le résultat graphique ci-dessous: 
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Normality of returns on 64 years 


un 
æ 
= 
= 
Lu 
= 
G 
© 
[en 
E 
La 
(9 


( 


Theoretical Quantiles 


Mais sur une plus courte période (en-dessous d'un certain nombre d'années il y a un 
décrochage et c'est assez drôle à voir), nous avons: 

L 

Ÿ 


> library(quantmod) 
> SP500Quote<-getSymbols.yahoo("*GSPC",from="2012-01-01",verbose=F,auto.assign=F) 
> x<-SP500Quote$GSPC.Close 
> headi{x) 

GSPC.Close 
2012-01-03 1277.06 
2012-01-04 1277.30 
2012-01-05 1281.06 
2012-01-06 1277.81 
2012-01-09 1250.70 
2012-01-10 1292.08 
> x<-diff(log(x)) 


> headi(x) 


GSPC.Close 
2012-01-03 NA 
2012-01-04 -000187914 
2012-01-05 .-002939385 
2012-01-06 -002540185 
2012-01-09 -002259128 
2012-01-10 .-008646519 
> qagnorm(x[-1,],main="Normality of returns on 2 years",ylim=c(-0.05,0.05)j) 
> bless: 
> 


Ce qui donne: 
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Normality of returns on 2 years 


Le) 
C 
= 

= 

G 
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G 
a 
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library(quantmod) 
SP500Quote<-getSymbols.yahoo("*GSPC",from="1950-01-01",verbose=F,auto.assign=F) 
x<-SP500Quote$GSPC.Close 

x<-diffilogix)) 

plot (density(x{[-1,]),main="Returns density vs Normal density",xlim=c(-0.1,0.1)) 
m<-mean(x[-1,]1);:s<-sd(ix[-1,]) 

curve (dnormix,m,s) ,col="red",add=T) 


VNNVN TX 


Ce qui donne: 
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Returns density vs Normal density 


-0.05 0.00 0.05 


N=16142 Bandwidth = 0.0008802 


Ce qui est intéressant c'est de plotter sur une échelle logarithmique: 
RC 


library(quantmod) 
SP500Quote<-getSymbols.yahoo("*GSPC",from="1950-01-01",verbose=F,auto.assign=F) 
x<-SP500Quote$GSPC.Close 

x<-diffilogix)) 

plot (density(x[-1,]),main="Returns density vs Normal density",log="v") 


Message d'avis : 
In xy.coords(x, y, xlabel, ylabel, log) 
40 y values <= 0 omitted from logarithmic plot 
> m<-mean(x[-1,]):s<-sdix[-1,]) 
> Sd S 
> 


« 


Comme quoi le résultat est intéressant: 
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-0.20 -015 -010 -005 000 0.05 


N= 16142 Bandwidth = 0.0008802 
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Heatmap des return mensuels 


Ici nous allons utiliser un code R qui montre l'importance d'avoir acquis toutes les notions 
vues jusqu'à maintenant. Ce code (qui pourrait être amélioré pour devenir une fonction R) 
étant trop long pour en faire une capture d'écran nous allons directement le mettre en tant que 
texte brut ci-dessous. 


Si jamais voici un aperçu du fichier *.csv utilisé qui provient directement de Yahoo (s'inspirer 
des exemples vus plus hauts pour importer des données de Yahoo!): 


Fichier 


Edition Format Affichage 2 


l'ODate"; "Open''; "High"; "Low"; "Close": "volume"; "Aadji.Close" 


"44";2010-10-29;118. 
"45";2010-10-28;119. 
"46";2010-10-27;117. 
"47";2010-10-26;118. 
‘"48";2010-10-25;119. 
‘49";2010-10-22;118. 
4:119.09:117,21:118.13;:221565500; 110.37 
‘51";2010-10-20; 116. 
‘52";2010-10-19;117. 
53";2010-10-18;117. 
"54";2010-10-15;118. 
‘"55";2010-10-14; 117. 
"56";2010-10-13;117. 
"57";:2010-10-12;116. 
‘58";2010-10-11;116. 
59";2010-10-08 ; 116. 
‘"60";2010-10-07;116. 
‘"61";2010-10-06; 116. 
"62";2010-10-05;114. 
"63";2010-10-04 ; 114. 
"64" ;2010-10-01;114. 
"65 ";,2010-09-30;115. 
"66" ;2010-09-29;114. 
AS LE: 
"68";2010-09-27;114. 
"69";2010-09-24 ; 113. 
“49; 113. 
"71";2010-09-22;113. 
‘72";2010-09-21;114. 
73";2010-09-20; 112. 
74";2010-09-17;113. 
75";2010-09-16; 112. 
"76"";2010-09-15;112. 
"77"3,2010-09-14 ;112. 


"50";2010-10-21; 118 


"67'";2010-09-28; 114 


"70" ;2010-09-23; 112 


« 


28;118./2;118.07;118.49;144305500;110.71 
06;:119.11;:117.83;:118.4;:1685/6000;110.62 
89;118.51;:117.26;118.38;190024000;110.61 
1:118.84;117.87;118./72;158982900; 110.92 
14:119./6;118.61;:118.7;151145/00;110.9 
31:118.53;118;:118.35;108212400;110.58 


94;:118.44;116. 
1511703; 116. 
14:118.,67, 117: 
20 ;118:33;116. 
B1;116.01; 116: 
66;116.53; 117. 
sr, Er. 14 LES: 


Gr LIT. 
02;116. 
ALES: 
SES LET. 
1e, LL. 
JB LL. 
65;117. 


8/;200051800;110.13 
73;280604 700; 109.06 
28:141204800;110.51 
7;,243705000;109.97 
46;217/64300; 109.75 
92:194347200; 110.18 
01;182210000; 109. 33 
1#:116:97;,116.25;:116:65,103098300; 106; 99 
05;:116.86;115.61;:116.54;:177760100;108.89 
3. 116. 31; 115. 18 115. 89; 164860000: 108.28 

02; LEE: 33: urs 56: 116. 03; 148626600 : 108.41 
8:116.32:114.67:116.04:229634100: 108.42 

JF114:63: 113.185 113.75/186E53200; 106.26 
99;115.12;113.93;114.61;174638700; 107.08 
05;115.7/9;113.59;114.13;28/106700;106.63 
38:114.91;114.02;114.47;179665800; 106.95 
04 :113.18;114.67;209207500;107.14 
99;:114.16;:114.27;:128/61800;106.77 
9:113.65;:114.82;209671800; 107.28 

67; LI 18; 112.5;:202354300;105.11 
8; 114. 44 ; 113. 1° 113. 42; 191322400: 105.97 

3,114.84;: 113. 51: 11% 98: 2682389100: 106.49 
88:114.46:112.52;114.21:214555200:106.71 
04;:113.15;112.18;:112.49;195836900;105.1 
73;113.12;112.35;113.05;199962900; 105.06 
32,113.21;111.98;113.08;168608400; 105.09 
5:113.29,112.08;117.63,209824600; 104.69 


86;114. 
ras LI. 
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RÉ ÉSÉSRÉSÉÉÉÉSÉSÉSÉSSÉSÉÉÉÉSÉSÉSÉSSÉSÉÉÉÉ SEE 
Édouard Tallent @ TaGoMa.Tech, November 2013 # 
QuantCorner @ http://quantcorner.wordpress.com # 
Source: http://quantcorner.wordpress.com/page/2/# 
RÉ ÉSÉS RÉ ÉÉ RÉ ÉSÉSÉS SSSR ÉÉÉSSÉSÉSÉSSÉÉÉÉÉÉÉÉ El 
library (lubridate);library(xts);library(quantmod) 
library (reshape2) ; library (ggplot2) 
Create a data object from the file object that actually is an object for the file 
containing the data 
data<-read.table("C:/YahooSPY.csv'",sep=";",header=TRUE,na.strings="NA") # Create 
the data object from file 

Analysis working constants (dates are already supposed to be in ISO format in the 
first column) 

StartYear<-year (data[dim(data)[1],1]);StartMonth<-month(datal[dim(data)[1],1]) 
FinishYear<-year(dataf1,1]);FinishMonth<-month(dataf1,1]) 

Remove rows containing NAs 

row.has.NA <- apply(data, 1, function(x){any(is.na(x))}) 

data <- dataf!row.has.NA,] 

Create a xts object from the data object ( 

ColumnValue<-5 #this is the colum of interest to be compute for the monthly return 
data<-as.xts(data[,ColumnValue], order.by=as.Date(datal,1],format="#%Y-%m-%d")) 
Compute the monthly log return 
ret<-monthlyReturn(data,type="log",leading=TRUE)# Create a matrix mat object from 
ret 
he original time series could not starts on a Jan month nor ends on Dec 
(necessary for our 12 witdth rectangle dashboard) 
ret<-c(rep(NA,StartMonth-1),ret,rep(NA,12-FinishMonth)) # The original time series 
nor starts on a Jan month nor ends on Dec 

mat<-matrix(ret*100, ncol=12, byrow=TRUE, dimnames=NULL) # Create a R matrix 
year<-seq(from=StartYear, to=FinishYear, by=1) # Vector containing the years 
month<-c ( "Jan", "Feb", "Mar", "Apr", "May", "Jun", MJuL", "Aug", "Sep", NOCE"; "Nov", "Dec") # 
Vector containing the year months 

colnames (mat)<-month # Give columns names 

rownames (mat)<-year # Give rows names 

# Transform the data in mat into a long seriËs using the melt() function 

molten <- melt(mat) #Transform the series %Ÿnto a long series 

# Define the color palette to be used in the hetmap 


LtoM <-colorRampPalette(c("red","yellow")) #The spectrum of colors for the lowest 
returns 

id <- "snow3" # Snow3 is the color for the (approximatedly) median value 

toH <-colorRampPalette(c("lightgreen","darkgreen")) # The spectrum of colors for 


the highest values 

Plot the heatmap 

hm<-ggplot (data=molten, aes(x=factor(Var2, levels=-month.abb), 

y=Varl, fill=value)) + geom raster() # Draw the heatmap using geom raster() 
hm<-hmtscale fill gradient2(low=LtoM(100), mid=Mid, high=MtoH(100)) # Colors, 
please! 


hm<-hm+labs (fill='Return ($)') # The legend 

hm<-hm+geom text (aes (label=paste(sprintf("$.1f %%", value))), size=4) # Write the 
monthly returns in the heatmap 

hm<-hm+scale y continuous (breaks=StartYear:FinishYear) # Deal with the y-axis 


hm<-hm+xlab(label=NULL) + ylab(label=NULL) # No axis names 

hm<-hm+ttheme bw() # No background grey grid 

hm<-hmttheme (axis.text.x=element text(size=10, hjust=0, vjust=0.4,angle=90)) # 
Beautify the x-axis 

hm<-hm+ggtitle(label="Monthly return Dashboard") # Add a title 

hm 


Ce qui donne (voir page suivante): 
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Ces) 


Monthly return Dashboard 


Jan - 
Feb - 
Mar - 
Apr - 
May - 
Jun - 
Jul = 
Aug - 
Sep - 
Oct - 


Nov - 
Dec - 


Return (%) 
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Diagrammes à barres et chandelles (OHLC) 


Toujours avec le package quantmod, nous avons avec les commandes getSymbols() et 
barChart( ) : 


R & Console ES KE 


> library(quantmod) 

> getSymbols("KO", from="2010-01-01", to="2011-12-24") #Coca-Cola 
[1]. "EC" 

> héibioss 
> 


FR R Graphics: Device 2 (ACTIVE) (0 ES 
[2010-01-04/2011-12-23] 


Nous ne voyons pas bien les prix OHLC (Open High Low Close). En restreignant la plage de 
dates c'est mieux: 
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LE 


GR Console SsIBmIX) 

> getSymbols("KO",from="2010-01-01", to="2010-01-31") 

[1] "KO" 

> barChart (KO,bar.type="ohlc",theme="white") 

> 

MR R Graphics: Device 2 (ACTIVE) S.||. El |L x 
KO [2010-01-04/2010-01-29] 


Last 27.125 


a! 


Î Ï 28.0 


27.5 


27.0 


Volume (millio 
25 22,146.800 


20 
15 


Jan 042010 Jan08 2010 Jan 142010 Jan212010 Jan 27 2010 


Figure 320 Graph à chandelles et volumétrie (finance) 


S1 on veut enlever la partie concernant les volumes 1l suffit d'utiliser le paramètre TA: 
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R R Console = | © | X 


> barChart (KO,bar.type='ohlc',TA=NULL) 


Æ 


FR Graphics: Device 2 (ACTIVE) Le-|(.0./(.55) 
[2010-01-04/2010-01-20] 


:. 


ou avec l'indice S&P 500: 
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R & Console sg|X|] 


> library(quantmod) 

> "getSymbols.warning4.0"=FALSE 

> getSymbols(i"*GSPC",srce="vahoo") #S€P 500 
[1] "GSPC" 

> barChart (GSPC) 


ER R Graphics: Device 2 (ACTIVE) 


[2007-01-03/2014-02-14] 


Dans un autre style visuel avec la commande candleChart( ) : 
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| R R Console EMI 


> getSymbols ("AAPL",src="yahoo") 

[1] ‘"A2PL" 

> candleChart (AAPL,multi.col=TRUE,theme="white") 
> 


AAPL 
Last 540.67 


janv. 03 2007 juil. 012009 janv. 03 2012 


ou Encore: 
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KR R Console ol NE 


> getSymbols ("XPT/USD",src="oanda") 
[1] "XPTUSD”" 
> chartSeries (XPTUSD,name="Platinum (.02) in $USD") 


> | 


R R Graphics: Device 2 (ACTIVE) -=-|-5-(5 


[2012-09-06/2014-01-18] 


ou Encore: 
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Fm » - 
I KR Console (==) (s) Da 


+ getSymbols ("XPT/USD",src="oanda") 

[1] "XPTUSD" 

> chartSeries(to.weekly(XPTUSD) ,up.col="white" ,dn.col="blue") 
| 


ra R Graphics: Device 2 (ACTIVE) 
[2012-09-09/2014-01-18] 


Last 1439.98 


ou encore en ajoutant des indicateurs empiriques à l'aide des commandes MACD() et 
addBBand ) : 
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R & Console Sslg|x. 


… 


> require {TTR) 

> getSymbols("AiPL'") 
[1] "AdPL'" 

> chartSeries(iiPL) 
> adaMiCD{) 

> addBBands () 

> 


FR R Graphics: Device 2 (ACTIVE) 


[2007 0103/2014 01-17] 


Figure 321 Graph de série temporelle avec bandes de Bollinger, volumétrie et moyenne mobile (finance) 


avec un subset c'est mieux: 
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R R Console EEE 


> require (TTR) 

> getSymbols("AAPL'") 

[1] "AdPL'" 

> chartSeries (AAPL,subset="2007-12::2008-1") 
> addMiCD() 

> addBBands () 
> 


FR R Graphics: Device 2 (ACTIVE) 


31] 


Figure 322 Graph à chandelles avec bandes de Bollinger, volumétrie et moyenne mobile (finance) 


ou encore en ajoutant le volume avec la commande addVo() ou l'index de commodité avec 
la commande addCCX ) : 
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R R Console se |x| 


> require (TTR) 

> getSymbols("AAPL'") 

[1] "AaPpL" 

> chartSeries (AAPL,theme="white" ,subset="2007-12::2008-1") 
addVoi) #ajouter le volume 

addBBandsi) #ajouter les bandes de Bollinger 

addCCIi) #ajouter l'index de commodité 


VMVVV 


Volume (millions): 
45,059.800 


Volume (millions): 
48,059,800 


déc. 03 2007 déc. 17 2007 déc. 31 2007 janv. 14 2008 janv. 28 2008 


Il est possible de rafraichir le graphique ou de le filtrer avec la commande reChart( ) : 
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fr 
R R Console [oa|g|x 


> reChart {subset='2011) 
> | 


FR Graphics: Device 2 (ACTIVE) 


Last 69.94 


Pour avoir que février 2011, nous écrierions reChart(subset='"201102'), pour avoir l'année 
2010 jusqu'à juin 2011 nous écrierions reChart(subset='2010/201106"), les dix premières 
semaines de l'année choisie reChart(subset='first 10 weeks') ou les dix derniers mois 
reChart(subset='last 10 months’) ou le dernier mois zoomChart('last 1 months’) 


Voici la liste des différents indicateurs empiriques disponibles à ce jour: 
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Indicateur Nom TTR|Nom quantmod 
Welles Wilder's Directional Movement Indicator| | ADX addADX 
Average True Range ATR addATR 
Bollinger Bands BBands  |addBBands 
Bollinger Band Width N/A addBBands 
Bollinger %b N/A addBBands 
Commodity Channel Index CCI addCCI 
Chaiken Money Flow CMF addCMF 
Chande Momentum Oscillator CMO addCMO 
Double Exponential Moving Average DEMA addDEMA 
Detrended Price Oscillator DPO addDPO 
Exponential Moving Average EMA addEMA 
Price Envelope N/A addEnvelope 
Exponential Volume Weigthed Moving Average|EV WMA laddEVWMA 
Options and Futures Expiration N/A addExpiry 
Moving Average Convergence Divergence MACD addMACD 
Momentum momentum|addMomentum 
Rate of Change ROC addROC 
Relative Strength Indicator RSI addRSI 
Parabolic Stop and Reverse SAR addS AR 
Simple Moving Average SMA addSMA 
Stocastic Momentum Index SMI addSMI 
Triple Smoothed Exponential Oscillator TRIX addTRIX 
Volume N/A addVo 
Weighted Moving Average WMA addWMA 
Williams ZR WPR addWPR 
ZLEMA ZLEMA  laddZLEMA 
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Exemples 400.: Options vanilla et exotiques 
R 3.0.2 


Évaluation d'options Vanilla Européennes ou Américaines, avec 
grecques et volatilité implicite (VI) selon B&S-Merton (BSM) 


Valuation (pricing) d'options européennes, américaines et calculs des grecques 


Pricing et grecques d'une option européenne de type Call (car ce sont avec les options Put les 
seuls types d'options dont nous avons fait les démonstrations mathématiques détaillées dans le 
cours théorique), nous utilisons la commande EuropeanOption( ) ou AmericanOption( ) du 
package RQuantLib qui utiliseraient les relations fermées du modèle de Black & Scholes: 


KR Fichier Edition Voir Misc Packages Fenêtres Aide 


> library(RQuantLib) 

> EuropeanOption( 

+ type = "call", 
underlying = 100, 
strike = 100, D 


dividendYield = 0, 

riskFreeRate = 0.03, 

maturity U,5, 

volatility 2.194056 
LE 
Concise summary Of valuation for EuropeanOption 

value delta garia vega theta rho divRho 
56.5364 0.7839 0.0019 20.7230 -46.1230 10.9261 -39.1943 


S1 nous comparons le résultat avec le code VBA que nous avions écrit dans MS Excel, nous 
voyons que nous avons pour les mêmes valeurs d'entrées la même valeur de sortie. 


Sinon nous pouvons calculer facilement nous-même explicitement: 
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 RGui (64-bit) - [R Console] 


R File Edit View Misc EE Windows Help 


= 100 
x = 0.03 
sigma = 2.194056 
= 0:53 
S0 = 100 


# call option 


dl <- (log(S0/K) + (r + sigma”2/2) * T)/(sigma * sgrt(T)) 
d2 <- dl - sigma * sgrt{(T) 

phidl <- pnorm(dl) 

call price <- 50 * phidl - K * exp(-r * T) * pnorm(d2) 


# put option 

di <- (log(S0/K) + (r + sigma”2/2) * T)/(sigma * sgrt(T)) 
d2 <- dl - sigma * sqgrt{(T) 

phimdl <- pnorm(-dl) 

put _ price <- -S0 * phimdl + K * exp(-r * T) * pnorm(-d2) 


VVNNVNNVNNVNNNNNNNNNNNNNVNN NV OV 


c(call price, put price) 
[1] 56.53644 55.04763 


>| 


Remarque: Nous n'avons pas démontré dans leséüurs théorique, n1 n'avons fourni de 
référence bibliographique contenant la mathénfatique détaillée du modèle de BSM avec sauts 
(jump) de type événements rares de Poisson, nous ne nous y arrêtons donc pas (même si R 


contient les packages qu'il faut pour ce type de modèles)! 


Voyons maintenant que le prix d'un Call pour une volatilité donnée est bien une fonction 


décroissante du strike (ce qui est assez logique): 


R Statistical Software 


2528/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


call.price <- function(x = t = 0, T = 1, r = 1, sigma = 1,K=1)! 
d2 <- (log(ix/K) + (r - 0.5 * sigma*2)j * (T - t))/(siqma * 

sart(T = tj) 

di <- d2 + sigma * sqrt(T - tt) 

x * pnormidi) - K * expi-r * (T - t)) * pnormi(d2) 

} 


50 <- 100 

Er <- 0.01 

T <- 100 

p <- function(sigma) call.priceix = SO, r, K = K, sigma = sigma) 
K <- 80 

curveip, 1, xlab = expression(sigma),ylab = expression(P[t])) 
K <-— 100 

Curve(p, 1, ad = TRUE, 1ty = 2) 

K <=- 150 

Curveip, 1, add = TRUE, Ity = 3) 

legendi(0. 90, ci"K=80", "K=100", "K=150"), lty = 1:53) 


> 
+ 
+ 
+ 
+ 
+ 
> 
” 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 


Ce qui donne: 


re 
[ep] 
[ee] 
o 
Lo 
[se] 
= 
Lee) 
LD 
F= 
[=] 
FF 


Et nous savons aussi que le prix d'un Call est aussi fonction croissante du temps à maturité: 
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> 
> 
> 
> 
> 
> 
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> 
> 
> 
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call.price <- function(x = 1, t = O0, T = 1, r = 1, sigma = 1,K=1){ 
d2 <- (logix/K) + {r - 0.5 * sigma*2) * (T - t))/(sicma * 

sati(T - t)) 

di <- d2 + sigma * sqrt(T - t) 

x * pnormidij - K * exp{-r * (T - t)) * pnorm(d2) 

} 


SO <- 100 

r <- 0.01 NS 

K <- 100 

T <- 10 

curvei(p, 1, xlab = expression(sigma),vylab = expression(P[t]),ylim = c(i0, 100)) 
T <- 50 

curve(p, 1, add TRUE, Ilty 2) 

T <- 100 

curve(p, 1, add TRUE, 1lty 3) 

legend(0. 40, c("T=10", "T=50", "T=100"), lty 


Ce qui nous donne: 


100 


cms CÉLLELCEERTESL LOC 
NX 


20 40 60 80 


( 
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Valuation (pricing) d'options européennes avec méthode de Monte Carlo 


Nous appliquons simplement ce que nous avons démontré dans le cours théorique: 


R 
| R File Edit View Misc Packages Windows Help 


> # call put option monte carlo 
> call put mc<-function(nSim=1000000, tau, r, sigma, 50, K) 


+ 
+ 
|+ 
[+ 
+ 
- 
_ 
+ 
+ 
+ 
+ 
_ 
_ 
+ 
|+ 
+ 
|+ 
1+ 
+ 
> 
| > 


$price call 
[1] 56.4103 


Z <- rnorm(nSim, mean=0, sd=1) 
WT <- sgrt(tau) * Z 
ST = SO*exp((r - 0.5*sigma"2)*tau + sigma*WT) 


# price and standard error of call option 
simulated call payoffs <- exp(-r“tau) *pmax(ST-K,0) 
price call <- mean(simulated call payoffs) 

sterr_ call <- sd(simulated call payoffs)/sqrt{(nSim) 
# price and standard error of put option 
simulated put payoffs <- exp(-rtau)*pmax(K-ST,0) 
price put <- mean(simulated put payoffs) 

sterr put <- sd(simulated put _payoffs)/sqrt(nSim) 


price put=price put, sterr put=sterr put) 
return(output) 


} 
set.seed({(1) 


$sterr call 
[1] 0.2980037 


$price put 
| [1] 55.04051 


$sterr put 
| [1] 0.03665131 


>| 


{ 


output<-list (price call=price call, sterr call=sterr call, 


Voyons maintenant les applications avec quelques techniques de réduction de la variance. Les 


codes ci-dessous sont reprise de: 


https://www.r-bloggers.com/2020/12/pricing-of-european-options-with-monte-carlo/ 


Voyons maintenant l'application de deux techniques de réduction de la variance que nous 


avons démontré dans le cours théorique. 


Méthode des variables antithétiques (réduction de la variance) 


Voyons donc l'application des variables antithétiques pour le pricing des options vanilla 


européennes: 
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R File Edit View Misc Packages Windows Help & x 


antithetic call put mc<-function(nSim, tau, r, sigma, S0, K) { 
Z <- rnorm(nSim, mean=0, sd=1) 


WT <- sgrt(tau) * Z 

# ST1 and ST2 and the antithetic variates 

ST1 (S0*exp((r - 0.5*sigma”"2)*tau + sigma*WT)) 
ST2 (S0*exp((r - 0.5*sigma”*2)*tau + sigma*(-WI))) 


CR 


> 

s 

- 

+ 

os 

_ 

_ 

_- 

+ 

_ # call option price and standard error 

+ simulated call payoffsl <- exp(-r*tau) “pmax(STl1-K,0) 
+ simulated call payoffs2 <- exp(-r*tau) “pmax(ST2-K,0) 
+ $ get the average 

+ simulated call payoffs <- ( simulated call payoffsl + simulated call payoffs2)/2 
+ price call <- mean(simulated call payoffs) 

+ sterr_ call <- sd(simulated call payoffs)/sqrt(nSim) 
Æ 

ou 

+ 

- 

_- 

+ 

_ 

- 

- 

+ 

+ 

+ 

- 

+ 

> 


+ put option price and standard error 

simulated put_payoffsl <- exp(-r*tau)“pmax(K-ST1,0) 

simulated put_payoffs2 <- exp(-r*tau) “pmax(K-ST2,0) 

# get the average 

simulated put _payoffs <- (simulated put payoffsl+simulated put payoffs2)/2 
price put <- mean(simulated put _payoffs) 

sterr_ put <- sd(simulated put _payoffs)/sqrt(nSim) 


output<-list (price call=price call, sterr call=sterr call, 


price put=price put, sterr put=sterr put ) 
return(output) 


} 

antithetic call put mc(n=1000000, tau=0.5, r=0.03, sigma=2.194056, S0=100, K=100) 
$price call 
[1] 56.57819 


$sterr_call 
[1] 0.208214 


$price put 
[1] 55.03211 


$sterr_put 
[1] 0.008853721 


>| 


Méthode de l'échantillonnage préférentiel (réduction de la variance) 


Nous avons vu dans le cours théorique que l'échantillonnage préférentiel est assez subtil a 
mettre en place car il nécessite le plus souvent de faire usage d'astuces mathématiques non- 
triviales. L'application de cette technique au pricing des options vanilla européennes comme 
ci-dessous en est encore une fois un bon exemple: 
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R File Edit View Misc SE Windows Help 


importance call put mc<-function(nSim, tau, r, sigma, S0, K) !{ 


Z <- rnorm(nSim, mean=0, sd=1) 
NT <- sgrt(tau) * Z 
ST = S0Of*exp((r - 0.5*sigma”"2)tau + sigma*WI) 


# call option price and standard error 

simulated call payoffs <- (exp(-rtau) *pmax(ST-K, 0) ) [ST>K] 
price call <- mean(simulated call payoffs*mean(ST>K)) 

sterr call <- sd(simulated call payoffs“mean(ST>K))/sqrt(nSim) 


# put option price and standard error 

simulated put payoffs <- (exp(-r*tau) *pmax(K-ST, 0) ) [ST<K] 
price put <- mean(simulated put payoffs*mean(ST<K)) 

sterr_ put <- sd(simulated put payoffs*mean(ST<K))/sqrt (nSim) 


output<-list (price call=price call, sterr call=sterr call, 


> 
_ 
_ 
+ 
_ 
_ 
_ 
_ 
_ 
_ 
_ 
_ 
_ 
_ 
_ 
_ 
+ 
+ price put=price put, sterr put=sterr put ) 
+ return (output) 

_ 

+ } 


$price call 
[1] 56.78135 


$sterr_ call 
[1] 0.2171424 


$price put 
[1] 55.04753 


$sterr put 
[1] 0.008857805 


>| 


Volatilité implicite d'options européennes ou américaines 


Et avec les commandes EuropeanOptionImpliedVolatility() ou respectivement 


> antithetic call put mc(n=1000000, tau=0.5, r=0.03, sigma=2.194056, S0=100, K=100) | 


AmericanOptionImpliedVolatility() ,, nous pouvons chercher (entre autres), la volatilité 
implicite (ce qui est même temps est un preuve expérimentale ponctuelle que la fonction est 


écrite juste puisque nous retrouvons la volatilité ci-dessus): 
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FR Fichier Edition Voir Misc Packages Fenêtres 


> library(RQOuantLib) 
> EuropeanOptionImpliedVolatilityi 
+ type = "call", 
value = 56.5364, 
underlying = 100, 
strike = 100, 
dividendYield = O0, 
riskFreekRate p.08, 
maturity DS, 
volatility 0.01 #valeur initiale nécessaire cherche 
)$impliedvol 
1] 2.194054 


+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
[ 
> 


Diagrammes Payoff (stratégies d'options) 


Nous avons étudié dans le cours théorique les diagrammes payoff des Call et Put ainsi de de 
plusieurs stratégies de portefeuilles d'options. Nous allons voir ici que ce n'est pas forcément 
trivial à écrire. 


NO 
Diagramme Payoff Call et Put simple (sans packäge) 


La stratégie d'options avec le diagramme payoff le plus simple que nous puissions imaginer 
est la stratégie consistant à posséder en même temps un call et un put. Pour construire le 
diagramme de payoff correspondant, la syntaxe n'est pas forcément triviale mais reste 
toutefois instructive: 


> f.call<-function(x){ sapply(x, function(x) max(c(x - K, 0)))} 

> f.put<-function(x){ sapply(x, function(x) max(ciK - x, 0)))} 
> K<-1 

> curve(f.call,0,2,main="Pavoff functions'",col="blue",lty=1,lwud=1,ylab=expression(£i(x))) 
> curve(f.put,0,2,col="black" ,add=TRUE, ltvy=2, lud=2) 
> legend(0.9,0.8,c("call","put"),lty=c{(1,2),col=ci"blue","black"),lud=c(2,2)) 
> 


| 
È 


Ce qui donne: 
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FR R Graphics: Device 2 (ACTIVE) Ca-)(-0-/(5 


Payoff functions 


06 08 10 


f(x) 


04 


02 


0.0 


0.0 0.5 1.0 15 2.0 


S 


Ÿ 
Plusieurs années après avoir écrit le script de diagramme payoff, un package a été publié en 
proposant un plus grand nombre et ce de façon quasi automatique. Voyons cela: 


Autres diagrammes payoff (bull, bear, butterfly, covered, collar, protective,...) 


Nous avons vu dans le cours théorique qu'il existe au bas mot une vingtaine de stratégies 
d'options. C'est un peu la jungle et malheureusement, à notre connaissance, 1l n'existe aucun 
package les proposant tous. Le plus complet à ce jour semblerait être le package 
FinancialMath (la documentation est de plus très bien faite car elle rappelle les équations en 
LaTeX — c'est assez rare pour le souligner... — sous-jacentes de la stratégie). 


Voyons un exemple d'abord des graphiques que ce package peut générer où on fournit 
exceptionnellement le script à copier/coller (car le récrire n'apporte pas grand-chose 
pédagogiquement parlant dans ce cas particulier): 


library("FinancialMath") 

par(mfrow=c(4,3)) 
bull.call(S=115,K1=100,K2=145,r=.03,t=1,pricel=20,price2=10,plot=TRUE) 
bear.call(S=115,K1=100,K2=145,r=.03,t=1,pricel=20,price2=10,plot=TRUE) 
butterfly.spread(S=125,K1=100,K2=125,K3=150,r=.03,t=-1,pricel=20,price2=10,p 
rice3=5,plot=TRUE) 
covered.call(S=100,K=110,r=.03,t=1,sd=.2,plot=TRUE) 
covered.put (S=100,K=110,r=.03,t=1,sd=.2,plot=TRUE) 
collar(S=115,K1=100,K2=145,r=.03,t=1,pricel=20,price2=10,plot=TRUE) 
option.call(S=100,K=110,r=.03,t=1.5,sd=.2,price=NA,position="short",plot=TR 
UE) 

option.put (S=100,K=110,r=.03,t=1,sd=.2,price=NA,position="long") 
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protective.put (S=100,K=100,r=.03,t-1,sd=.2,plot-TRUE) 
strangle(S=-105,K1-100,K2=-110,r=.03,t-1,pricel-10,price2-15,plot-TRUE) 
straddle(S=-115,K=-100,r=-.03,t=-1,pricel=20,price2-10,position-="short",plot=TR 
UE) 


Ce qui donnera: 


EIRE] 


QE Graphics Device 2 (ACTIVE) 


Voyons maintenant typiquement le type de données que cela renvoie: 


Bull Call Spread 
Payoff and Profit 


Covered Call 
Payoff and Profit 


Short Call 
Payoff and Profit 


Stock Price 


Written Straddle 
Payoff and Profit 


Bear Call Spread 
Payoff and Profit 


Stock Price 


Covered Put 
Payoff and Profit 


Pretective Put 
Payoff and Profit 


—— Proft 


— —  Payoff 


0 20 60 100 140 


Stock Price 


Butterfly Spread 
Payoff and Profit 


Strangle 
Payoff and Profit 
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R RGui (64-bit) - [R Console] _ 


ŒR File Edit View Misc Packages Windows Help aix 


STE) 


> bc<-bull.call(s=115,K1=-100,K2=145,r=.03,t=-1,pricel=20,price2=-10,plot-=TRUE) 
> bc 


$'Payof£f" 
Stock Price Payoff Profit 
1 0 0 -10.304545 
2 20 0 -10.304545 
3 40 0 -10.304545 
El 60 0 -10.304545 
5 80 0 -10.304545 
6 100 0 -10.304545 
7 115 15 4.695455 
8 130 30 19.695455 
9 145 45 34.695455 
10 165 45 34.695455 
s 1 à 185 45 34.695455 
12 205 45 34.695455 
13 225 45 34.695455 
14 245 45 34.695455 
SPremiums 
Premiums 
Call (Ki) 20 
Call (K2) 10 
Net Cost 10 


> bcSPayoffSProfit 
[1] -10.304545 -10.304545 -10.304545 -10.304545 -10.304545 -10.304545 4.695455 
d 19.695455 34.695455 34.695455 34.695455 34.695455 34.695455 34.695455 
> 
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Simulation de Monte-Carlo pour options Vanilla avec mouvement géométrique 
brownien 


Nous renvoyons d'abord le lecteur à la lecture du chapitre sur les simulations de Monte Carlo 
à la page 1944 dans un premier temps. 


Voyons maintenant comment faire une simulation de Monte Carlo avec R: 


BR RGui (64-bit [R Console] — [] 


fR File Edit View Misc = Windows Help = | 


#le classique d'abord 
stock=100 
sigma=2.194056 
strike=100 

TTM=0.S5 

rf=0.03 


fle nombre de simulations 
num.sim<-1000000 


VVUVVNVNNVNNNNVNNV NV 


#*on calcule certaines variables 
R<-(rf-0.5*sigma”"2) *TTM 

> R 

| [1] -1.18847 

> SD<-sigma*sqrt (TTM) 

|> SD 

| [1] 1.551432 

> 


V 


#on fait les simulations 
TTM.price<-stock*exp(R+SD*rnorm(num.sim,0,1)) 


fet donc pour un Call Vanilla on obtient 
TTM.call<-pmax(0,TTM.price-strike) 
PV.call<-TTM.call*(exp(-rf*TTM)) 
mean(PV.call) 

[1] 56.62282 

> 

> ftet pour un Put Vanilla 

> TTM.put<-pmax(0,strike-TTM.price) 
> PV.put<-TTM.put* (exp(-r£f*TTM)) 

> mean(PV.put) 

[1] 55.02435 

> 


VAR AAA A" 


Nous retombons donc bien sur nos patttes! 
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Arbre binomiaux alternatifs 
Commençon d'abord par l'arbre binomial CRR classique 
Arbre binomial de Cox-Ross-Rubinstein 


Nous allons vérifier 1c1 que nous obtenons bien avec R les calculs effectués à la main dans le 
cours théorique concernant l'arbre binomial de Cox-Ross-Rubinstein. 


Pour cela nous installons le package fOption et utilisons la commande 
CRRBinomialTreeOption( ) : 


R 
R File Edit View Misc Packages Windows Help 


ÉBSOISECSIOIE | 


> library("fOptions") 
> (EuroCall<-CRRBinomialTreeOption(TypeFlag = "ce", S = 100, x = 100, 
+ Time = 0.5, r = 0.03, b = 0, sigma = 2.194056, n = 100)) 


Title: 
CRR Binomial Tree Option 


CAELS 

CRRBinomialTreeOption(TypeFlag = "ce", S = 100, X = 100, Time = 0.5, 

r = 0.03, b = 0, sigma = 2.194056, n = 100) 
Parameters: 
Value: 

TypeFlag ce 

S 100 

X 100 

Time 0:5 

É 0.03 

b 0 

sigma 2.194056 

n 100 


Option Price: 
55:2362 


Description: 
Sat Mar 16 19:47:31 2019 


> EuroCall@price 
[1] 55.2362 
> | 


Nous retrouvons à peu près la valeur calculée dans le cours théorique. Et cette valeur est 
approximativement égale à celle que nous avons obtenu plus haut pour le modèle "exact" 
(environ 2% de différence)! 


Pour information: "ce"/"pe" = call/put européen, "ca"/"pa" = call/put américain 


Ensuite, nous pouvons faire un plot de l'arbre avec la commande BinomialTreeOption() du 
même package: 
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2x 


le 


GR FR Console EEE 
> CRRTree<-BinomialTreeOption(TypeFlag = "ce", S = 100, x = 100, 

+ Time = 0.5, r = 0.03, b = 0, sigma = 2.194056, n = 5) 

> BinomialTreePlot (CRRTree, dy = 1, cex = 0.8, ylim = c(-6, 7), 

+ xlab = "n", ylab = "Option Value") 

> | 

QG R Graphics: D ACTIVE (se [x | 


[Ce] 3110.81 
1499.81 


Option Value 


Figure 323 Graph arbre binomial 
Nous avons d'autres modèles de valuations basés sur des arbres binomiaux. 
Arbres de Tian et Jarrow-Rudd 


Le package fOptions en contient deux autres (Jarrow-Rudd et Tian). Comparons-les tous: 
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R RGui (64-bit) - [R Console _ [I 
R File Edit View Misc Packages Windows Help -_nx 


> library("fOptions") 

> CRR EuroCall<-CRRBinomialTreeOption(TypeFlag = "ce", S = 100, x = 100, 
+ Time = 0.5, r = 0.03, b = 0, sigma = 2.194056, n = 1000) 

> CRR EuroCall@price 

[1] 55-35795 


” 
> Tian EuroCall<-TIANBinomialTreeOption(TypeFlag = "ce", S = 100, x = 100, 
+ Time = 0.5, r = 0.03, b = 0, sigma = 2.194056, n = 1000) 


> Tian EuroCall@price 

[1] 55.34881 

> 

> JR EuroCall<-JRBinomialTreeOption(TypeFlag = "ce", S = 100, X = 100, 
+ Time = 0.5, r = 0.03, b = 0, sigma = 2.194056, n = 1000) 

> JR EuroCall@price 

[1] 55.32485 

> 


Je n'ai pas encore été capable à ce jour de trouver comment reproduire les exemples 
faits dans le cours MATLAB -— exemples différents de ceux ci-dessus - concernant les 
arbres JR et Tian (sachant que nous savons que les résultats renvoyés par MATLAB 
étaient corrects!). 
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Smile de volatilité 


Malheureusement, il n'existe pas à notre connaissance et à ce jour de package faisant un smile 
de volatilité (ceci s'explique aisément vu l'aspect pratique de la chose.…..). 


Pour voir toutefois comment écrire notre propose script, rappatrions les données des options 
Microsoft négociables sur le marché de gré à gré (1 option est pour 100 sous-jacents 
normalement dans les exports Yahoo/Google) dont la date d'expiration est avant le 30 Juillet 
2014 et dans l'ordre décroissant des dates d'expiration (comme le lecteur pourra le voir ci- 
dessous il n'y a pas beaucoup d'options qui vont à une date ultérieure au 19 Juillet 2014 
sachant que ce script a été écrit le 1° Juillet 2014... donc il y peu d'agents prenant le risque de 
proposer des options au-delà de 19 jours pour les sous-jacents Microsoft): 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> library(quantmod) 

> library(RQuantLib) 

> options ("getSymbols.warning4.0"=FALSE) 

> x<-getOptionChain("MSFT",Exp ="2014-07-30") 
> headi(x) 

$calls 


Last Chg Bid Ask 
21.60 .00 .45 .80 
19.55 .00 .45 .80 
16.70 .00 .65 .10 
15.46 .00 .55 .05 
13.68 .00 . 70 .10 
12.55 .00 .65 .30 
11.850 .00 . 70 .10 
10:75 .65 .70 .85 

9.30 .00 .65 .05 
.10 . 50 . 70 .85 
.00 . 40 . 70 .85 
.90 10 . 70 .85 
.20 .00 s2S .30 
.70 .00 .65 .80 
.00 .41 .70 .85 
.35 .00 15 .30 
.75 .00 .65 . 80 
.00 .22 . 70 .90 
.00 .00 . 70 .85 
.42 .00 .75 .35 
.00 .00 .20 . 60 
.23 .00 . 70 85 


HSFT140719C00018000 
MSFT140719C00020000 
MSFT140719C00025000 
MSFT140719C0002 6000 
MSFT140719C00028000 
MSFT140719C00029000 
MSFT140719C00030000 
MSFT140719C00031000 
MSFT140703C00032000 
MSFT140719C00032000 
MSFT140719C00033000 
MSFT140719C00034000 
MSFT140703C00034500 
HSFT140703C00035000 
MSFT140719C00035000 
MSFT140703C00035500 
MSFT140703C0003 6000 
MSFT140711C0003 6000 
MSFT140719C0003 6000 
MSFT140725C0003 6000 
MSFT140725C0003 6500 
MSFT140711C00037000 


Le] 
Le] 
LS] 
+ 


HhHHHHHN 
Oh N © Um H 
HHHHHH HN 
OO ON © BB om JUN 


H 
[= 


O0O00000000000000hkhk0000000 


.0 
.0 
.0 
.0 
.0 
.0 
.0 
.0 
.0 
.0 
.0 
.0 
.5 
.0 
.0 
.5 
.0 
.0 
.0 
.0 
5 
.0 


+ O1 0 a oo OO -J OO -J -J 0 
+ O1 O1 On On Oo OO -J -] © 10 0 
+ O1 on On On On on oO On -J -J © (0 


Alors que la colonne Strike donne le. strike du sous-jacent (logique...), la colonne Last donne 
le dernier prix de trade du Call. Nous nous baserons sur cette valeur pour déterminer la 
volatilité implicite mais nous pourrions tout aussi bien prendre la valeur Bid (qui est pour 
rappel le prix auquel les acheteurs essaient d'acheter l'option) si nous sommes acheteurs de 
Call. 


La première colonne contient les dates d'expiration des Call (ou des Puts si vous descendez 
plus bas dans la liste...) mais voici comment la décoder en détails: 
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Nous voyons que pour une même date d'émission des agents proposent des options d'achats 
avec des strikes donnés variés (ce qui est normal puisque chacun fait des projections à sa 


OPY 


Stock Year, 

Symbol Month C or P for 
and "Call" or 
Day: "Put" 
2013, Option 
05, 24 


manière). 


0167000 


Strike Price 


Nous allons pour poursuivre extraire la colonne des strikes, la convertir en valeurs 


numériques, compter les nombres d'options disponibles dans cette extraction et déterminer et 
extraire les noms de lignes pour ensuite les traiter afin d'obtenir les dates qui sont codées: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> Sys.Dateli) 


[1] 


"2014-07-01" 


> optionVal<-as.numeric(x$calls[(,2]) 
strike<-as.numeric(x$calls[(,1]) 
n<-length(istrike) 
T<-array(Ni,n) 
dateExp<-rownames (x$calls) 
dateExp 


[1] 

[4] 

[7] 
[10] 
[13] 
[16] 
[19] 
[22] 
[25] 
[28] 
[31] 
[34] 
[37] 
[40] 
[43] 


4 


"HSFT140719C00015000" 
"HSFT140719C0002 6000" 
"HSFT140719C00030000" 
"HSFT140719C00032000" 
"HSFT140703C00034500" 
"HSFT140703C00035500" 
"HSFT140719C0003 6000" 
"HSFT140711C00037000" 
"HSFT140725C00037500" 
"HSFT140719C00035000" 
"HSFT140725C00038500" 
"HSFT140719C00039000" 
"MHSFT140711C00039500" 
"HSFT140711C00040000" 
"HSFT140703C00040500" 


"HSFT140719C00020000" 
"MSFT140719C00028000" 
"MSFT140719C0003 1000" 
"MSFT140719C00033000" 
"HSFT1407%703C0003S5000" 
"MSFT140703C0003 6000" 
"HSFT140725C0003 6000" 
"HSFT140719C00037000" 
"HSFT140703C00035000" 
"HSFT140725C00035000" 
"HSFT140703C00039000" 
"HSFT140725C00039000" 
"MSFT1407%725C00039500" 
"MSFT140719C00040000" 
"MSFT140711C00040500" 


Donc maintenant nous extrayons les dates: 


"HSFT140719C00025000" 
"MSFT140719C00029000" 
"HSFT1407%703C00032000" 
"MHSFT1407%719C00034000" 
"MSFT1407%719C00035000" 
"MSFT1407%711C0003 6000" 
"HSFT140725C0003 6500" 
"HSFT140725C00037000" 
"HSFT140711C00035000" 
"HSFT140703C00035500" 
"HSFT140711C00039000" 
"HSFT140703C00039500" 
"HSFT140703C00040000" 
"HSFT1407%25C00040000" 
"HSFT1407%25C00040500" 
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> dateExp<-unlist (lapply(dateExp, FUN=function(x])regmatches(x=x, 
+ regexpr{'[0-9]{6}',xjj1) 
> dateExp 
[1] "140719" 
[9] "140703" 
[17] "140703" 
[25] "140725" 
[33] "140711" 
[41] "140719" 
"140725" 
"140703" 
"140711" 
"140719" 


"140719" 
"140719" 
RISOTALET 
"140703" 
FLSOTI9T 
"140725" 
"140703" 
RL407 LIT 
"140725" 
"140725" 


"140719" 
"140719" 
"140719" 
v140711" 
"140725" 
"140703" 
"40711" 
"140725" 
"140703" 
"140725" 


"140719" 
"140719" 
"140725" 
r140719" 
"1407053" 
140711" 
"140725" 
"140703" 
"140711" 
"140719" 


"140719" 
"140703" 
"140725" 
"140725" 
"140711" 
"140725" 
"140703" 
"140711" 
"140719" 
"140719" 


"140719" 
"140703" 
M1407LIT 
"140703" 
"140725" 
"140703" 
"140711" 
"140719" 
"140725" 
"140719" 


"140719" 
"140719" 
"140719" 
"140725" 
"140703" 
"140711" 
"140719" 
"140725" 
"140711" 
"140719" 


"140719" 
"140703" 
"140725" 
"140703" 
°140711" 
"140719" 
"140725" 
"140703" 
"140725" 
"140719" 


Ensuite nous calculons la durée jusqu'à maturité entre le jour de rédaction (exécution) du 
script et la date d'expiration de chaque option (je n'ai pas trouvé autre chose qu'une boucle….): 


> forii in i:n){ 

+ T[i]<-businessDaysBetween(from=Sys.Date() ,to=as.Date(dateExpli],"$svsm#da"))/252 
+ } 

> T 


[1] 

[7] 
[13] 
[19] 
[25] 
[31] 
[37] 
[43] 
[49] 
CSS] 
[61] 
[67] 
[73] 
[79] 
> | 


« 


0.055555556 
0.055555556 
0.007936508 
0.055555556 
0.071428571 
0.071428571 
0.031746032 
0.007936508 
0.071428571 
0.055555556 
0.031746032 
0.007936508 
0.055555556 
0.055555556 


0.055555556 
0.055555556 
0.007936508 
0.071428571 
0.007936508 
0.007936508 
0.071428571 
0.031746032 
0.007936508 
o.0{u428571 
0.055555556 
0.031746032 
0.071428571 
0.055555556 


0.055555556 
0.007936508 
0.055555556 
0.071428571 
0.031746032 
0.031746032 
0.007936508 
0.071428571 
0.031746032 
0.007936508 
0.071428571 
0.055555556 
0.071428571 


Nous regroupons le tout dans un data frame: 


0.055555556 
0.055555556 
0.007936508 
0.031746032 
0.055555556 
0.055555556 
0.031746032 
0.0079365085 
0.071428571 
0.031746032 
0.0079365085 
0.071428571 
0.055555556 


0.055555556 
0.055555556 
0.007936508 
0.055555556 
0.071428571 
0.071428571 
0.055555556 
0.031746032 
0.007936508 
0.071428571 
0.031746052 
0.031746032 
0.055555556 


0.055555556 
0.055555556 
0.031746032 
0.071428571 
0.007936508 
0.007936508 
0.071428571 
0.055555556 
0.031746032 
0.007936508 
0.071428571 
0.071428571 
0.055555556 
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> data<-data.frame(T,strike,call=optionval) 


> data 


0 © Jan EU D 


HHHH 
© D h © 


T strike 


0.055555556 
0.055555556 
0.055555556 
0.055555556 
0.055555556 
0.055555556 
0.055555556 
0. 
(a) 
(e) 
(a 
(a) 
(a) 
(a) 
(a) 
(a) 


0055555556 


.-00793 6508 
.055555556 
-055555556 
«.055555556 
.-00793 6508 
.-00793 6508 
. 0555555856 
-00793 6508 


15. 
20. 
25: 
26. 
28. 
29. 
30. 
31. 
32, 
32. 


O0nO0O00000000000 


= 


call 


21. 
19. 
16. 
15. 
. 68 
.55 
. 80 
«75 
.30 


60 
55 
70 
46 


Ensuite puisque par définition le smile de volatilité est pour des options de maturité égales, 
nous allons filtrer sur un choix particulier arbiträire pour avoir que des options de même 


maturité: 
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> #seulement les options expirant le 2014-07-19 
> t<-businessDaysBetween(from-Sys.Date() ,to=as.Date("2014-07-19"))/252 
> data<-data[datafT==t,] 
> data 

T strike call 
0.05555556 18 21.60 
0.05555556 20 19.55 
0.05555556 25 16.70 
0.05555556 26 15.46 
0.05555556 28 13.68 
0.05555556 29 12.55 
0.05555556 30 11.50 
0.05555556 31 10.75 
0.05555556 32 10.10 
0.05555556 33 9.00 
0.05555556 34 8.10 
0.05555556 35 7.00 
0.05555556 36 6.00 
O0.05555556 37 5.05 
0.05555556 38 4.15 
0.05555556 39 3.10 
0.05555556 40 2.19 
0.05555556 41 1.27 
0.05555556 42 0.58 
62 O0.0S555556 43 0.185 
69 0.055556656 44 0.05 


1 
2 
3 
4 
5 
6 
7 
8 


H H 
H © 


D hH H H 
& 10 Un 


Un & HE © N 
in © + + 


« 


Ensuite, 1l nous faut le prix actuel du sous-jacent (spot price): 
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> So<-getQuote ("HSFT") $Last 
> So 


[1] 42.05 
> | 


4 


Et ensuite de calculer les volatilités implicites: 
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fon calcule les volatilités implicites dans un vecteur préchargé 
n<-lengthidata$strike) #vu qu'on a filtré n n'est plus le même 
impvol<-array(Ni,n) 
#fpas trouvé d'autres solutions qu'une boucle 
tocii in 1:mit 
#la recherche la volatilité implicite ne fonctionnant pas toujours 
#il faut procéder en deux étapes 
er<-try(EuropeanOptionimpliedVolatility{"call",datafcallli], 
So,data$strike[i],0,0.05,t,0.2j,silent=TRUE) 
#pas évident à deviner... 
ifi(classier)=="try-error") next 
else{ 
impvol[i]=EuropeanOptionimpliedVolatility({"call",dataf$callli], 
So,dataf$strike[i],0,0.05,t,0.2j $impliedvol 
} 
} 
Il y a eu 11 avis (utilisez wvarnings() pour les visionner) 
> impvol 
[1] Ni Ni Ni L Ni Ni Ni 
[8] NA NA Ni K Ni NA NA 
[15] Ni Ni 0.1376629 0.1229504 0.1247507 0.1218914 0.1303446 
s 0.1501983 0.2047043 0.2073351 0.2661198 0.2742019 0.3058040 
> 


HAE EHE NV VV 
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R R Console (Ss|© || 52" | 
> data<-na.omit (data.frame(strike=dataf$strike,impvol)) 

> plot (dataf$strike,data$impvol, 

+ main="Volatilité implicité des call Microsoft\in Du 2014-07-01 à maturité 2014-07-19", 

+ xlab="Strike",vylab="Volatilité implicite",col="blue") 

> library(splines) 

> regspline<-lmidata$impvol-bs idatYstrike, df=4) j 

> lines(predict (regspline) -dataf$strike,col="red",lwd=3) 

> grid) 

> | 


R R Graphics: Device 2 (ACTIVE) 


“ 


Volatilité implicité des call Microsoft 
Du 2014-07-01 à maturité 2014-07-19 


Volatilité implicite 


Nous voyons que la smile (la volatilité implicite) est proche d'un minima pour la valeur du 
cours du jour du sous-jacent. L'interprétation de cette courbe est très intéressante mais si nous 
ne possédons pas toutes les informations du marché, nous pouvons a posteriori conclure que 
le sous-jacent a une plus forte probabilité d'être à l'avenir au-dessus du cours du jour qu'en 
dessous (c'est quand même des sous-jacents Microsoft…..). 
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Surface de volatilité 


Malheureusement, il n'existe pas non plus à notre connaissance et à ce jour de package faisant 
une surface de volatilité (ceci s'explique aisément vu l'aspect pratique de la chose.….). 


L'extension naturelle du smile de volatilité est la surface de volatilité. Le code est quasiment 
identique à avant à la différence que nous ne filtrons pas pour une seule date de maturité 
donnée et aussi à la différence qu'il s'agit d'un plot 3D plutôt que 2D. 
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library (quantmod) ;library(RQuantLib) 

x<-getOptionChain("MSFT") 

optionVal<-as.numeric(ix$calls(,2]) 
strike<-as.numeric(x$calls(,1]) 

n<-lengthistrike) 

T<-array(Ni,n) 

dateExp<-rownames (x$calls) 

dateExp<-unlist (lapply(dateExp,FUN=function(x])regmatches (x=x, 
regexpr {'[0-9]1{6}',x)))) 

foËtt in L'nli 
T[i]<-businessDaysBetween(from=Sys.Date()j,to=as.Date(dateExpli],"$ysm*da"))/252 
} 

data<-data.frame(T,strike,call=optionval) 
t<-businessDaysBetween(from=Sys.Date() ,to=as.Date("2014-07-19"))/252 
So<-getQuote ("MSFT") $Last 

impvol<-array(Ni,n) 

focii in 1:nj{ 
er<-try(EuropeanOptionimpliedVolatility("call",dataf$fcallli], 
So,data$strike[i],0,0.05,t,0.2),silent=TRUE) 
if(class(er)=="try-error") next 

else!{ 
impvol[i]=EuropeanOptionImpliedVolatility{("call",data$callli], 
So,data$strike[i],0,0.05,t,0.2)$impliedVol 

} 

} 

Il y a eu 48 avis (utilisez warnings() pour les visionner) 

> data<-na.omit (data.frame(maturity=T,strike=data$strike,impvol)) 
> PE 

> 


> 
> 
> 
> 
> 
> 
> 
> j 
+ 
> 
+ 
+ 
> 
> 
> 
> 
> 
+ 
+ 
+ 
+ 
Es 
+ 
+ 
+ 


Ce qui donne: 
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> data 
maturity strike 
38. 
39. 
39. 
.0 
.5 
.0 
.0 
.5 
.5 
.0 


31 
34 
35 
42 
45 
48 
49 
S1 
S2 
53 
54 
55 
56 
S4 
58 
59 
60 
61 
62 
63 
64 
65 
66 
67 
68 


« 


0.071428571 
0.055555556 
0.071428571 
0.071428571 
0.071428571 
0.055555556 
0.071428571 
0.031746032 
0.071428571 
0.007936508 
0.031746032 
0.055555556 
0.071428571 
0.007936508 
0.031746032 
0.071428571 
0.007936508 
0.031746032 
0.055555556 
0.071428571 
0.007936508 
0.031746032 
0.071428571 
0.007936508 
0.031746032 


42 


5 
0 
0 


(a 
(a) 
(e] 
5 
5 
5 
(a) 
(a) 
Ô 
(a) 
5 
5 
5 
(a) 
(a) 


irapwol 
0.29395367 
0.20311391 
0.20311391 
0.21467267 
0.20959326 
0.09479341 
0.18259573 
0.09634979 
0.17510026 
0.02704299 
0.08623255 
0.11451227 
0.21393399 
0.04175465 
0.08308033 
0.21561515 
0.05808826 
0.08332463 
0.11871359 
0.22140294 
0.07266672 
0.10354214 
0.21299203 
0.09404625 
0.10655074 


Après ne reste plus qu'à faire un plot mais vu la faible quantité de données 1l ne va pas être 


extra...: 
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P_- "| 
R & Console sex) 
> xyz<-with(idata,interp(x=maturity,y=strike,z=impvol, 3 
+ xo=seq(min(maturity), max(maturity), length = 500)j)j) 
> with(xvz,persp3d(x,y,z,xlab="maturitvy",vlab="strike",zlab=' IV! ,main="Microsoft IV Surface”, 

+ col=heat.colors(lengthi(z))[rank(z)],theta = 30, phi = 30,axes=F)) 
> box3d{(j:axes3d(ici'x','z')):axis3diedge='y") 

> ess des "Vs" 2"11 

> 


Microsoft lY Surface 


strike 


Nous voyons donc bien ci-dessus la forme en "U" du smile de volatilité pour chaque maturité. 
Bon cela doit être possible de faire plus joli... mais après quand on réfléchit à l'utilité de ce 
type de graphiques 3D.... 

Volatilité implicité 


Pour calculer la volatilité implicité nous importons d'abord des données de Yahoo: 
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> library(flmport) 

> S<-yahooSeries("ATL.MI",from="2004-07-23",to="2005-05-13") 

essai de l'URL 'http://chart.yahoo.com/table.csv?s=ATL.MIea=€ch=ec=cd=-11ce-31ef-2014cg=dex=.csv! 
Content type 'text/csv' length unknown 

URL ouverte 

downloaded 139 Kb 


> headi(S) 
GNT 


ATL.MI.Open ATL.MI.High ATL.MI.Low ATL.MI.Close ATL.MI.Volume ATL.MI.idj.Close 
2005-05-13 22.95 23.01 22.60 22.66 5944700 14.21 
2005-05-12 23.02 23.26 22.74 22.90 3324700 14.36 
2005-05-11 22.94 23.16 22.78 23.00 7415700 14.42 
2005-05-10 22.717 23.13 22.72 22.93 2357700 14.38 
2005-05-09 22.49 22.78 22.30 22.71 4171500 14.24 
22.38 22.80 22.14 22.60 3038800 14.17 
> 


»> Closec-8[,"ATL.MI.Close”] 
> library(quantmod) 
> chartSeries(Close,theme="white") 


s | N 


Last 22.66 


24 


22 


20 


18 


juil. 23 2004 nov. 012004 févr. 012005 mai 02 2005 
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R<-returns (Close) 
Delta<-1/252 
siqma.hat<-sqrt (var (R) /Delta) [1,1] 


sicma.hat 
1] 0.2850167 


Considérons maintenant une option Call qui le 13 Mai 2005 était évaluée à 0.0004 pour un 
prix d'exercice K = 23, avec un spot ss, = 22.66 (visible sur le graphique ci-dessus en haut à 


gauche). La date d'expiration était au 3 Juin 2005, ce qui correspond à 15 jours, dès lors 
rapporté à une fraction d'année T =15:A et le taux sans risque du marché était de 

r =0.02074. Dès lors, le prix de l'option était en utilisant un autre package que RQuantLib 
(comme cela vous pouvez voir qu'il y en a plusieurs qui font la même chose): 


S0<-Closer[1] 

K<-23 

T<-15tDelta LN 
r<-0.02074 

library(fOptions) 


GESOption("c",S=5S0,X=K,Time=T,r=r,b=r,siqma=sigma.hat)@price 
1] 0.4891613 


SE NP ONCE 


La différence entre le prix du Call sur le marché et selon le modèle de Black & Scholes- 
Merton est très différent. Voyons donc la volatilité implicite du marché: 


> C<-fe-0 
> GBSVolatility(C,"c",5=50,X=K,Time=T,r=r,b=r) 


[1] 0.1557277 
>| 


Il y a presque un facteur 2 entre la volatilité historique de 0.285 et celle de la volatilité 
implicite de 0.155. 
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Évaluation de deux options Vanilla corrélées 


Dans le cours théorique nous avons démontré comment valuer un panier de deux options 
européennes de type call à l'aide de la fonction TwoAssetCorrelationOption( ) du package 
fExoticOptions: 


R File Edit View Misc Packages Windows Help UE | 


> library("fExoticOptions") 

> TwoAssetCorrelationOption(TypeFlag = "c", Si = 52, 

+ X1 = 50, X2 = 70, Time = 0.5, r 0.10, b1 = 0, b2 = O0, 
+ sigmal = 0.2, sigma2 = 0.3, rho 0:75) 


Title: | 
Two Asset Correlation Option 


Call: 

TwoAssetCorrelationOption(TypeFlag = "c", S1 
X2 = 70, Time = 0.5, r = 0.1, b1 = 0, b2 
sigma2 = 0.3, rho = 0.75) 


52, S2 = 65, xX1 = 50, 
0, sigmal = 0.2, | 


Parameters: 
Value: 

TypeFlag c 

s1 52 
s2 65 
X1 50 
X2 70 
Time 0.5 
1 0.1 
b1 0 

b2 0 
sigmal 0.2 
sigma2 0:3 
rho 0:7s 


Option Price: 
3.242528 


Description: 
Sun Mar 17 14:26:38 2019 


> | | 
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Évaluation d'options Vanilla selon modèle de Heston 


Dans le cours théorique nous avons mentionné le modèle de Heston sans toutefois faire la 
démonstration mathématique puisque cette dernière si détaillée fait bien au minimum entre 70 
et 150 pages A4 recto-verso... Nous avons cependant fourni une référence qui contient la 
démonstration détaillée. Cela légitime donc le fait que nous puissions nous y attarder. 


Voyons cela en reprenant l'exemple de la documentation du package NMOF et sa fonction 
callHestoncf( ) mais en changeant les valeurs pour les faire correspondre à notre cas de calcul 
du modèle de Black & Scholes-Merton (BMS): 


R: 
R File Edit View Misc Packages Windows Help |#1x) 


Bla] 


> library("NMOF") | 
> S <- 100 #current stock price 

> X <-— 100 #strike price 

> tau <- 0.5 #time to maturity 

> r <- 0.03 #risk-free rate 

> q <- 0 #dividend yield 

> vO <— (2.194056)°2 #current variance 

> vT <- 0.9 #long-run variance 

> rho <- -0.7 #correlation between spot and variance 
> 

> 

> 

> 

> 

+ 

+ 

$ 

[ 


k <- 0.8 #speed of mean-reversion 
sigma <- 0.4 #volatility of variance. À value smaller than 0.01 is replaced with 0.01. 


## get Heston Call price and BSM implied volatility 
callHestoncf(S = S, X = X, tau = tau, r =r, q=q, 
vO = vO, vT = vT, rho = rho, k = Kk, 

sigma = sigma, implVol = TRUE) 

value” 

1] 52.36161 


$Simpliedvol 
EL1. 1-99781 


> | 


Et maintenant pour le fun regardons qu'en annulant certains paramètres du modèle de Heston, 
que nous retombons bien sur le modèle de pricing de Call plain vanilla de BSM: 


R File Edit View Misc Packages Windows Help 


EEE) 


> callHestoncf(S = S, X = X, tau = tau, r =r, q=q, 
+ vO = vO, vT = 0, rho = 0, k = 0, 
+ sigma = 0, implVol = FALSE) 

[1] 56.53641 

> 

> vanillaOptionEuropean(S,X,tau,r,q,v0, greeks = FALSE) | 
[1] 56.53644 
> | 
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Sciences.ch 


Évaluation d'options Asiatiques avec moyenne arithmétique ou 


géométrique 


Nous avons fourni dans le cours théorique les références vers les démonstrations 
mathématiques détaillées des options asiatiques. Cela nous légitime donc pour aborder le 


sujet! 


Rappelons d'abord que plus haut nous avons vu le pricing d'une option européenne de type 


Call avec le package RQuantLib: 


R File Edit View Misc Packages Windows Help 


Cl 


> library (RQOuantLib) 
> EuropeanOption( 


+ type="call", 

+ underlying = 100, 

+ strike = 100, 

+ dividendYield = 0, 

+ riskFreeRate = 0.03, 

+ maturity = 0.5, 

+ volatility=2.194056 

+ ) 

Concise summary of valuation for EuropeanOption 

value delta gamma vega theta 

Ni 0.7839 0.0019 20.7230 -46.1230 

> 


Et une option américaine du même type: 


R [e 
R File Edit 


View Misc Packages Windows Help 


> library (ROuantLib) 
> AmericanOption( 


+ type="call", 

+ underlying = 100, 

+ strike = 100, 

+ dividendYield = 0, 

+ riskFreeRate = 0.03, 

+ maturity = 0.5, 

+ volatility=2.194056 

+) 

Concise summary of valuation for AmericanOption 
value delta gamma vega theta rho 

+ NA NA NA NA NA 

> 


rho divRho 


10.9261 -39.1943 


divRho 
NA 
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Et enfin comparons cela à une option asiatique du même type à l'aide de la fonction 
AsianOption( ): 


R RGui (64-bit) 
OR File Edit View Misc Packages Windows Help |) Ix 


| 
[ 


> library (RQOuantLib) 
> AsianOption( 
+ averageType="arithmetic", 


+ type="call", 
+ underlying = 100, 
+ strike = 100, 
+ dividendYield = O0, 
+ riskFreeRate = 0.03, 
+ maturity = 0.5, 
+ volatility=2.194056 
+ } 
Concise summary of valuation for AsianOption 
value delta gamma vega theta rho divRho 
41.7636 NA NA NA NA NA NA 


> library (ROuantLib) 
> AsianOption( 
+ averageType="geometric", 


+ type="call", 

+ underlying = 100, 

+ strike = 100, 

+ dividendYield = 0, 

+ riskFreeRate = 0.03, 

+ maturity = 0.5, 

+ volatility=2.194056 

+) 

Concise summary of valuation for AsianOption 


value delta gamma vega theta rho divRho 
23.0909 0.4807 0.0035 4.0866 -8.9946 0.4712 -12.0166 
> | 


R Statistical Software 2557/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


VIX (Index de Volatilité) 


Nous avons (non sans mal) démontré dans le cours théorique l'origine d'une des relations 
permettant de calculer le VIX (Variance Inflation Index). 


Voyons comment mettre ce dernier en pratique avec R! 


D'abord voyons comment extraire les valeurs précalculées du VIX du S&P 500: 


r s. 


library("xts") 

library("quantmod") 

# SeP 500 vs VIX 

getSymbols(c(""GSspC",""VIX"),from = as.Date("2017-11-04"), to = as.Date("2018-04-04")) 
1] "GSEC" "VIX" 


df = as.data.frame (merge (GSEC, VIX)) 
d£f <- data.frame(date = row.names(df), df, row.names = NULL) 


plot (dfS$date, df$GSPC.Adjusted) 

lines (df$date, df$GSPC.Adjusted,col="blue") 

par (new = TRUE) 

plot (df$date,df$ViX.Adjusted, type = "l", axes = FALSE, bty = "n", xlab = "", ylab = "") 
lines (df$date, df$VIX.Adjusted,col="red") 

axis(side=4, at pretty(range (dfSVIX.Adjusted))) 

abline (h=20,col "gray60") 

abline (h=30,col "green"“) 


LUE | 
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Maintenant, pour le VIX nous allons installer le package ifrogs qui n'est plus maintenu depuis 
2012 mais qui est disponible en téléchargement en fichier *.zip. Nous avons déjà vu au début 

de livre comment installer des packages dans des fichiers *.zip, donc nous ne reviendrons pas 

sur ce point. 


Donc d'abord nous chargeons le package avec le jeu de données fourni avec: 
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QR File Edit View Misc Packages Windows Help Ex 


SF) Etele] 


| > library(ifrogs) 
> data(vxo_spx) 
> str(vxo spx) 


"data.frame: 8 obs. of 7 variables: 

$ maturity : num 0.0795 0.0795 0.1753 0.1753 0.0795 ... 

$ riskfree : num 0.0012 0.0012 0.0016 0.0016 0.0012 0.0012 0.0016 0.0016 
$ type s che "pp" “ee” "p” "€" 

$ strike : num 1125 1125 1125 1125 1130 ..… 

$ underlying: num 1126 1126 1126 1126 1126 ... 

$ bid : num 23.2 22 37.1 33.8 24.2 17.4 39.2 30.4 

$ ask : num 25.9 23.5 42.3 36.3 268.4 21.3 43.9 35.5 


Comme nous pouvons le constater, c'est un tout petit jeu de données pour pouvoir faire le 
calcul à la main si besoin est (pour comparer avec le cours théorique!). 


Voyons maintenant comment calculer le VXO: 


UR RGui (64-bit) - [R Console] L 


UR File Edit View Misc Packages Windows Help LE | 


> vxo(maturity=vxo spx$maturity, 
+ riskfree=vxo spxS$riskfree, 

+ carry=vxo spx$riskfree, 

+ type=vxo spx$type, 

+ strike=vxo spx$strike, 

+ underlying=vxo spx$underlying, 
+ bid=vxo spxS$bid, 

+ ask=vxo spxS$ask) | 
[11 21:92531 
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Backtesting de stratégies d'investissement 


Backtesting sur modèle avec moyenne mobile (MM20) 


Pour faire du backtesting, R peut aussi nous aider avec des packages déjà tout faits. Voici un 
exemple simple utilisant le package PerformanceAnalytics: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> install.packages ("Performanceänalytics") 

Installing package into ‘C:/Video2Brain/Packages’ 

{as ‘lib’ is unspecified) 

--- SVP sélectionner un miroir CRAN pour cette session --- 

essai de l'URL 'http://cran.rstudio.com/bin/windows/contrib/3.0/Performancednalytics 1.1.0.zip' 
Content type 'application/zip' length 2211493 bytes (2.1 M) 


URL ouverte 
downloaded 2.1 


le package ‘Performanceinalytics’ a été décompressé et les sommes MDS5 ont été vérifiées avec succés 
Les packages binaires téléchargés sont dans 


C:\Users\lsoz Vincent\äppDataiLocal\ Temp\ RtmpmG4Vmk\ downloaded packages 
>| 


Et ensuite, nous lançons un code de backtesting de stratégie (achat lorsque la valeur un peu 
supérieure au SMA20): 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


SI Ta] 


library(Performanceinalytics) 
s <- get (getSymbols('SPY'))["2012::"] 
s$sma20 <- SMA(CLlis) , 20) 
s$position <- ifelse(Clis) > s$sma2O , 1 , -1) 
myReturn <- lagis$position) * dailyReturni(s) 
Message d'avis 
In to period(ixx, period = on.opts[[period]], ...) 
missing values removed from data 
> charts.PerformanceSummary(chind(idailyReturnis) ,myReturn)) 
Message d'avis 
In to period(ixx, period = on.opts[[period]], ...) 
missing values removed from data 
> sum(dailyReturn(s)) 
[1] 0.347643 
Message d'avis 
In to period(ixx, period = on.opts[[period]], 
. values removed from data 
> 


ce qui nous donne: 
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« 
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Figure 324 Graph des retours, retours cumulés et Drawdown 
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Exemples 401.: Analyse et Gestion de portefeuilles 
R 3.0.2 


Nous allons ici pouvoir appliquer ce que nous avons étudié dans le cours théorique et 
comparer les résultats — donc avec les mêmes données brutes — par rapport à l'approche 
approximative que nous avions mis en place avec le solveur du tableur Microsoft Excel. 


QEPM (Quantitative Equity Portfolio Management) 


Bon commençons pas les modèles quantitatifs de gestion de portefeuilles d'actions (equity) 
vraiment les plus triviaux et vérifions au fur et à mesure de notre avancement les résultats 
obtenus de chacun (ça va être long vu la quantité de modèles théoriques et d'indicateurs de 
performances empiriques existants). 


Analyse élémentaire a posteriori de portefeuille (position longue sur 1 période) 


Nous allons commencer très scolairement par charger le package Portfolio et un jeu de 
données par défaut associé: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


library(portfolio) 

data(dow.jan.2005) 

dow.jan.2005<-dow.jan.2005[order (dow.jan.2005$price,decreasing=TRUE),] 

dow.jan.2005 

symbol name price sector cap.bil month.ret 

6134 UTX UNITED TECHNOLOGIES CORP 103.35 Industrials 52.81629 .025634543 
2486 IBM INTL BUSINESS MACHINES CORP 968.58 Technology 164.10583 -052343274 
1119 CAT CATERPILLAR INC 97.51 Industrials 33.273092 .-082198732 
6055 MMM 3M CO 82.07 Industrials 63.689429 -027903010 
294 AIG AMERICAN INTERNATIONAL GROUP 65.67 Financials 171.04218 -009441145 
2657 JNJ JOHNSON £ JOHNSON 63.42 Staples 158.21318 .-020182908 
1214 HO ALTRIA GROUP INC 61.10 Staples 125.412585 .-044680851 
1270 AXP AMERICAN EXPRESS CO 56.37 Financials 70.975495 .-051488427 
5581 PROCTER € GAMBLE CO 55.08 Staples 139.72050 .-029324928 
6225 WAL-MART STORES 52.682 Cyclicals 223.68567 -007951534 
946 BOEING CO 51.77 Industrials 43.46594 .-022599961 
1613 EXXON MOBIL CORP 51.26 Energy 330.69343 .-006632852 
1488 DU PONT (E Ij DE NEMOURS 49.05 Materials 52.986553 -030377166 
1190 CITIGROUP INC 48.18 Financials 250.04230 -018057285 
2378 HOME DEPOT INC 42.74 Cyclicals 93.85512 .-034627983 
1229 COCA-COLA CO 41.64 Staples 100.74532 -003602305 
6186 VERIZON COMMUNICATIONS INC 40. Communications 112.17049 -.112899251 
1958 GENERAL MOTORS CORP 40. Cyclicals 22.62693 -081128308 


« 


Ensuite, nous définissons combien de type d'actions nous voulons dans le portefeuille et 
prenons empiriquement les 6 qui ont la plus grande valeur nominale et calculons la valeur 
globale du portefeuille: 
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RGui {64-bit} - [R Ci 
R Fichier Edition Voir Misc Packages Fenêtres Aide 


> portfolio size=6 
> dow.jan.2005[1:portfolio size,] 

symbol name price sector cap.hbil month.ret 
6134 UTX UNITED TECHNOLOGIES CORP 103.35 Industrials 52.681629 -0.025834543 
2486 IBM INTL BUSINESS MACHINES CORP 98.58 Technology 164.10583 -0.052343274 
1119 CAT CATERPILLAR INC 97.51 Industrials 33.273922 -0.082198732 
6055 HMM 3H CO 82.07 Industrials 63.659429 0.027903010 
294 AIG AMERICAN INTERNATIONAL GROUP 65.67 Financials 171.04218 0.009441145 
2657 JNJ JOHNSON € JOHNSON 63.42 Staples 188.21318 0.020182908 
> sum(dow.jan.2005[1:portfolio size,]$price) 
C1] 510.6 
> | 


Nous construisons ensuite empiriquement un portefeuille avec les actions à poids égal 
(remarquez bien la propriété type= "equal": 


KR Fichier Edition Voir Misc Packages Fenêtres Aide 


> p<-nevw{"portfolioBasic",instant=as.Date("2004-12-31"), 

+ id.var="symbol",size=portfolio size,in.var="price",sides="long", 
+ ret.var="month.ret",type="equal",data=douw.jan.2005) 

> summary(p}) 

Portfolio: Unnamed portfolio 


count weight 
Long: 6 1 


Top/bottom positions by weight: 
id pot 
11IG 16.66667 


CAT 16.66667 
16.66667 
16.66667 
16.66667 
16.66667 


Nous pourrions également tout aussi bêtement choisir des poids proportionnels à la valeur de 
chaque action dans le portefeuille en mettant la propriété type à linear: 
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R Fichier Edition Voir Misc Packages Fenêtres Aide 


> p<-nevw{"portfolioBasic",instant=as.Date("2004-12-31"), 

+ id.var="symbol",size=portfolio size,in.var="price",sides="long", 
+ ret.var="month.ret",type="linear",data=dou.jan.2005) 

> summaryi(p) 

Portfolio: Unnamed portfolio 


count weight 
Long: 6 L 


Top/bottom positions by weight: 

id pot 
UTX 28.571429 

IBM 23.609524 
CAT 19.047619 
MMM 14.285714 
2IG 9.523810 
JNJ 4.761905 


Bref rien d'extraordinaire jusqu'ici... c'est de l'arithmétique élémentaire! Nous poursuivons 
pour des raisons pédagogiques avec le cas des poids égaux! 
Ÿ 
< 


Nous regardons les poids y relatifs regroupés par secteurs d'actions: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> exposure(p,exp.var=ci"price","sector")) 
numeric 

variable exposure 
L price 25; 1 


sector 

variable exposure 
2 Industrials 0.5000000 
1 Financials 0.1666667 
3 Staples 0.1666667 
4 Technology 0.1666667 


> | 


Rien d'extraordinaire mais contrôlons quand même l'exposition du prix: 
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R Fichier Edition Voir Misc Packages Fenêtres Aide 


> exposure(p,exp.var=c{("price","sector")) 
numeric 

variable exposure 
L price 85.1 


sector 

variable exposure 
2 Industrials 0.5000000 
1 Financials 0.1666667 
3 Staples 0.1666667 
4 Technology 0.1666667 


> sum(dow.jan.2005$price[1:portfolio size] *l/portfolio size) 
[1h 85.1 


« 
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R R Console EEE 


+ 


> plot(exposure(p,exp.var=c("price","sector"))) 
> 


ER R Graphics: Device 2 (ACTIVE) 
numeric exposure 
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Figure 325 Graph répartition des poids d'un portefeuille avec exposition 


Ensuite, nous analysons la performance avec la commande performance( ) et vérifions en 
même temps les calculs renvoyés: 
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2. RGui (64-bit) - [R C 
R Fichier Edition Voir Misc Packages Fenétres Aide 


> performance (pl) 
Total return: 


=1.71 % 


Best/lWorst performers: 


id 
CAT 
IBM 
UTX 
AIG 
JNJ 
MMM 

> dow. 
[1] 
C6] 


[1] 
> | 


Affichons ensuite les contributions à la performance avec la commande contribution( ) 


weight 


-.1666667 
-.1666667 
-.1666667 
-.1666667 
-.1666667 
-.1666667 


ret 


.082198732 
.052343274 
.025834543 
.009441145 
-020182908 
-027903010 
jan.2005$month.ret{[l:portfolio size] *1/6 

-0.004305757 -0.008723679 -0.0136997689 0.004650502 
0.0033636818 
> paste(round(100*sumidow.jan.2005$month.ret[1:portfoli 
"1.71 $" 


d'abord trivialement par actions: 


> performance ({p) 


Total return: 


=L1: 71. # 


Best/Worst performers: 


weight 


-1666667 |-0. 
-.1666667 |-0. 
-1666667 |-0. 
.1666667 
-.1666667 
.1666667 


ret 
0821985732 
0523453274 
0258345435 


.-009441145 
-020182908 
.-027905010 


contrib 


-.013699769 
-005723679 
-004305757 
-001573524 
-0033636185 
.-004650502 


.013699789 
.008723879 
.004305757 
.001573524 
.003363818 

NN 0046500502 


Ne” 


Sciences.ch 


0.001573524 


si 


variable 
A11G 
CAT 
IBM 
JNJ 
MMM 
UTX 


Et pour ceux qui aiment avoir le roic (Return On Invested Capital) sous forme de graph 


tornado.….: 


weight 
.1666667 
.1666667 
.1666667 
.1666667 
.1666667 
.1666667 


-001573524 
-013699789 
-0085723879 
-0035363815 
.-004650502 
-004305757 


roic 


.-009441145 
-082198732 
.-052343274 
.-020182908 
-027903010 
.-025834543 
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FR R Console 


EEE 


> pilot (contffibut ion(p,contrib.var=c{("id"))) 
> | 


R R Graphics: Device 2 (ACTIVE) 


roic by id 


Figure 326 Graph Tornado des performances (ROIC) d'un placement d'un portefeuille 


Maintenant observons la contribution à la performance par secteurs: 
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RGui (64-bit) - [F 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> contribution(p,contrib.var=c("sector")) 


sector 


5 
6 
7 
8 
1 


variable 


Communications 
Conglomerates 


Cyclicals 
Energy 
Financials 


weight 
0.0000000 
0.0000000 
0.0000000 
0.0000000 
0.1666667 


contrib 


.- 0000000000 
.- 0000000000 
.- 0000000000 
.- 0000000000 
.001573524 


roic 


.- 0000000000 
. 0000000000 
.- 0000000000 
. 0000000000 
.009441145 


Materials 0.0000000 0O.000000000 0.000000000 

Staples 0.1666667 0.00336361S 0.020152908 
Technology 0.1666667 -0.0085723579 -0.052343274 
Utilities 0.0000000 0O.000000000 O0.000000000 


Et concentrons-nous sur la ligne Technology. La colonne weight est triviale. Retrouvons alors 
la valeur de la colonne contrib. Le secteur /ndustrials est composé des trois actions suivantes: 


NO 


id weight ret contrih 
AT 0.1666667 -0.082198732 -0.013699789 


IEM 0.1666667 -0.052343274 -0.005723879 


2 
3 
6 
1 11G 0.1666667 0.009441145 0.001573524 
4 JNJ 0.1666667 0.020152908 0.003363818 
5 


Si nous faisons la somme de leurs contributions, nous retrouvons la contribution du secteur 
Industrials (logique...). Ensuite, la colonne roic pour l'industrie est simplement sa contribution 
divisée par son poids (donc -0.013355044/0.5). 
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Analyse élémentaire a posteriori de portefeuille (position long-short sur 1 période) 


Pour cet exemple scolaire, nous repartons des mêmes données mais avec un portefeuille long- 
short avec des poids proportionnels au nominal des actions: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


library(portfolio) 
data(dow.jan.2005) 
portfolio size=3 
p<-new{("portfolioBasic",instant=as.Date("2004-12-31"), 
id.var="symbol",size=portfolio size,in.var="price",sides=c("long","short"), 
ret.var="month.ret",type="linear", data=dou.jan.2005) 
surimar y (p) 
Portfolio: Unnamed portfolio 


count weight 
Long: 3 L 
Short: 3 -1 


Top/bottom positions by weight: 

id pot 
UTX 50.00000 

IBM 33.33333 
CAT 16.666677 
SBC -16.66667 
INTC -33.33333 
HPQ -50.00000 


Ensuite, nous regardons aussi l'exposition des différentes stratégies (on laisse le soin à 
l'étudiant de vérifier que les calculs sont justes): 
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ARE RGui (64-bit - [F 
KR Fichier Edition Voir Misc Packages Fenétres Aide 


> exposure(p,exp.var=c{"price","sector")) 
numeric 

variable long short exposure 
1 price 100.7867 -22.57667 6.81 


sector 
variable long short exposure 
1 Industrials 0.6666667 O0.0000000 O0.6666667 
3 Communications 0.0000000 -0.1666667 -0.1666667 
Technology 0.3333333 -0.8333333 -0.5000000 


et pour ceux qui préfèrent avoir cela sous forme graphique: 


Fe 


KR & Console ES EE 


> plot(exposure(p,exp.var=c{i"price","sector"))) 
> 


R R Graphics: Device 2 (ACTIVE) 
numeric exposure 


40 


exposure 


sector exposure 


Industrials 
Communications 


Technology 


0.0 0.2 


exposure 
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Figure 327 Graph répartition des positions short et long d'un portefeuille avec exposition 


Nous pouvons aussi avoir la performance de ce portefeuille long-short: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> performance ip) 
Total return: 1.33 * 


Best/Worst performers: 
id weight ret contrib 


IEM 0.3333333 -0.05234327 -0.01744776 
CAT 0.1666667 -0.08219873 -0.01369979 
UTZ O.S000000 -0.02583454 -0.01291727 
SEC -0.1666667 -0.06617475 0.01102913 
INTC -0.3333333 -0.04018611 0.01339604 
HPQ -0.S5000000 -0.06560830 0.03290415 


et la contribution à la performance par secteur: 


RGui (64-bit} - [R 
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> contribution(p,contrib.var="sector") 
sector 

variable weight contrib 
Communications 0.08333333 -01102913 
Conglomerates 0.00000000 .- 00000000 
Cyclicals 0.00000000 . 00000000 
Energy 0.00000000 .00000000 
Financials 0.00000000 . 00000000 
Industrials 0.33333333 .02661706 
Materials 0.00000000 .00000000 
Staples 0.00000000 .00000000 
Technology 
Utilities 


1 
4 
5 
6 
7 
2 
8 
9 
3 


0000000000 


et nous pouvons aussi représenter cela sous forme graphique: 


-58333333 0.02865243 O0. 
-00000000 0.00000000 O0. 


roic 


-.13234956 
. 00000000 
. 00000000 
. 00000000 
. 00000000 
.07985118 
. 00000000 
. 00000000 


04946131 
00000000 
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R R Console Ss|S|x] 


> plot (contribution{(p,contrib.var=c("sector"))) 
> | 


roic by sector 


Communications 
Conglomerates 
Cyclicals 

Energy 
Financials 
Industrials 
Materials 
Staples 
Technology 


Utilities 
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Analyse de Brinson d'un portefeuille 


Nous allons 1ic1 utiliser le package pa (portfolio analysis) pour faire une analyse empirique 
selon le modèle de Brinson d'un portefeuille. Comme il s'agit d'arithmétique élémentaire, nous 
n'avons pas étudié ce modèle dans le cours théorique et donc nous allons en présenter le 
principe (ultra simpliste) 1c1. 


Considérons un gestionnaire de portefeuille d'actions qui utilise le S&P 500 comme indice de 
référence. Un mois donné, il surperforme le S&P 500 de 3% (le "rendement actif” pour rappel 
qui est la différence entre le rendement du portefeuille et l'indice). Une partie de cette 
performance s'explique par le fait qu'il a alloué plus de poids du portefeuille à certains 
secteurs qui ont bien performé. Appelez cet effet: "l'effet d'allocation". Une partie de sa 
surperformance s'explique par le fait que certains des stocks sélectionnés dans un secteur fait 
mieux que le même secteur dans l'indice. Appelez cet effet: "l'effet de sélection". Le résidu (la 
différence de performance entre le rendement actif et les deux effets) peut alors être attribué à 
une interaction entre répartition et la sélection: "l'effet d'interaction". 


Le modèle de Brinson fournit des définitions mathématiques et des méthodes pour calculer 
ces différents éléments. 


Remarque: L'exemple ci-dessus utilise le concept de variable "secteur" comme système de 
classification lors du calcul de l'effet d'allocation. Mais la même approche peut fonctionner 
avec toute autre variable qui place chaque titre dans une seule catégorie distincte : pays, 
industrie et ainsi de suit. En réalité, une approche similaire de classification peut se faire sur 
la base de variables continues de classification qui sont répartis en gammes distinctes: le 
quartile supérieur de la capitalisation boursière, le-quartile le plus élevé et ainsi de suite. 
Pour généraliser, nous allons utiliser le terme catégorie" pour décrire tout schéma de 
classification qui range un actif dans une et une seule unique catégorie. 


Notations utilisées pour la suite: 


 : 


actif 


= R, — R, différence entre rendement du portefeuille dynamique et de l'indice 
e W? est le poids de chaque actif i dans le benchmark (la somme étant égale à 1) 

e We est le poids de chaque actif à dans le portefeuille (la somme étant égale à 1) 

e WŸ est le poids de chaque catégorie j dans le benchmark: 


WŸ = 2 ie j (la somme des WŸ étant égale à 1) 
e W? est le poids de chaque catégorie j dans le portefeuille dynamique: 


W} =ÿ wie j (la somme des W}° étant égale à 1) 


e _; est le rendement de l'actif à 


e a est le rendement de la catégorie j dans le benchmark: R? = Du rie j 


i ‘i? 


e R; est le rendement de la catégorie j dans le portefeuille dynamique: 


P Ps uS 
R; => wriel 
i 
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e Le rendement du portefeuille actif peut évidemment être calculé de deux manières 
différentes: 


n N 
: P, P pP 
RR=>wr=>W;R; 
i=1 j=1 
e Le rendement de l'indice peut évidemment être calculé de deux manières différentes: 


. B ë B pB 
Ry => vw 6 = >Ww; R; 
i=1 j=1 


Comme les poids des catégories du portefeuille dynamique sont généralement différents de 
l'indice (portefeuille dit "benchmark" pour rappel!), l'allocation joue un rôle dans le 
rendement actif comme nous l'avons déjà mentionné. La même règle au niveau de la sélection 
des actifs dans une catégorie. 


Donc l'intuition derrière l'allocation c'est d'écrire: 


Rise = ® (w’ n Wÿ )r; 


j= 


sun 


où la multiplication par R} se justifie par le fait qu'indirectement nous supposons que dans 


l'allocation que c'est uniquement le poids des catégories qui joue un rôle et non la sélection 
des actifs dans chacune des catégories (donc le poids des actifs pour chaque catégorie est 
supposé alors comme étant le même pour chaque portefeuille), raison pour laquelle pour 
chacun des portefeuilles et pour une catégorie donnée, le rendement est alors supposé le 
même et le rendement de référence est celui Le Kidice! 


L'intuition derrière la sélection c'est d'écrire: 


sélection 


dE 


(r? _ R; LA 


ss 
Il 
LR 


et là l'idée est similaire à celle du dessus à la différence que ce qui nous intéresse c'est pour un 
poids de catégorie (en prenant celui de l'indice comme référence) d'analyser comment la 
sélection des actifs à l'intérieur de celle-ci influence le rendement et donc in extenso c'est le 
rendement de la catégorie qui va différer entre les deux portefeuilles. 


Le rendement d'interaction se définit alors comme étant la part inexpliquée tel que: 


R R 


interaction actif 


R 


allocation 


— R 


selection 
parfois notée: 

Risteraction = Ractiy — AE — SSE 
où "AE" signifie "Allocation Effect" et SSE "Security-selection effect". 
Faisons un exemple: 


D'abord nous chargeons donc le package pa et le montrons une partie du jeu jan (qui signifie 
“Janvier") 
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> library(pa) 
> data{(jan) 
> head{(jan) 
barrid return date sector momentum 
43581 USA1Q0GY1 TRANSOCEAN LTD 0.02343 2010-01-01 Energy -0.052 
25345 NORAWZ1 SEADRILL -0.07905 2010-01-01 Energy 1.757 
25441 NORWAA1 SEADRILL (GER-LISTING) -0.08667 2010-01-01 Energy 1757 
45326 USAVSC1 DIAMOND OFFSHORE DRILLING INC -0.07001 2010-01-01 Energy 0.382 
46015 USAWY11 NATIONAL OILWELL VARCO INC -0.07235 2010-01-01 Energy 0.629 
7550 CHNCCDZ2 CHINA OILFIELD SERVICES-A -0.08118 2010-01-01 Energy -1.100 
growth cap.usd yield country currency portfolio benchmark 
43581 0.972 27206115960 0.000 USA USAC 0.0012587038 
25345 1.233 9230745025 2.162 NOR NORC 0.0004270648 
1.233 9120504511 2.162 NOR NORC 0.0004219644 
1.105 12723036120 0.546 USA USAC 0.0005886373 
1.317 17104339100 0.978 USA USAC 0.0007913403 
-0.873 6476832062 0.937 CHN CHNC 0.0002997462 


Ensuite, nous utilisons la fonction brinson( ) pour obtenir un résumé de ce dont nous avons 
parlé: 
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AIRGU (40 D 
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> summary(brinson(x=jan,date.var="date",cat.var="sector",bench.weight="benchmark", 
+ portfolio.wveight="portfolio",ret.var = "return'")) 

Period: 2010-01-01 

Methodology: Brinson 

Securities in the portfolio: 200 

Securities in the benchmark: 1000 


Exposures 

Portfolio Benchmark 
Energy 0.085 0.2782 
Materials 0.070 -0277 
Industrials .045 .-0330 
ConDiscre .050 .-0188 
ConStaples -030 -0145 
HealthCare «015 .0608 
Financials .370 -2979 
InfoTech .005 .-0129 
TeleSvcs .300 -.1921 
Utilities -030 .-0640 


O0O0000000 
©:60:06 6: 6 6 6 0:06 


Returns 
$‘Aättribution by category in bps° 

Allocation Selection Interaction 
Energy 110.934 -37.52 26.059 
Materials -41.534 0.48 0.734 
Industrials 0.361 1.30 0.473 
ConDiscre —-25.688 -4.23 -7.044 
ConStaples 5.467 -3.59 -3.673 
HealthCare —-6.692 -4.07 3.063 
Financials -43.998 70.13 16.988 
InfoTech -3.255 -5.32 3.255 
TeleSves -23.106 21:55 23.348 
Utilities 16.544 83.03 -44.108 
Total -13.966 141.77 19.095 


$igaregate 

2010-01-01 
Allocation Effect -0.00140 
Selection Effect 0.014185 
Interaction Effect 0.00191 
ictive Return 0.01469 


> | 


On peut extraire seulement une partie du rapport ci-dessus (sachant que le créateur du 
package pa a surchargé la commande summary( ) et donc que cette dernière ne renvoie pas 
un objet "habituel".….): 


R Statistical Software 2577/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


R RGui - Microsoft R Open version 3.5 (64-bit) - [R Console] — O X 
R File Edit View Misc Packages Windows Help 


EEE) 


> returns(brinson(x=jan,date.var="date" ,cat.var="sector" ,bench.weight="benchmark", 
+ portfolio.weight="portfolio",ret.var="return"))$Aggregate 


2010-01-01 
Allocation Effect -0.00140 
Selection Effect 0.01418 
Interaction Effect 0.00191 
Active Return 0.01469 


> | 


Il est aussi possible de faire un graphique de la situation: 


LS J 


R R Console sex] 


> plot (brinson(x=jan,date.var="date",cat.var="sector",bench.weight="benchmark", 
+ portfolio.weight="portfolio",ret.var = "return'"),var="sector",type="return") 
> | 


Return -- Portfolio vs. Benchmark 
Energy - 
Materials - 
Industrials — 


ConDiscre - 


Type 


© ConStaples - 
£ Benchmark 
OU) HealthCare - Portfolio 


Financials - 


InfoTech - 
TeleSvcs - 


Utilities — 


-0.10 -0.05 0.00 0.05 


Return 


Figure 328 Graph Tornado des performances portefeuille vs benchmark 
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Modèles de portefeuilles de Markowitz et autres 


Nous allons voir dans ce qui va suivre, 6 familles (modèles) types de portefeuilles d'actifs 


classiques parmi la petit vingtaine qui existe dans la pratique. 


D'abord nous chargeons le package fPortfolio et nous construisons le même petit portefeuille 
de 3 actifs comme nous l'avons fait avec Microsoft Excel et ce exactement avec les mêmes 
données: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


library(fPortfolio) 
Ti<-ci-0.15,0.05,-0.43,0.79,0.32) 
T2<-c(0.29,0.18,0.24,0.25,0.17) 
T3<-c(0.38,0.63,0.46,0.36,-0.57) 
rendements<-chind(iTi,T2,T3) 
rendements<-as.timeSeries (rendements) 
rendements 


[1] 


BE 


Ensuite, avec la commande covEstimator( ) du package fPortfolio, nous vérifions que nous 
retrouvons les valeurs calculées à main pour les moyennes et la matrice des variances- 
covariances (nous voyons que tout est OK!!!): 


R ! 
R File 


EL 


> 


T1 
0.116 0.226 0.252 


Edit 


SSigma 


View 


T2 


FL 
0.217280 -0.004220 -0.066865 
T2 -0.004220 
T3 -0.066865 


Misc Packages Windows Help 


T3 


T2 ES 


0.002530 0.010585 
0.010585 0.222470 


> covEstimator (rendements) #fet on voit que tout est ok 
€ 
mu 


R Statistical Software 


2579/3133 


Vincent ISOZ, Daname KOLANI 


Sciences.ch 


Ensuite, nous allons spécifier quelques contraintes à notre portefeuille avec la commande 
portfolioSpec( ) . Voyons ce qu'il est possible de spécifier: 


FR Fichier Edition Voir Misc Packages Fenêtres Aide 


> portfolioSpec() 


Model List: 
Type: 
Optimize: 
Estimator: 
Tail Risk: 
Parames: 


Portfolio List: 
Target Weights: 
Target Return: 
Target Risk: 
Risk-Free Rate: 


Number of Frontier Points: 


Status: 


Optim List: 
Solver: 
Chjective: 
Options: 
Control: 
Trace: 


Message List: 
List: 
> 


4 


My 

minRisk 
covEstimator 
list () 

alpha = O0. 


solveRquadprog 
list() 

meqg = 2 

list) 

FALSE 


Nous prendrons les contraintes suivantes en utilisant les commandes setNFrontierPoints() , 


setRiskFreeRate() et setWeights( ) : 
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covSpec<-portfoliospec() 
setlWeights(covSpec)<-c(1/3,1/3,1/3) #poids initial 
setNFrontierPoints{(covSpec)<-10 

setRiskFreeRate (covSpec)<-22 

covspec 


Model List: 

Type: My 

Optimize: minRisk 
Estimator: covEstimator 
Tail Risk: list() 
Params: alpha = 0.05 


Portfolio List: 
Portfolio Weights: 0.3333333 0.3333333 0.3333333 
Target Return: 


Target Risk: 

Risk-Free Rate: 

Number of Frontier Points: 
Status: 


Optim List: 

Solver: solveRquadprog 
Chbjective: list () 
Options: meg = 2 
Control: list () 

Trace: FALSE 


Message List: 


Une fois ces premières contraintes définies, nous allons spécifier déjà pour la suite si nous 
voulons une stratégie Long (LongOnly), Short (Short) ou mixe (en spécifiant les vecteurs 
comme ci-dessous): 


MR RGui (64-bit) - [R Console] — X 


ŒR File Edit View Misc Packages Windows Help -_ Ex 


> constraints <- c("minW[1:3] = -1", "“maxW[1:3] = 1") 

> #ou: constraints<-"Short" 

> #ou: constraints<-"LongOnly" 

> #ou: constraints <- c("minW{1:3] = c(-1,-1,-1)", "maxW{[1:3] = c(1,1,1)") 


> | 


Ensuite, avec la commande portfolioConstraints( ) : 
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> portfolioConstraints (rendements, covSpec, constraints) 


Title: 
Portfolio Constraints 


Lower/Upper Bounds: 
T1 T2 T3 
Lower -1 -1 -1 


Upper 1 1 1 


Equal Matrix Constraints: 

ce Ti Ta T3 
Return Ni 0.116 0.226 0.252 
“TE -1 -1.000 -1.000 -1.000 
> 


Jusque là tout est toujours conforme à ce que nous avons fait dans le cours théorique! Nous 
poursuivons donc! 
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Portefeuille tangentiel (maximisation ratio de Sharpe) 


Nous utilisons 


maintenant la commande tangencyPortfolio() du package fPortfolio pour 


avoir un résumé du portefeuille efficient qui utilise implicitement la maximisation du ratio de 


Sharpe: 


- 


R R Console 


> tangencyPortfolio(rendements, covSpec, constraints) 


Title: 

MY Tangency Portfolio 

Estimator: covEstimator 
Solver: solveRquadprog 
Optimize: minRisk 
Constraints: mini maxi 


Portfolio Weights: 
Ti T2 
1.0000 -0.0018 


T3 
0.001868 


Covariance Risk 
Ti Ta 
1.0005 0.0000 


Budgets: 
T3 
-0.0006 


Target Return and Risks: 
mean mu Cov Sicma CVaR VaR 
0.1160 0.1160 0.4659 0.4659 0.4296 0.4296 


Description: 
Sun Feb 23 12:25:24 2014 by user: 
> | 


Isoz Vincent 


Comme nous pouvons le voir ce n'est pas le même résultat que celui obtenu dans le cours 


théorique avec 


les algorithmes évolutionnaires où nous avions trouvé un portefeuille qui 


performait 100% plus. Il faut savoir que les auteurs de package fPortfolio ne garantissent en 
aucun cas l'efficacité de leur solution! 
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Portefeuille efficient (rendement portefeuille fixé) 


Dans le cours théorique nous nous étions fixés un rendement précis à atteindre qui était de 
20%. Pour trouver les poids actifs permettant d'atteindre cet objectif, nous utiliserons la 
commande efficientPortfolio() du package fPortfolio: 


covSpec<-portfolioSpec() 
setWeights(covSpec)<-c(1/3,1/3,1/3) #poids initial 
setNFrontierPoints (covSpec)<-10 

setRiskFreeRate (covSpec)<-22 
setTargetReturn(icovSpec)<-0.20 
efficientPortfolio(rendements,cov$pec,constraints) 


VVNNNNYV 


Title: 
MV Efficient Portfolio 
Estimator: covEstimator 
Solver: solveRquadprog 
Optimize: minRisk 
Constraints: minW maxW 


Portfolio Weights: 
T1 T2 T3 
0.2331 0.7805 -0.0137 


Covariance Risk Budgets: 
T1 T2 T3 
0.9335 0.0548 0.0117 


Target Returns and Risks: 
mean Cov CVaR Var 
0.2000 0.1098 -0.0808 -0.0808 


Description: 
Sun Feb 23 12:49:28 2014 by user: Isoz Vincent 
> | 


Comme nous pouvons le voir, les résultats des poids est proche des calculs effectués à la main 
dans le cours théorique mais pas identique. 


Refaisons l'exemple cela avec un package plus fondamental qu'est quadprog (programmation 
quadratique). Nous préparons d'abord la donnée de base: 
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ŒR File Edit View Misc Packages Windows Help - 


EC) 


> Tl<-c(-0.15,0.05,-0.43,0.79,0.32) 
> T2<-c(0.29,0.18,0.24,0.25,0.17) 
> T3<-c(0.38,0.63,0.46,0.36,-0.57) 
à 
> moyenne, écart-type, corrélation 
> (rendements<-chind(Tl,T2,T3)) 
T1 T2 T3 
[1,] -0.15 0.29 0.38 
[2,1] 0.05 0.18 0.63 
[3,1] -0.43 0.24 0.46 
[4,] 0.79 0.25 0.36 


[5,1] 0.32 0.17 -0.57 
> (mu<-colMeans (rendements) ) 
T1 T2 T3 
0.116 0.226 0.252 
> (sd<-apply(rendements,2,sd)) 
EL T2 T3 

0.46613303 0.05029911 0.47166726 
> (corr<-cor (rendements) ) 

T1 E2 T3 
T1 1.0000000 -0.1799875 -0.3041258 
T2 -0.1799875 1.0000000 0.4461644 
T3 -0.3041258 0.4461644 1.0000000 
> 
> #nombre d'actifs 
> (n<-length(mu)) 
ELT :3 
>, 
> fconversion matrixe corrélation en matrice covariance 
> (cov <- diag(sd)$5*$corr$“$diag(sd)) 

[,1] [,2] [,3] 
[1,] 0.217280 -0.004220 -0.066865 
[2,1] -0.004220 0.002530 0.010585 
ie —-0.066865 0.010585 0.222470 
>» 


Et nous utilisons la fameuse fonction solve.QP( ) de quadprog: 
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€ RGui (64-bit) - [R Console] 


UR File Edit View Misc Packages Windows Help 
ele) 


frendement espéré 
Er = 0.2 


library("quadprog") 
nss = © #on posera égal à 1 si le short-selling est interdit 
(Bmat = matrix(0O,n,n)) 
[,1] [,2] [,3] 
RS (e) (e) (e 
[2,1 [e) (e) (e] 
[3,] 9) ) 
> (diag(Bmat) = 1) 
ES 
> Bmat 
[,1] [,2] [,3] 
[1,] 1 
[2,1] 9) 
[3,1] 0 
> (Amat = matrix(c(mu,l,1l,1l),n,2)) 
[,1] [,2] 
[1,] 0.116 1 
[2,1 0.226 1 
[3,1 0:252 vi 
if (nss=—=1) { Amat = matrix(c(Amat,Bmat),n,2+n) } 
dvec matrix(O,n,1) 
bvec matrix(c(Er,1l),2,1) 
if (nss==1) { bvec = t(c(bvec,matrix(0,3,1))) } 
sol = solve.QP(cov ,dvec,Amat,bvec,meqg=2) 
print (solS$solution) 
$\ 0.23313686 0.78051489 -0.01365175 
> 


> 
> 
> 
> 
> 
> 


G 
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° RGui (64-bit) - [R Console] — OI X 


R File Edit View Misc Packages Windows Help ALE: 


> #rendement espéré 

> Er = 0.2 

> 

> library("quadprog") 

> nss = 0 #on posera égal à L1 si le short-selling est interdit 

> (Bmat = matrix(0,n,n)) 
[,1] [,2] [,3] 

11:1 (e (e) (e 

[2,1] (e (e (e 

[3,1] (e (e) (e 

> (diag(Bmat) = 1) 

[1] 1 

> Bmat 
[,1] [,2]1 [,3] 

[1,] 1 (e (e 

[2,1] (e £ (e 

[3,1] (e (e 1 


> (Amat = matrix(c(mu,l,1l,1l),n,2)) 
[,1] [,2] 
[1,] 0.116 1 
[2,1] 0.226 1 
[3,] 0.252 1 
> 1£ (nss==1l) { Amat = matrix(c(Amat,Bmat),n,2+n) } 
> dvec = matrix(0,n,1l) 
> bvec matrix(c(Er,1l),2,1) 
> if (nss==1l) { bvec = t(c(bvec,matrix(0,3,1))) } 
> 
> 
[ 


s01 = solve.QP(cov ,dvec,Amat,bvec,meq=2) 
print (sol$solution) 
1] 0.23313686 0.78051489S -0.01365175 


Û 


Nous retrouvons donc bien le résultat de la méthode précédente mais aussi pour le coup avec 
les mêmes différences qu'avec l'exemple fait dans le cours théorique avec Microsoft Excel! 
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Portefeuille de variance minimale (MV) 


Là encore nous allons vérifier si nous obtenons les mêmes poids que les calculs effectués dans 
le cours théorique. Nous utilisons la commande minvariancePortfolio() du package 
fPortfolio (cette dernière fonction ignore au besoin automatique le rendement cible que nous 
avions défini juste plus haut!): 


covSpec<-portfoliospec() 

setWeights (covSpec)<-c(1/3,1/3,1/3) #poids initial 
setNFrontierPoints(covSpec)<-10 
minvariancePortfolioirendements,covSspec,constraints) 


Title: 

MY Minimum Variance Portfolio 
Estimator: covEstimator 
Solver: solveRquadprog 
Optimize: minRisk 
Constraints: mini max 


Portfolio Weights: 
TL T2 T3 
0.0258 1.0000 -0.0258 


Covariance Risk Budgets: 
Ti T2 T3 
0.0374 1.0000 -0.0374 


Target Return and Risks: 
mean mu Cov Sicra CYaR Vak 
0.2225 0.2225 0.0463 0.0463 -0.1650 -0.1650 


Description: 
Sun Feb 23 12:58:39 2014 by user: Isoz Vincent 
“| 


Nous retrouvons donc exactement les mêmes poids que ceux calculés dans le cours théorique! 
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Portefeuille de Michaud 


Comme nous l'avons vu dans le cours théorique, le but du portefeuille de Michaud est de 
rééchantilloner le portefeuille pour contrecarrer le fait que travailler avec des estimateurs 
ponctuels de la moyenne des rendements et de la matrice des covariances peut être peu 
réaliste dans certaines situations. 


Nous avons vu dans le support de cours MATLAB comment implémenter ce modèle, nous 
allons refaire ici de même en reprenant la magnifique code de Sang-Heon Lee mis à 
dispostion à l'origine ici: 


https://kiandlee.blogspot.com/2021/05/markowitz-vs-michaud-portfolio.html 


Et nous allons dans un premier temps faire comme il l'a fournit: avec les données du livre de 
Michaud et Michaud (2007), et seulement ensuite nous ferons le cas avec les mêmes données 
que dans le cours MATLAB (du moins quand nous aurons le temps de le rédiger). 


Nous préparons d'above l'environnement et chargeons les libraries ad hoc: 


R 
R File Edit View Misc Packages Windows Help 


Financial Econometrics & Derivatives, ML/DL using R, Python, Tensorflow 
by Sang-Heon Lee | 


He He te 


https://kiandlee.blogspot.com 


Resampled Portfolio Optimization 


> 
> 
> 
> 
> 
as 
> 
> 


5 
* 
5 
= 
* 
5 
5 
5 
* 
5 


Reference 


VV OV 


Estimation Error and Portfolio Optimization:A Resampling Solution 
- Richard Michaud and Robert Michaud 


V 


https://www.newfrontieradvisors.com/media/1138/estimation-error 
-and-portfolio-optimization-12-05.pdf 

#R version 4.0.3 (2020-10-10) E 
#quadprogXT version 0.0.5 

#MASS (built-in) version 7.3-53 


VUNNNVNNNNVNU NV 


graphics.off() +# clear all graphs 
rm(list = 1ls()) # remove all variables from your workspace 


library("quadprogXT") # solveQPXT 
library("MASS") # mvrnorm 


VUYUNNVV 


On charge les données et on prépare les vecteurs nécessaires pour la suite: 
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MR EGui (64-bi) - [R Conso] — = 
R Fi- Et View Mis Packages Winduws Help EE 
ÉROISÉEIEIE 
> # 
> # Michaud dataset 
D 
> 
> 
> + This detaset exists in appendix of Michaud and Michaud (2007) 
> df,data <-— read.csv('=:/tmp/mu sd ccrr micnaud.csv') 
> head(df.data) 
er sd BOL NE AZ9 TISV DGX SY%K STZ TIF SVU MIL LEN PAYX RHI NT2AP LH R FDO MKC XIO 
1 0.133 0.369 1.C0 0.00 0.08 9.17 0,06 C.23 0.04 D.21 0.25 C.12 0.03 0.07 0.13 0.C8 0.08 0.22 9.17 0,15 C.c0 
2 0.244 0.467 0.CO 1.00 0.0B 9.21 0,03 C.21 0.05 D.25 -0.09 C.25 0.27 0.15 0.07 0.47 0.21 0.14 9.21 0,06 C.43 
3 0.199 0.330 0.C8 0.08 1.00 9.10 0,00 C.27 0.09 D.23 0.32 C.14 0.34 0.08 0.03 0.C6 0.03 0.19 9.35 0,14 C.CS 
4 0.207 0.317 0.17 0.21 0.10 1.00 0.09 C.29 -0.05 0.35 0.35 -C.C1 0.24 0.26 0,23 0.11 0.02 0.24 9.13 0,13 C.C1 
5 0.363 0.490 0.C6 0.03 0.00 9.099 1.00 C.C4 0.59 D.04 G.i0 C.C6 -0.01 0.15 0.99 G.CO 0.71 0.02 9.03 0,05 C.39 
6 0.258 0.335 0.23 0.21 0.27 9.29 0,06 1.C0 0.00 D.15 0.26 C.20 0.28 D.13 0.09 0.C0O 0.08 0.12 9.27 0,19 C.15 
ABC 
1 0.24 
2 -0.03 
3 0:22 
4 U.17 
5 U.22 
6 0.13 
> 
> + meau, sLU, vurselaliuu 


v 


(me <— as.vectoz (1£.dataf[,1])) 
[1] 0.135 0,244 0.199 0.207 9.969 0.250 C.324 0.239 0,172 0.113 0.920 D.1S3 0.199 0.252 0.970 0.191 0,212 O.1S9 
[15] 0.475 0,211 
> (sa < as.vector (if.dataf,2j)) 
[1] 0.369 0,467 0.330 0.317 9.490 0.33E C.542 9.416 0,299 0.382 0.386 D.323 0.403 0.794 0.560 0.293 0,313 0.163 
[19] 0.584 0.329 


> | 


Et: 
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M RGui (64-br) - [R Conso] ” Es 


R Fi- Et View Mis Packages Winduws Help EP 
22/8) el8ls)l@||é) | 
> (corz “<— as.nmatrix(if.dataf,-c(1,2)j)) 


BOL NE AZC FISV DGX SYX £TZ TIF SVU MIL LEN PAYX 
[1,1] 1.00 0.00 0.08 0.17 0.06 0.23 O.04 G.21 0.25 0.12 C.03 0.07 
[2,1 0-00 1-00 0.08 O.21 0.03 0.21 O.05 0.25 -0.04 0.25 C.27 O.15 
[3,1 0-08 Q.08 1-00 0-10 0.00 0.27 0.09 0.23 0.32 0.14 6.34 0.08 
[4,1 0.17 0.21 0.10 1.00 9.09 0.29 -0.05 0.35 0.35 -0.01 C.24 0.26 


É 


NTAE LH R FDCO MKC 
«13 0:08 0.08 0.22 0.17 O.1S 
-07 0.47 O.21 0.14 O.21 O.0€ 
-03 0.06 0.03 0.19 0.35 0.14 
«23 0.11 0.02 0.24 0,13 0.13 


9000000200 
© 
w 


15,1 9.06 0.03 0.00 O.09 1.00 O0,0£ 0.59 O.D4 9.10 6.06 -C.01 0.15 0.0C 0.71 0.02 0.03 O.0S 
16,1 9.23 0.21 0.27 0.29 9.04 1.00 0.00 0.15 9.26 0.20 C.28 0.13 «09 0.0C 0.08 0.12 0.27 O.1S 
[7,] 0.04 0.05 0.09 -0.05 9.59 0.00 1.00 O.D3 D.21 -0.01 C.01 O.11 -0.04 -0.07 0.48 0.09 0.24 O.1€ 
[8,] 0.21 6.25 0.23 0.35 90.04 0,15 0.03 1.00 9.20 0.21 C.30 0.25 «22 (0.41 -0.03 0.33 0.25 0.14 
[3,1] 9.25 -0.09 0.32 0.35 9.10 0,26 O.21 0.20 1.00 0.13 C.24 0.29 0.32 O.0C O.18 0.24 0,33 0.34 
[10,] 0.12 0.25 0.14 -0.01 0.06 0,20 -0.01 O.21 9.13 1.00 C.07 -0.11 O.13 O.31 O.09 0.06 -0.01 -0.01 
[11,] 9.03 0.27 0.34 0.24 -9.01 0.28 O.01 0.30 9.24 0.07 1.00 0.24 O.08 0.18 0.03 0.19 0.46 0.25 
[12,] 0.07 0.15 0.08 0.26 9.15 0,13 O.11 G.25 0.29 -0.11 C.24 1.00 O.2$ O0.3£ O.12 0.12 0,34 O.1€8 
[13,] 9.13 0.07 0.03 0.23 9.09 0.09 -0.04 0.22 9.32 0.13 C.09 0.29 1.00 0.28 -0.02 0.29 0.09 O.02 
[14,] 9.08 0.47 0.06 O.11 9.00 0.00 -0.07 0.41 9.00 0.31 C.18 0.35 0.28 1.0C O.01 0.07 0.12 -0.0S 
[15,] 0.08 0.21 0.03 0.02 9.71 0.0€ 0.48 -0.D3 9.18 0.09 C.03 0.12 -0.02 0.01 1.00 0.06 0.09 0.08 
[16,] 9.22 0.14 0.19 0.24 9.02 0,12 0.09 0.33 9.24 0.06 C.19 O.12 0.29 0.07 0.06 1.00 0.29 O.12 
[17,] 9.17 0.21 0.35 0.13 9.03 0,27 0.24 0.25 0.33 -0.01 C.46 0.34 0,09 O.12 O.09 0.29 1,00 0.34 
118,1 J.15 U.U6 0.14 U.13 U.US 0,1% U.1e6 U.14 U.34 -U.UL C.Z9 U.15 U.UZ -U.US U.UY 0.12 U,34 L.UU 
L19,J U.UU U.€5 U.US U.UL 1.39 U,15 U.358 U.i1 U.U4 U.14 L.ile U.15 -U.i1U U.12 U.41 U.UY U,24 U.2£ 
[20,] 9.24 -0.0S 0.12 0.17 9.22 0.13 0.09 -0.08 9.21 0.03 C.24 O.02 O.18 -0.0S O.19 0.05 0.13 -0.02 


XTO ABC 
[1,] 0.00 0.24 
[2,1] 0.43 -0.02 
[3,1 0,05 0.12 
[1,1] O,01 0.17 
[5,1] 0.39 O.22 
[6,1] 0.15 0.13 
[7,1 0.38 o.0c 
[R,) 0:11 -0.08 
[9,] 0.04 n.21 

[10,1 O.14 0.03 

11,1 0,16 O.24 

F12,1 CO.1# -0:02 

[13,] -0,10 O.18 

[14,] 0.12 -0.0€ 

[15,] 0.41 O.1S 

[16,] 0.00 0.08 

[17,1] O.24 O.13 

[18,] 0.29 -0.02 

[13,] 1.00 0.03 

[20,1] 0,03 1.00 
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R RGui (64-bit) - [R Console] — X 


ŒR File Edit View Misc Packages Windows Help ei 


[> # number of asset 

> (nvar <- length(mu)) 

[1] 20 

> (var.name <- colnames(df.data{,-c{(1,2)])) 
[1] "BOL" "NE" "AZO" "EISV® "DGX" °SYK®" "STZ" "TIF" "SYU" "MIL" FLEN “PAYX* "RHI® NTAP® "LH" 
[16] "R" 9FDO" "MKC*" XTO" "ABC" 

” 

> # convert correlation to covariance matrix 

> (cov <- diag(sd)$*%corr$*$diag(sd)) 

| [1] [2] [3] [,4] [,5] [,6] [7] [,8] [,9] 


[1,] 0.13616100 0.00000000 0.0097416 0.01988541 0.0108486 0.02843145 0.00799992 0.03223584 0.02758275 
[2,] 0.00000000 0.21808900 0.0123288 O0.03108819 O0.0068649 0.03285345 0.01265570 0.04856800 -0.01256697 
[3,1] 0.00974160 0.01232880 0.1089000 O0.01046100 0.0000000 0.02984850 0.01609740 0.03157440 0.03157440 
| [4,1 0.01988541 0.0310881S 0.0104610 0.10048900 0.0139797 0.03079655 -0.00859070 0.04615520 0.03317405 
[5,] 0.01084860 0.00686490 0.0000000 0.01397970 0.2401000 0.00656600 0.15669220 0.00815360 0.01465100 
| [6,1] 0.02843145 0.03285345 0.0298485 0.03079655 0.0065660 0.11222500 0.00000000 O.02090400 0.02604290 
[7,] 0.00799992 0.01265570 0.0160974 -0.00859070 0.1566922 0.00000000 0.29376400 0.00676416 0.03403218 
| [8,1 0.03223584 0.04856800 0.0315744 0.04615520 0.0081536 0.02090400 O0.00676416 0.17305600 0.02487680 
| [9,] 0.02758275 -0.01256697 0.0315744 0.03317405 0.0146510 0.02604290 0.03403218 O0.02487680 0.08940100 
[10,] 0.01691496 0.04459850 0.0176484 -0.00121094 0.0112308 0.02559400 -0.00207044 0.03337152 0.01484834 
[11,] 0.00427302 0.04867074 0.0433092 0.02936688 -0.0018914 0.03620680 O0.00209212 0.04817280 0.02769936 
[12,] 0.00834309 0.02262615 0.0085272 0.02662166 0.0237405 0.01406665 0.01925726 0.03359200 0.02800733 
[113,] 0.01933191 0.01317407 0.0039897 0.02938273 0.0177723 0.01215045 -0.00873704 O0.03688256 0.03855904 
[14,] 0.02343888 0.17427506 0.0157212 0.02768678 0.0000000 O.00000000 -0.03012436 0.13542464 0.00000000 
| [15,] 0.01653120 0.05491920 0.0055440 0.00355040 0.1948240 0.01500800 0.14568960 -0.00698880 0.03013920 
[116,] 0.02378574 0.01915634 0.0183711 0.02229144 O.0028714 0.01177860 0.01429254 0.04022304 0.02102568 
[117,] 0.01963449 0.03069591 0.0361515 0.01289873 O.0046011 0.02831085 0.04071504 0.03255200 0.03088371 
[118,] 0.01068255 0.00540786 0.0089166 0.00795353 0.0047285 0.01228445 0.01673696 0.01124032 0.01962038 
[119,] 0.00000000 0.11727304 0.0096360 0.00185128 0.1116024 0.02934600 0.12028064 0.02672384 0.00698464 
[20,] 0.03444984 -0.00908315 0.0154044 0.02096321 0.0419342 0.01694095 0.01897542 -0.01294592 0.02442531 
[,10] [,11] [,12] [,13] [,14] [,15] [,16] [,17] [,18] 
[1,] 0.01691496 0.00427302 0.00834309 0.01933191 O0.02343888 0.0165312 0.02378574 0.01963449 0.01068255 
[2,] O0.04459850 0.04867074 0.02262615 0.01317407 0.17427506 0.0549192 0.01915634 0.03069591 0.00540786 
[3,] 0.01764840 0.04330920 O0.00852720 0.00398970 O.01572120 O0.0055440 0.01837110 0.03615150 0.00891660 
[4,1] -0.00121094 0.02936688 0.02662166 0.02938273 0.02768678 0.0035504 0.02229144 0.01289873 0.00795353 
[5,] 0.01123080 -0.00189140 0.02374050 0.01777230 O.00000000 O0.1948240 0.00287140 0.00460110 0.00472850 
[6,] 0.02559400 0.03620680 0.01406665 0.01215045 0.00000000 0.0150080 0.01177860 0.02831085 0.01228445 
[7,] -0.00207044 0.00209212 0.01925726 -0.00873704 -0.03012436 0.1456896 0.01429254 0.04071504 0.01673696 
[8,] 0.03337152 0.04817280 0.03359200 O0.03688256 0.13542464 -0.0069888 0.04022304 O0.03255200 0.01124032 
[19,1] 0.01484834 0.02769936 0.02800733 O0.03855904 O.00000000 0.0301392 0.02102568 0.03088371 0.01962038 
[110,] 0.14592400 0.01032164 -0.01357246 0.02001298 0.09402548 0.0192528 0.00671556 -0.00119566 -0.00073726 
[11,] 0.01032164 0.14899600 0.02992272 0.01400022 O0.05516712 0.0064848 0.02148862 0.05557628 0.01862450 
[12,] -0.01357246 0.02992272 O0.10432900 0.03774901 O0.08976170 0.0217056 0.01135668 0.03437366 0.01122102 
[13,] 0.02001298 0.01400022 0.03774901 0.16240900 0.08959496 -0.0045136 0.03424291 O0.01135251 0.00155558 
[14,] 0.09402548 0.05516712 0.08976170 0.08959496 0.63043600 0.0044464 0.01628494 0.02982264 -0.01379178 
[15,] 0.01925280 0.00648480 0.02170560 -0.00451360 0.00444640 0.3136000 0.00984480 0.01577520 0.00972720 
[116,] 0.00671556 0.02148862 0.01135668 0.03424291 O0.01628494 0.0098448 0.08584900 0.02659561 0.00678588 
[117,] -0.00119566 0.05557628 0.03437366 0.01135251 O0.02982264 0.0157752 0.02659561 0.09796900 0.02053906 
[18,] -0.00073726 0.01862450 0.01122102 0.00155558 -0.01379178 0.0097272 0.00678588 0.02053906 0.03724900 
[119,] 0.03123232 0.03606784 0.03395376 -0.02353520 O.05564352 0.1340864 0.00000000 0.04387008 0.03268648 
[20,] O0.00445794 0.03603696 0.00251294 0.02821806 -0.02779794 0.0413896 0.00569885 O0.01582841 -0.00150154 
[,19] [,20] 
[1,] 0.00000000 0.03444984 
[2,] 0.11727304 -0.00908315 
[3,1] 0.00963600 0.01540440 
[4,1 0.00185128 0.02096321 
[5,1] 0.11160240 0.04193420 
[6,1] O0.02934600 0.01694095 


On fait une optimisation traditionnelle mais avec la fonction solveQPXT( ) de la librairie 
quadprogXT que nous n'avons jamais utilisé jusqu'ici: 
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MR RGui (64-bit) - [R Console] — X 


ŒR File Edit View Misc Packages Windows Help - #8 x 


n.er <- 100 # number of Efficient Frontier points 
(rset <- seq(min(mu),max(mu),length=n.er+2)) 
[1] 0.1310000 0.1351683 0.1393366 0.1435050 0.1476733 0.1518416 0.1560099 0.1601782 0.1643465 0.1685149 
-.1726832 0.1768515 0.1810198 0.1851881 0.1893564 0.1935248 0.1976931 0.2018614 0.2060297 0.2101980 
-2143663 0.2185347 0.2227030 0.2268713 0.2310396 0.2352079 0.2393762 0.2435446 0.2477129 0.2518812 
.-2560495 0.2602178 0.2643861 0.2685545 0.2727228 0.2768911 0.2810594 0.2852277 0.2893960 0.2935644 
-2977327 0.3019010 0.3060693 0.3102376 0.3144059 0.3185743 0.3227426 0.3269109 0.3310792 0.3352475 
.3394158 0.3435842 0.3477525 0.3519208 0.3560891 0.3602574 0.3644257 0.3685941 0.3727624 0.3769307 
.3810990 0.3852673 0.3894356 0.3936040 0.3977723 0.4019406 0.4061089 0.4102772 0.4144455 0.4186139 
[71] 0.4227822 0.4269505 0.4311188 0.4352871 0.4394554 0.4436238 0.4477921 0.4519604 0.4561287 0.4602970 
[81] 0.4644653 0.4686337 0.4728020 0.4769703 0.4811386 0.4853069 0.4894752 0.4936436 0.4978119 0.5019802 
[91] 0.5061485 0.5103168 0.5144851 0.5186535 0.5228218 0.5269901 0.5311584 0.5353267 0.5394950 0.5436634 
[101] 0.5478317 0.5520000 
à (rset <- rset{[2:n.er+1l]) 


= 
m 
H 
= 
000000 


[1] 0.1393366 0.1435050 0.1476733 0.1518416 0.1560099 0.1601782 0.1643465 0.1685149 0.1726832 0.1768515 O.1810198 
[12] 0.1851881 0.1893564 0.1935248 0.1976931 0.2018614 0.2060297 0.2101980 0.2143663 0.2185347 0.2227030 0.2268713 
[23] 0.2310396 0.2352079 0.2393762 0.2435446 0.2477129 0.2518812 0.2560495 0.2602178 0.2643861 0.2685545 0.2727228 
[34] 0.2768911 0.2810594 0.2852277 0.2893960 0.2935644 0.2977327 0.3019010 0.3060693 0.3102376 0.3144059 0.3185743 
[45] 0.3227426 0.3269109 0.3310792 0.3352475 0.3394158 0.3435842 0.3477525 0.3519208 0.3560891 0.3602574 0.3644257 
[56] 0.3685941 0.3727624 0.3769307 0.3810990 0.3852673 0.3894356 0.3936040 0.3977723 0.4019406 0.4061089 0.4102772 
[67] 0.4144455 0.4186139 0.4227822 0.4269505 0.4311188 0.4352871 0.4394554 0.4436238 0.4477921 0.4519604 0.4561287 
[78] 0.4602970 0.4644653 0.4686337 0.4728020 0.4769703 0.4811386 0.4853069 0.4894752 0.4936436 0.4978119 O.5019802 
[89] 0.5061485 0.5103168 0.5144851 0.5186535 0.5228218 0.5269901 0.5311584 0.5353267 0.5394950 0.5436634 0.5478317 
> 
> (portl.ret <- rset) 

[1] 0.1393366 0.1435050 0.1476733 0.1518416 0.1560099 0.1601782 0.1643465 0.1685149 0.1726832 0.1768515 0.1810198 
[12] 0.1851881 0.1893564 0.1935248 0.1976931 0.2018614 0.2060297 0.2101980 0.2143663 0.2185347 0.2227030 0.2268713 
[123] 0.2310396 0.2352079 0.2393762 0.2435446 0.2477129 0.2518812 0.2560495 0.2602178 0.2643861 0.2685545 0.2727228 
[34] 0.2768911 0.2810594 0.2852277 0.2893960 0.2935644 0.2977327 0.3019010 0.3060693 0.3102376 0.3144059 0.3185743 
[45] 0.3227426 0.3269109 0.3310792 0.3352475 0.3394158 0.3435842 0.3477525 0.3519208 0.3560891 0.3602574 0.3644257 
[56] 0.3685941 0.3727624 0.3769307 0.3810990 0.3852673 0.3894356 0.3936040 0.3977723 0.4019406 0.4061089 0.4102772 
[167] 0.4144455 0.4186139 0.4227822 0.4269505 0.4311188 0.4352871 0.4394554 0.4436238 0.4477921 0.4519604 0.4561287 
[178] 0.4602970 0.4644653 0.4686337 0.4728020 0.4769703 0.4811386 0.4853069 0.4894752 0.4936436 0.4978119 0.5019802 
[189] 0.5061485 0.5103168 0.5144851 0.5186535 0.5228218 0.5269901 0.5311584 0.5353267 0.5394950 0.5436634 0.5478317 


> portl.std <- rset#0 
portl.wgt <- matrix(0,n.er,nvar) 


# calculate efficient frontier 
for (i in l:n.er) { 
Dmat <- 2%cov 
dvec <- rep(0,nvar) #c(0,0) 
Amat <- t(rbind(t(rep(l,nvar)),t(mu),diag(nvar))) 
bvec <- c(l,rset{[i],rep(0,nvar)) 


# mean-variance optimization 
m<-s0olveQPXT (Dmat,dvec,Amat,bvec,meq=2,factorized=FALSE) 


# output 
portl.std{[i] <- sgrt(m$value) 
portl.wgt{i,] <- t(m$solution) 


HER HÉUVV VV 


} 

Error in (function (Dmat, dvec, Amat, Aind, bvec, meq = 0, factorized = FALSE) : 
NA/NaN/Inf in foreign function call (arg 10) 

>| 


Ce qui donne: 
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ŒR File Edit View Misc Packages Windows Help - 4x 
> portl.std 

[1] 0.1837006 0.1636147 0.1532534 0.1464772 0.1415364 0.1380379 0.1359496 0.1348616 0.1342561 0.1340653 0.1342122 
[12] 0.1345475 0.1350504 0.1357191 0.1365512 0.1375437 0.1386932 0.1399891 0.1413918 0.1429046 0.1445314 0.1462683 
[123] 0.1481115 0.1500571 0.1521011 0.1542402 0.1564817 0.1588262 0.1612781 0.1638480 0.1665306 0.1693206 0.1722127 
[34] 0.1752020 0.1782835 0.1814549 0.1847221 0.1880813 0.1915276 0.1950564 0.1986634 0.2023442 0.2060951 0.2099122 
[45] 0.2137920 0.2177311 0.2217264 0.2257748 0.2298737 0.2340202 0.2382120 0.2424467 0.2467221 0.2510361 0.2553981 
[156] 0.2598536 0.2644322 0.2691296 0.2739520 0.2789322 0.2840648 0.2893421 0.2947931 0.3004347 0.3062563 0.3122480 
[167] 0.3184000 0.3247034 0.3311576 0.3377603 0.3445028 0.3513771 0.3583756 0.3655327 0.3729316 0.3805618 0.3884096 
[178] 0.3964622 0.4047073 0.4131334 0.4217296 0.4304857 0.4393923 0.4484402 0.4576306 0.4672131 0.4772791 0.4877987 
[89] 0.4987445 0.5100999 0.5239637 0.5421398 0.5642118 0.5897422 0.6183029 0.6494942 0.6829557 0.7183704 0.7554636 
> head(portl.wgt,10) 

[,1] [2] [3] [,4] [,5] [,6] 1,7] [,8] 

[1,] 0.16752453 -1.961434e-18 -6.884301e-18 -8.797970e-18 5.687774e-18 -4.814275e-17 6.626748e-18 -7.664510e-17 

[2,1] 0.12663474 -4.04819le-19 -2.576862e-18 -5.568990e-18 6.211067e-18 -3.165309e-17 3.532811e-18 -6.950147e-17 

[3,] 0.09603031 -4.590532e-19 0.000000e+00 -1.096568e-18 6.469282e-18 -2.092274e-17 1.064874e-18 -5.886517e-17 

[4,1] 0.07707103 -2.825783e-18 0.000000e+00 8.578747e-19 4.108340e-18 1.346346e-18 -2.315047e-18 -4.501839e-17 

[5,1 0.06151276 -7.107449e-19 1.539122e-02 5.497756e-03 2.416789e-18 2.972319e-18 -9.639844e-19 -3.551009e-17 

[6,] 0.04806277 -2.185390e-19 3.306301e-02 2.676604e-02 2.30607%e-18 2.355026e-18 -4.764367e-19 -2.609977e-17 

[7,1] 0.03612678 3.219079e-03 4.944379e-02 4.446431e-02 0.000000e+00 -2.338857e-18 -2.815527e-19 -1.77088l1e-17 

[8,] 0.03134059 1.162760e-02 5.749457e-02 4.981001e-02 8.901977e-03 1.733262e-18 0.000000e+00 -1.166314e-17 

[9,1] 0.02797387 1.744721e-02 6.324548e-02 5.400574e-02 1.934136e-02 0.000000e+00 2.725199e-03 -5.770405e-18 
[10,] 0.02390236 2.125952e-02 6.577384e-02 5.523464e-02 2.756837e-02 1.032083e-02 5.379329e-03 -9.754153e-19 

[,9] [,10] [,11] [,12] [,13] [,14] [,15] [,16] 

[1,] 5.60732Se-17 0.1961569 -2.252762e-17 -1.387779e-17 1.555622e-17 3.292830e-17 1.063296e-16 0.4185586 

[2,] 5.640156e-17 0.1744077 -2.922917e-17 0.000000e+00 1.086652e-17 2.461398e-17 5.877002e-17 0.3202737 

[3,] 5.575615e-17 0.1593530 -3.430892e-17 2.155780e-02 3.101450e-20 1.790029e-17 2.603695e-17 0.2491233 

[4,] 5.520507e-17 0.1520765 -3.624952e-17 5.204578e-02 1.88711le-18 6.730703e-18 -4.413067e-17 0.2205629 

[5,1 5.537515e-17 0.1434505 -3.698388e-17 7.364129e-02 0.000000e+00 4.706798e-18 -3.866136e-17 0.1925772 

[6,] 5.069425e-17 0.1351312 -3.613695e-17 8.580117e-02 0.000000e+00 2.117941e-18 -2.933065e-17 0.1650208 

[7,] 4.498686e-17 0.1255314 -3.479649e-17 9.435574e-02 5.247467e-03 -1.422368e-19 -2.001626e-17 0.1377479 

[8,] 2.960123e-17 0.1168494 -2.949354e-17 9.357777e-02 1.030641e-02 6.713734e-18 -1.208988e-17 0.1229576 

[9,] 1.319083e-17 0.1099868 -2.224935e-17 9.129305e-02 1.428029e-02 1.910905e-18 -5.419473e-18 0.1116579 
[10,] 2.068590e-18 0.1031759 -1.610615e-17 8.893294e-02 1.769579e-02 3.106803e-20 -2.045609e-19 0.1028335 

[1,17] [,18] [,19] [,20] 

[1,] 7.749104e-17 0.2177600 4.591940e-17 -2.188155e-17 

[2,1] 6.454239e-17 0.3786839 2.50017Se-17 -7.820329%e-18 

[3,] 5.674401e-17 0.4685856 9.506417e-18 5.349928e-03 

[4,1] 4.936622e-17 0.4631140 2.279118e-18 3.512977e-02 

[5,1] 3.789920e-17 0.4517334 6.375872e-19 5.619589e-02 

[6,1] 2.120670e-17 0.4366245 2.919767e-19 6.953060e-02 

[7,] 7.893119e-18 0.4228759 -1.884334e-18 8.098765e-02 

[8,] 5.354672e-19 0.4136142 -7.940621e-18 8.351989e-02 

[9,] -5.325223e-18 0.4045563 -1.434453e-17 8.348682e-02 
[10,] -5.852730e-18 0.3949448 -1.855121e-17 8.297816e-02 
> 

v 
< > 


Avec le graphique correspondant: 
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le 


R rs [© tx 

> # draw efficient fronter and allocation profile 

> xXl1ll(width=6); par(mfrow = c(2,1), mar = c(3,2,2,3), xpd=TRUE) 

> # individual asset 

ve plot(sqrt({(diag(cov)), mu, 

+ xlim=c(0.8*min(portl.std),1.2*max(portl.std)), 

+ ylim=c(0.8*min(mu),1.2*max(mu)), 

+ col = rainbow(nvar), lwd = 10) 

> text (sgrt(diag(cov)), mu, 

- labels=var.name, cex= ]l) 

> # efficient frontier 

> lines (portl.std,portl.ret,col = "green", lwd = 6) 

> # weight 

_ barplot (t(portl.wgt),col=rainbow(nvar)) 

> legend("topright", legend = var.name, 

+ £ill = rainbow(nvar), ncol = 1, 

+ inset=c(-0.07,0), cex = 0.6) 

R ([Ss|g|x 

- NP 

o X80 

(ue LEN SZ 

l ET ds 

« BOL 

Læ)] 

02 0.4 06 0.8 

a 

sn Eu 
= 

œ = 

[æ] = 
[= | 

© = 

[æ] = 
D 

T a 

[æ] = 
[=] 

on = 

o ce 
[=] 

o == 

[æ] 


Maintenant nous faisons le ré-échantillonnage: 


x 
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MR ARGui (64-bit) - [R Console] 


OR File Edit View Misc Packages Windows Help 


EROISEBIOIE 


100 # number of EF points 
seg(min (mu) ,max (mu) ,iength={(n.er+2)) 
rset{2:(n.er+1)}] 

port.re.ret <- rset 

port.re.std <- rset*Q 

port.re.wgt <- matrix(0,n.er,nvar) 


n.rr = 1000 # number of resampling 

for (rr in l:n.rr) { 
# simulated time series of assets 
sim <— mvrnorm(n = 120, mu, cov) 


# simulated mu & cov 
mu.sim <-— colMeans (sim) 
cov.sim <- cov(sim) 


rset.sim <-— seg(min(mu.sim),max(mu.sim),length={(n.er+2)) 
rset.sim <-— rset.sim{(2:(n.er+1l)] 


POIT.sim.ret <- rset.sim 
port.sim.std <- rset.sim*0 
port.sim.wgt <- matrix(0,n.er,nvar) 


# calculate efficient frontier 
for (i in l:n.er) { 
Dmat 2*cov.sim 
dvec rep(0,nvar) 
Amat t(rbind(t(rep(l,nvar)),t(mu.sim),diag(nvar))) 
bvec c(l,rset.sim{i],rep(0,nvar)) 


# mean-variance optimization 
m<-s0olveQPXT (Dmat,dvec,Amat,bvec,meqg=2, factorized=FALSE) 


# Output 

port.sim.std{[i] <- sqrt(mS$value) 

port.sim.wgt{i,} <- t(m£solution) 
} 


# sum of resampling portfolios before average 
port.re.ret <- port.re.ret + port.sim.ret 
port.re.wgt <- pOort.re.wgt + pOrt.sim.wgt 

} 


# average of resampling portfolios 
port.re.wgt <— port.re.wgt/n.rr 
port.re.ret <- port.re.ret/n.rr 


# portfolio SD and Expexted Return 
for (i in l:n.er) !{ 
port.re.ret{i] <- port.re.wgt{[i,]+"%mu 
port.re.std{i] <- sgrt(port.re.wgt{i,]$*$cov$*$port.re.wgt{i,]) 
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Et les graphiques correspondants: 
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R ER ES 


> # draw efficient fronter and allocation profile 
xl1l1l(width=6); par (mfrow = c(2,1), mar = c(3,2,2,3), xpd=TRUE) 


# individual asset 
plot (sgrt(diag(cov)), mu, 


- xlim=c(0.8*min(portl.std),1.2*max(portl.std)), 
_ ylim=c(0.8*min(mu),1.2*max(mu)), 

_ col = rainbow(nvar), lwd = 10) 

> text (sqgrt(diag(cov)), mu, 

+ labels=colnames (df.data[,3:22]), cex= 1) 


# efficient frontier 
lines (portl.std, portl.ret,col = "green" , lwd = 10) 
lines (port.re.std, port.re.ret,col = "blue", lwd = 4) 


# weight 
barplot(t(port.re.wgt),col=rainbow(nvar)) 
legend("topright", legend = var.name, 


_ fill = rainbow(nvar), ncol = 1, 
- inset=c(-0.07,0), cex = 0.6) 
FE 
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Voici le code entier d'une seule traite: 


# 
Financial Econometrics & Derivatives, ML/DL using R, Python, Tensorflow 
by Sang-Heon Lee 
https://kiandlee.blogspot.com 
# 
Resampled Portfolio Optimization 
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Reference 


Estimation Error and Portfolio Optimization:A Resampling Solution 
- Richard Michaud and Robert Michaud 


https://www.newfrontieradvisors.com/media/1138/estimation-error 
-and-portfolio-optimization-12-05.pdf 

R version 4.0.3 (2020-10-10) 

quadprogXT version 0.0.5 

MASS (built-in) version 7.3-53 


graphics.off() # clear all graphs 
rm(list = ls()) # remove all variables from your workspace 


library("quadprogXT") # solveOPXT 


library('"MASS") # mvrnorm 

RS 
# Michaud dataset 

en LR nn en Se pére en ne nn 


# This dataset exists in appendix of Michaud and Michaud (2007) 
df.data <- read.csv('c:/tmp/mu sd corr michaud.csv') 
head(df.data) 


# mean, std, correlation 

(mu <- as.vector(df.datal,1])) 

(sd <—- as.vector(df.datal,2])) LC 
(corr <- as.matrix(df.datal,-c(1,2)) 


# number of asset 
(nvar <- length(mu)) 
(var.name <- colnames(df.datal,-c(1,2)])) 


# convert correlation to covariance matrix 


2 


(cov <- diag(sd)®%*$corr$*$diag(sd)) 


n.er <—- 100 # number of Efficient Frontier points 
(rset <- seq(min(mu),max(mu),length=n.er+2)) 
(rset <- rset[2:n.er+1]) 


(portl.ret <- rset) 
portl.std <- rset*0 
portl.wgt <- matrix(0,n.er,nvar) 


# calculate efficient frontier 
ÉOÉ- (IL, Ln: Lén.:ér) {À 
Dmat <- 2*cov 
dvec <- rep(0,nvar) #c(0,0) 
Amat <- t(rbind(t(rep(l,nvar)),t(mu),diag(nvar))) 
bvec <- c(l,rset[il]l,rep(0,nvar)) 


# mean-variance optimization 
m<-solveQPXT(Dmat,dvec,Amat,bvec,meq=2, factorized=FALs] 


C] 
— 
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# output 
portl.std[i] <- sqrt(m$value) 
portl.wgt[i,] <- t(m$solution) 


# draw efficient fronter and allocation profile 
x11(width=6); par(mfrow = c(2,1), mar = c(3,2,2,3), xpd=TRUl 


Ra 
— 


# individual asset 

plot(sqrt(diag(cov)), mu, 
xlim=c(0.8*min(portl.std),1.2*max(portl.std)), 
ylim=c(0.8*min(mu),1.2*max(mu)), 
col = rainbow(nvar), lwd = 10) 

text (sqrt(diag(cov)), mu, 

labels=-var.name, cex= 1) 


efficient frontier 
lines (portl.std,portl.ret,col = "green", lwd = 6) 


weight 
barplot (t (portl.wgt),col=rainbow(nvar)) 
legend("topright'", legend = var.name, 


fill = rainbow(nvar), ncol = 1, 
inset=c(-0.07,0), cex = 0.6) 
# Ds a Ms mate Etre Tr nas NM Ste CU ee Pins NN ts nt nt et 
# Resampled portfolio optimization 
# me ne 
(oi 


n.er <- 100 # number of EF point ù 
rset <- seq(min(mu),max(mu),length=(n.er+2)) 


rset <- rset[2:(n.er+1)] 


DOÊC.-reé-ret <> rset 
port.re.std <- rset*0 
port.re.wgt <- matrix(0,n.er,nvar) 


n.rr = 1000 # number of resampling 


for (rr in l:n.rr) { 
print(rr) 


# simulated time series of assets 
sim <- mvrnorm(n = 120, mu, cov) 


# simulated mu & cov 
mu.sim <- colMeans (sim) 
cov.sim <- cov(sim) 


rset.sim <- seq(min(mu.sim),max(mu.sim),length={(n.er+2)) 
rset.sim <- rset.sim{[2:(n.er+1)] 


port.sim.ret <- rset.sim 
port.sim.std <- rset.sim*0 
port.sim.wgt <- matrix(0,n.er,nvar) 


# calculate efficient frontier 
for (i in l:n.er) { 
Dmat <- 2*cov.sim 
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} 


dvec <- rep(0,nvar) 
Amat <- t(rbind(t(rep(l,nvar)),t(mu.sim),diag(nvar))) 
bvec <- c(l,rset.siml(i]l,rep(0,nvar)) 


# mean-variance optimization 
m<-solveQPXT(Dmat,dvec,Amat,bvec,meq=2, factorized=FALs] 


C] 


# output 

port.sim.std[i] <- sgrt(mS$value) 

port.sim.wgt{[i,] <- t(m$solution) 
} 


# sum of resampling portfolios before averag 
port.re.ret <- port.re.ret + port.sim.ret 
port.re.wgt <- port.re.wgt + port.sim.wgt 


# average of resampling portfolios 
port.re.wgt <- port.re.wgt/n.rr 
port.re.ret <- port.re.ret/n.rr 


# portfolio SD and Expexted Return 


for (i in l:n.er) { 
port.re.ret[i] <- port.re.wgt[i,]%*%mu 
port.re.std[i] <- sqrt(port.re.wgt[i,]%*%cov®$*$port.re.wgtli,]) 
} 
# draw efficient fronter and allocation profile 
x11(width=6); par(mfrow = c(2,1), mar = c(3,2,2,3), xpd=TRUE) 
# individual asset ke 
plot(sqrt(diag(cov)), mu, ® 
xlim=c(0.8*min(portl.std),1.2*max(portl.std)), 
ylim=c(0.8*min(mu),1.2*max(mu)), 
col = rainbow(nvar), lwd = 10) 
text (sqrt(diag(cov)), mu, 
labels=-colnames(df.datal,3:22]), cex= 1) 
# efficient frontier 
lines (portl.std, portl.ret,col = "green" , lwd = 10) 
lines (port.re.std, port.re.ret,col = "blue", lwd = 4) 
# weight 
barplot (t (port.re.wgt),col=rainbow(nvar)) 
legend("topright'", legend = var.name, 
fill = rainbow(nvar), ncol = 1, 
inset=c(-0.07,0), cex = 0.6) 
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Portefeuille de maximum diversification 


Là encore, voyons si nous arrivons à obtenir le même résultat que dans le cours théorique. 
Toujours en évitant d'utiliser le solveur interne à R. Aucun des packages que nous avons vu 
précédemment n'implémente à notre connaissance le portefeuille de maximum diversification. 


Cependant, le package RiskPortfolios à une fonction optimalPortfolio( ) avec de nombreux 
paramètres pour différents portefeuilles possibles, mais celui qui va nous intéresser ici est la 
valeur maxdiv du paramètre control comme l'illustre l'exemple suivant: 


File Edit View Misc Packages Wind Helg 


library("RiskPortfolios") 


Ti<-c(-0.15,0.05,-0.43,0.79,0.32) 
T2<-c(0.29,0.18,0.24,0.25,0.17) 
T3<-c(0.38,0.63,0.46,0.36,-0.57) 
(rendements<-cbind(Ti,T2,T3)) 
EL T2 T3 

[1,] -0.15 0.29 
[2,1] 0.05 0.18 
0 
0 


VVYVNVYNN 


(3,] -0.43 0.24 

[4,1] 0.79 0.25 

[S,1] 0.32 0.17 -0.57 

> (Sigma<-covEstimation (rendements) ) 
T1 T2 T3 

T1 0.217280 -0.004220 -0.066865 

T2 -0.004220 0.002530 0.010585 

T3 -0.066865 0.010585 0.222470 


0000 
Lo 
an 


> 
> ton résout le problème d'optimisation 
> (weights<-optimalPortfolio(Sigma = Sigma,control = list(type = "maxdiv'))) 


[1] 0.1515784 0.7363228 0.1120988 

> 

> ton calcule le diversification ratio 

> (DR<-(t (weights) $*$diag(Sigma))/sqrt(t(weights)%*%(Sigma $*% weights))) 
[1] 

[1,] 0.6810876 

>| 


Nous retrouvons donc exactement les mêmes poids et le même DR que ceux calculés dans le 
cours théorique! 
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Portefeuille de risque paritaire 


Nous allons ici utiliser le package riskParityPortfolio et sa fonction riskParityPortfolio( ) 
qui implémente un ensemble de modèles empiriques basés sur le concept de risque paritaire. 
Rappelons que dans le cours théorique, nous avons survolé juste une formulation existante 
possible du problème d'optimisation de ce type de portefeuille, mais le package en contient 
plusieurs variantes très différentes (voir la documentation du package pour plus 
d'informations!). 


Voyons donc l'application de deux cas simples avec notre portefeuille habituel: 


R File Edit View Packages Windows Help NE: 


ESIEIE 


library("riskParityPortfolio") 


fnotre petit portefeuille d'exemple | 
Ti<-c(-0.15;0.05,-0.43,0.79,0.32) 
t2<-c(0.29,0.:19,0.24,0.25,0.17) 
T3<-c(0.38,0.63,0.46,0.36,-0.57) | 
(rendements<-cbind(Ti,T2,T3)) 
5 à À T2 T3 

[151 =0:15 0,29 
[2:1 0-05 0-18 
[3,1 -0.43 0.24 
[4:11 0.79 0.25 
[5,1 0.32 0.17 -0.57 
> (Sigma <- cov(rendements)) 

TL T2 E3 
T1 0.217280 -0.004220 -0.066865 
T2 -0.004220 0.002530 0.010585 
T3 -0.066865 0.010585 0.222470 
> 
> *on calcule le portefeuille de risk paritaire naif 
> (portfolio<-riskParityPortfolio(Sigma)) 
Sw 


[1] 0.11913933 0.78810386 0.09275681 


VVVNNVNNV NV 


O OO 
an 
w 


[e] 
[en 
[s)] 


$risk contribution 
[1] 0.001948954 0.001948954 0.001948954 


> 

> tet la version avec un "risque budgété" pris un peu au hasard 
> riskParityPortfolio(Sigma,b = c(0.4, 0.4, O0.2)) 

Sw 

[1] 0.11219597 0.82556788 0.06223616 


$risk_ contribution 
[1] 0.0018773327 0.0018773327 0.0009386663 


> | 
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Portefeuille de variance conditionnelle 


Nous avons vu dans le cours théorique ce qu'était la variance conditionnelle et comment 
l'appliquer à un portefeuille, sans toutefois faire les calculs à la main puisque a priori il 
n'existe pas d'expression analytique permettant d'obtenir les poids pour une CVaR donnée. De 
plus, les résultats varient assez fortement d'un logiciel à l'autre suivant le type de résolution 
numérique utilisée. 


Remarque: Au jour auquel nous écrivons ces lignes, il semblerait que le package fPortfolio a 
un problème lorsqu'il s'agit de définir la valeur de alpha que nous voulons pour la CVaR (il y 


a un message d'erreur!). 


Essayons de reproduire l'exemple que nous avions fait avec MATLAB: 


R File Edit View Misc Packages Windows Help __ 6 


library ("fPortfolio") 
Ti<-c(-0.15,0.05,-0.43,0.79,0.32) 
T2<-c(0:29,0:18,0:24,0:25,0.:17) 
T3<-c(0.38,0.63,0.46,0.36,-0.57) 
rendements<-cbhind(Ti,T2,T3) 
rendements<-as.timeSeries (rendements) 
rendements 


VMVVNVNNV NV 


Ti T2 T3 

[1,] -0.15 
[2,1] 0.05 
[3,1] -0.43 
[4,] 0.79 O. 
[5,1 0.32 0.17 -0.57 
> covEstimator (rendements) #et on voit que tout est ok 
Smu 

TL T2 T3 
0.116 0.226 0.252 


ren 
co 

©O © © 
[s)] 
(es) 


0 
0. 
(9) 
(9) 


[ÈS] 
(a 
© 
(en) 
(s)] 


SSigma 

T1 T2 dE | 
T1 0.217280 -0.004220 -0.066865 
T2 -0.004220 0.002530 0.010585 
T3 -0.066865 0.010585 0.222470 


[2 


Jusque là c'est du standard. Maintenant faisons ce qui est spécifique au CVaR: 
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MR RGui (64-bit) - [R Console] (m 
GR File Edit View Misc Packages Windows Help -#1x 


E 


#on définit les propriétés de notre portefeuille 
covSpec<-portfolioSpec() 

setWeights (covSpec)<-c(1/3,1/3,1/3) 

> setType (covSpec)<-"CVaRr" 

|Solver set to solveRquadprog 

setSolver: solverglpk 

setNFrontierPoints (covSpec)<-10 

setRiskFreeRate (covSpec)<-22 
setTargetReturn(covSpec) <- 0.2225 

#il faut absolument changer de solveur sinon cela ne marchera pas 
setSolver (covSpec) <- "solverglpk.CvVAR" 

covSpec 


AA 


VMUMVNMVV 


Model List: 


Type: CVaR 
Optimize: minRisk 
Estimator: covEstimator 
Params: alpha = 0.05 


Portfolio List: 


Portfolio Weights: NA 
Target Return: 0.2225 
Target Risk: NA 
Risk-Free Rate: 22 


Number of Frontier Points: 10 


Optim List: 


Solver: solverglpk.CVAR 

Objective: portfolioObjective portfolioReturn portfolioRisk 
Trace: FALSE 

>| 


Et on lance la définition des contraintes ainsi que l'analyse: 
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R RGui (64-bit } 
R File Edit View Misc Packages Windows Help 


ST] Brel) [el |8l 


> constraints = "LongOnly" 
> portfolioConstraints (rendements, covSpec, constraints) 


Title: 
Portfolio Constraints 


Lower/Upper Bounds: 
TL T2 T3 

Lower O0 O©O 0 

Upper 1 1 1 


Equal Matrix Constraints: 

ceq Ti Te T3 
Return 0.2225 0.116 0.226 0.252 
Budget -1.0000 -1.000 -1.000 -1.000 


Cardinality Constraints: 
TL T2 T3 
Lower O0 O©O O0 
Upper 1 1 1 
> efficientPortfolio(rendements,covSpec,constraints) 


Title: 
CVaR Efficient Portfolio 
Estimator: covEstimator 
Solver: solverglpk.CVAR 
Optimize: minRisk 
Constraints: LongOnly 
VaR Alpha: 0.05 


Portfolio Weights: 
T1 T2 T3 
0.0318 0.968682 0.0000 


Covariance Risk Budgets: 
Ti T2 T3 
0.0386 0.9614 0.0000 


Target Returns and Risks: 
mean Cov CVaR VaR 
0.2225 0.0483 -0.1748 -0.1748 


Description: 
à Mar 24 13:03:41 2019 by user: Vincent Isoz 
> 
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Frontière efficiente 


Nous allons voir maintenant qu'il nous est possible de tracer la frontière efficiente avec la 
commande frontierPlot( ) : 


€ 


R & Console = || TE || x 


> covSspec<-portfolioSpec() 
> setWeights(covSpec)<-c(1/3,1/3,1/3) #poids initial 

> FrontiereEfficiente<-portfolioFrontier (rendements,covSpec,constraints) 
> frontierPlot (FrontiereEfficiente,pch=19) 

> grid) 
- 
> 


abline(h=0,col="grey") :abline(v=0,col="grey") 
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Target Risk[Cov] 


Figure 329 Graph frontière d'efficience de Markowitz 
C'est la même que celle obtenue dans le cours théorique. 


Avec la commande minvariancePoints() nous pouvons afficher le point de variance 
minimale calculé plus haut: 
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R Console 


covSpec<-portfolioSspec() 
setWeights (covSpec])<-c(1/3,1/3,1/3) #poids initial 
FrontiereEfficiente<-portfolioFrontier (rendements,covS$pec,constraints) 
frontierPlot (FrontiereEfficiente,pch=19) 

minvariancePoints (FrontiereEfficiente,pch=19,col="green") 

grid() 
abline(h=0,col="grey");abline(v=0,col="grey") 


VYMVNNNNNVY 


Efficient Frontier 


Target Return[mean] 


0.2 0.3 


Target Risk[Cov] 


Nous pouvons avec equalWeïightsPoints( ) afficher le portefeuille équilibré: 
Ÿ 


covSpec<-portfolioSpec(] 

setWeights(covSpec])<-c(1/3,1/3,1/3) #poids initial 
FrontiereEfficiente<-portfolioFrontier (rendements,covSpec,constraints) 
frontierPlot (FrontiereEfficiente,pch=19) 

minvariancePoints (FrontiereEfficiente,pch=19,col="green") 
equallWeightsPoints (FrontiereEfficiente,pch=19,co1="blue") 

grid() 

abline (h=0,col="grey") ;abline(v=0,col="grey") 


FONMON NON RON NN 


« 


Target Return[mean] 


0.0 0.1 02 0.3 04 05 


Target Risk[Cov] 
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Nous pouvons afficher les trois portefeuilles avec a chaque fois un actif seul avec la 
commande singleAssetPoints( ) : 


covSspec<-portfoliospec() 

setWeights(covSpec)<-c(1/3,1/3,1/3) #poids initial 
FrontiereEfficiente<-portfolioFrontier (rendements,cov$pec,constraints) 
frontierPlot (FrontiereEfficiente,pch=19) 

minvariancePoints (FrontiereEfficiente,pch=19,col="green") 
equalWeightsPoints (FrontiereEfficiente,pch=19,co1l="blue") 
singleissetPoints (FrontiereEfficiente,pch=1,cex=1.5,col=rainbow(3)) 
grid(j:abline(h=0,col="grey") :abline (v=0,col="grey") 


VV NNNNV 


Target Return[mean] 


0.0 0.1 02 0.3 04 O5 


Target Risk[Cov] 


En fixant le taux sans risque, nous pouvons pour tracer la courbe du ratio de Sharpe comme 
nous l'avons vu dans le cours théorique avec la commande sharpeRatioLines( ) : 
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covSspec<-portfoliospec() 

setWeights (covSpec)<-c(1/3,1/3,1/3) #poids initial 

setRiskFreeRate (covSpec)<-22 

FrontiereEfficiente<-portfolioFrontier (rendements,covSpec,constraints) 
frontierPlot (FrontiereEfficiente,pch=19) 

minvariancePoints (FrontiereEfficiente,pch=19,col="green") 
equalWeightsPoints (FrontiereEfficiente,pch=19,col="hblue") 
singleissetPoints (FrontiereEfficiente,pch=1,cex=1.5,col=rainbow(3)) 
sharpeRatioLines(FrontiereEfficiente) 
grid():abline(h=0,col="grey") :abline (v=0,col="grey") 


VNVN NS NN NY 


0116 0.376 


Target Returm[mean] 


0.2 0.3 


Target Risk[Cov] 


Avec la commande twoAssetsLines() on peut voir la frontière efficiente de portefeuilles 
composés de deux actifs seulement: 
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cov$pec<-portfoliospec( 
setlWeights(covSpec)<-c(1/3,1/3,1/3) #poids initial 

setRiskFreekRate (covSpec)<-22 

FrontiereEfficiente<-portfolioFrontier (rendements,covS$pec,constraints) 
frontierPlot (FrontiereEfficiente,pch=19) 

minvariancePoints (FrontiereEfficiente,pch=19,col="green") — 
equalWeightsPoints (FrontiereEfficiente,pch=19,col="bhlue") 
singleissetPoints (FrontiereEfficiente,pch=1,cex=1.5,col=rainbow(3)) 
sharpeRatioLines(FrontiereEfficiente) 

twoissetsLines (FrontiereEfficiente) 
grid();:abline(h=0,col="grey") :abline (v=0,col="grey") 


VNNNINNSINNNN MN 


Es 


0.116 0.376 


Target Return[mean] 


02 0.3 


Target Risk[Cov] 


Avec la commande monteCarloPoints() on peut simuler quelques valeurs de portefeuilles 
réalisables: C 


setWeights(covSpec])<-c(1/3,1/3,1/3) #poids initial 

setRiskFreeRate (covSpec)<-22 

FrontiereEfficiente<-portfolioFrontier (rendements,covSpec,constraints) 
frontierPlot (FrontiereEfficiente,pch=19) 
minvariancePoints(FrontiereEfficiente,pch=19,col="green") 
equalWeightsPoints (FrontiereEfficiente,pch=19,col="blue") 
singleissetPoints (FrontiereEfficiente,pch=1,cex=1.5,col=rainbow(3)) 
sharpeRatioLines (FrontiereEfficiente) 

twoissetsLines (FrontiereEfficiente) 

monteCarloPoints (FrontiereEfficiente,mceSteps=100) 
grid():abline(h=0,col="grey") ;abline (v=0,col="grey") 


FONCNON VON CV POVNET 


« 


0.116 0.376 


Target Return[mean] 


0.2 0.3 


Target Risk[Cov] 


Figure 330 Graph frontière d'efficience de Markowitz avec courbe de Sharpe, portefeuilles simulés et autres 
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Nous allons maintenant déterminer la capital market line (CML) telle que faite 
approximativement et grossièrement dans le cours théorique. Nous allons voir ici, s'il y a une 
grande différence avec R en utilisant les commandes tangencyLines() et tangencyPoiïnts( ) 


FR R Console L=-/|-0-/(055 
> covSpec<-portfolioSpec() : 
> setWeights(covSpec)<-c(1/3,1/3,1/3) 

> setNFrontierPoints (covSpec)<-100 

> setRiskFreeRate (covSpec)<-0.22 

> FrontiereEfficiente<-portfolioFrontier (rendements,covSpec,constraints) 

> frontierPlot (FrontiereEfficiente,pch=19,vylim=c{(0.2,0.25) ,xlim=c(0,0.2)) 

> tangencyLines (FrontiereEfficiente,pch=19,col="blue") 

> tangencyPoints (FrontiereEfficiente,pch=19,col="red",.cex=1.5) 

> RE 

> 


R 


Nous avons mis en évidence en gris l'ordonnée 0.22 avec l'axe en 0 de l'actif sans risque que 
nous nous étions fixés dans le cours théorique (et là nous voyons que tout est bon puisque la 
tangente passe bien par le point de coordonnée (0,0.22)). 


En rouge horizontal nous mis en évidence le rendement du portefeuille trouvé en conséquence 
dans le cours théorique avec nos approximations successives. Comme nous pouvons le voir, 
nous avons une différence d'environ 2% entre le point calculé dans le cours théorique de et 
par les méthodes numériques d'optimisation ee RWsoit environ 10% d'erreur!). 
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Figure 331 Graph frontière d'efficience de Markowitz avec CML 
& 
Je n'ai cependant pas encore trouvé à ce jour cônment obtenir facilement avec la package 
fPortfolio le poids des 3 actifs correspondant au point de tangence en rouge ci-dessus. Si 
quelqu'un trouve qu'il n'hésite pas à nous le communiquer (nous mentionnerons son nom). 


Nous pouvons avoir un autre visuel résumant dans les grandes lignes les propriétés de notre 
portefeuille en utilisant la commande tailoredFrontierPlot( ) : 
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À R Console 


windows ({) 
covSspec<-portfolioSpec() 
setWeights (covSpec)<-c(1/3,1/3,1/3) 
setNFrontierPoints(covSpec)<-100 
setRiskFreeRate (covSpec)<-0.22 
FrontiereEfficiente<-portfolioFrontier (rendements,covSpec,constraints) 
tailoredFrontierPlot (FrontiereEfficiente) 


VV NVMNN# 


LT 


Efficient Frontier 
Portfolio Frontier 


Target Return[mean] 


02 0.3 


Target Risk[Cov] 


Ou encore un diagramme des poids avec la commande weïightsPlots() indiquant quelles 
combinaisons donnent quels rendements: 


0.157 0.25 
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R R Console RUES 


#plot des poids dans une nouvelle fenêtre 

windows (} 

covSpec<-portfolioSpec() 

setNFrontierPoints(covSpec)<-10 
FrontiereEfficiente<-portfolioFrontier (rendements,covSpec,constraints) 
wveightsPlot (FrontiereEfficiente,col = rainbowi3)) 


VVVNNNVY 
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Figure 332 Graphique des poids de portefeuille avec rendement et risque d'un portefeuille 
Lo 
X 
L ire Ÿ : 
Une stratégie long only changera évidemment de graphique: 
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Sciences.ch 


R R Console Ss | 


> Het avec une stratégie long only 
> windows () 
> covspec<-portfoliospect() 
setNFrontierPoints(covSpec) <-10 
> FrontiereEfficiente<-portfolioFrontier (rendements,covSpec) 
> wWeightsPlot (FrontiereEfficiente,col = rainbow(3)) 
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Backtesting de stratégie 


Malheureusement nous ne sommes pas encore à ce jour arrivés à faire fonctionner les 
fonctions de backtesting du package fPortfolio. Nous allons donc nous reporter sur une série 
de packages permettant d'arriver à un résultat quasi-similaire mais pour lequel nous pensons 
personnellement que nous y gagnons au change! 


Commençons donc par importer les données et à effectuer un premier traitement: 


R 
R File Edit View Misc Packages 


Windows Help Dax 


> library("quantmod") 
> library("PerformanceAnalytics") 
> library("PortfolioAnalytics") 
> library("TTR") 
> 
> tickers <- c("FB", "AAPL", "AMZN", "NFLX", "GOOGL", "SO", "NVDA") 
> 
> portfolioPrices <- NULL 
> for(ticker in tickers) { 
+ portfolioPrices <- chind(portfolioPrices, 
+ quantmod::getSymbols.yahoo(ticker, from='2016-01-03', periodicity = 'daily', auto.assign=FALSE)[,4]) 
M | 
> head(portfolioPrices) 

FB.Close AAPL.Close AMZN.Close NFLX.Close GOOGL.Close SQ.Close NVDA.Close 
2016-01-04 102.22 105.35 636.99 109.96 759.44 12.16 32.37 
2016-01-05 102.73 102.71 633.79 107.66 761.53 11:52 32.89 
2016-01-06 102.97 100.70 632.65 117.68 7159-33 11-52 31-53 
2016-01-07 97.92 96.45 607.94 114.56 741.00 11.16 30.28 
2016-01-08 97:33 96.96 607.05 111,39 730.91 11:34 29.63 
2016-01-11 7:51 98.53 617.74 114.97 733.07 11.64 29.68 
> 


> *on supprime les valeurs NA et on calcule le Rate of Change (ROC) 
> portfolioReturns <- na.omit (TTR::ROC(portfolioPrices)) 
> head(portfolioReturns) 
FB.Close AAPL.Close AMZN.Close NFLX.Close GOOGL.Close SQ.Close 

2016-01-05 0.004976853 -0.025378648 -0.0050363066 -0.02113850 0.002748283 -0.0549356538 
2016-01-06 0.002333477 -0.019763704 -0.0018002500 0.08899093 -0.002893118 0.0008684325 
2016-01-07 -0.050286895 -0.043121062 -0.0398411884 -0.02687039 -0.024435863 -0.0317486983 
2016-01-08 -0.006043511 0.005273804 -0.0014650560 -0.02806114 -0.013710329 0.0133513332 
2016-01-11 0.001847670 0.016062548 0.0174565005 0.03163369 0.002950909 0.0457963393 
2016-01-12 0.018895330 0.014409036 0.0002428316 0.01390652 0.016599322 0.0208950352 

NVDA.Close 
2016-01-05 0.01593659 
2016-01-06 -0.04222912 
2016-01-07 -0.04045204 
2016-01-08 -0.02170013 
2016-01-11 0.00168609 
ts 0.01670604 
> 


On peut aussi afficher un graphique sympa avec la fonction chart.Correlation( ): 
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re 


. 
R EEE 


> PerformanceAnalytics::chart.Correlation(portfolioPrices,histogram=TRUE,pch=19) 
> | 
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Les étoiles *** indiquent pour rappel que le test de Pearson de la corrélation est très 
significatif. 


Et encore un autre avec la fonction charts.PerformanceSummary( ): 
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r x 


MR RK Console ARE 
> charts.PerformanceSummary (portfolioReturns,colorset=rainbowl2equal, wealth.index = TRUE, 

+ lwd=2, methods = "StdDev") 

>| 

Re Graphics: Device 2 (ACTIVE) EEE) 


FB.Close Performance 
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Maintenant on va construire les spécifications de notre portefeuille (notez que l'on crée deux 
portefeuilles: un nommé portf.dn dont les nombre de position est limité et l'autre nommé portf 
qui n'a pas de limites dans les positions! !!): 
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M RGui (64-bit) - [R Console] - 0 


ŒR File Edit View Misc Packages Windows Help =||#]/x 


Eu 


> #on définit un object de spécification de portefeuilles 
> portf <- PortfolioAnalytics::portfolio.spec(colnames (portfolioReturns)) 
| > portf 


RAR AURA RAR AR AR ARR RAR ARR RAR ARR RAR AR À À KR À 


PortfolioAnalytics Portfolio Specification 
kRRRkERÉ RER RE ER KR R k RE KR A KR A ke ke ke À À 


Call: 
PortfolioAnalytics::portfolio.spec(assets = colnames (portfolioReturns)) 


Number of assets: 7 

Asset Names 

[1] "FB.Close" "AAPL.Close" "AMZN.Close" "NFLX.Close" "GOOGL.Close" "SQ.Close" 
| [7] "NVDA.Close" 


*on y met les quelques contraintes et objectifs suivants: 
portf <- add.constraint(portf, type="weight sum", min sum=0.99, max sum=1.01) 
#on impose un coût de transaction 
portf <- add.constraint(portf, type="transaction cost", ptc = 0.001) 
*on impose que chaque actif doit avoir un poids entre -10% et +40% 
portf <- add.constraint (portf, type="box", min=.10, max=.40) 
portf <- add.objective(portf, type="return", name="mean") 
portf <- add.objective(portf, type="risk", name="StdDev", target=0.005) 
#on ajoute une contrainte comme quoi il ne doit pas y avoir plus de 5 positions 
| > portf.dn <- add.constraint (portf, type="position limit", max pos=5) 
| > portf 
kkkkkkkkk k k k k k k k k k k k k k k k k k k À k k h  k k A k k À À ke à À À À À 


| PortfolioAnalytics Portfolio Specification 
kkkkkkkhkkkkkkkkkhkkkkkhkhkhkhkkkkkhkkkhkhkhkkhkkhkkhkkkkkk k kkhk 


VYUVNVVNVNNVNNVYNNVV 


Call: 
PortfolioAnalytics::portfolio.spec(assets = colnames (portfolioReturns)) 


Number of assets: 7 

Asset Names 

[1] "FB.Close" "AAPL.Close" "AMZN.Close" "NFLX.Close" "GOOGL.Close" "SQ.Close" 
[7] "NVDA.Close" 


| Constraints 
Enabled constraint types 
- weight sum 
- transaction cost 


— box 
| objectives: 
| Enabled objective names 
| - mean 
— StdDev 
>| 


Notez qu'on peut aussi définir pour les poids: 


MR RGui (64-bit) - [R Console] — Ü 


ŒR File Edit View Misc Packages Windows Help ex 


> portf <- add.constraint(portf, type = "box", min=c(0.05,0.1,0.08,0.06,-0.1,0.3,-0.4),max=c(1,1,1,1,1,1,1)) 
>| 


Maintenant que les spécifications du portefeuille sont faites, on peut lancer l'optimisation par 
Monte Carlo : 
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MR RGui (64-bit) - [R Console] — 


ŒR File Edit View Misc Packages Windows Help - mx 


> #on optimise pour avoir le plot de la frontière de Markowitz 

> #on attends quelques secondes ou minutes 

> opt_dn <- PortfolioAnalytics::optimize.portfolio(portfolioReturns, 

portf, 

optimize method="random", 


rebalance on="months", 
training period=1, 
rolling window=10, 
trace= TRUE) 


fet on affiche les portfeuilles 
ii dd main="Markowith Portfolio", risk.col="StdDev", neighbors=20) 


VVNVV+++++ ++ 


La sortie de session donnera: 


R RGui (64-bit) - [R Console] = D 


R File Edit View Misc Packages Windows Help en |0e 


> summary(opt_dn) 
kkkkkk RE R Rk k k R k Re ke h h k k he ke ke ke ke ke 


PortfolioAnalytics Optimization Summary 
KRRKRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRÉRRÉRRRRÉR RÉ R RÉ 


Call: 
PortfolioAnalytics::optimize.portfolio(R = portfolioReturns, 
portfolio = portf, optimize method = "random", trace = TRUE, 
rebalance on = "months", training period = 1, rolling window = 10, 
rp = rp) 
Optimal Weights: 
FB.Close AAPL.Close AMZN.Close NFLX.Close GOOGL.Close SQ.Close NVDA.Close 
0.106 0:222 0.114 0.100 0.248 0.100 0.100 


Objective Measures: 
mean 
0.00108 


StdDev 
0.01452 


Portfolio Assets and Initial Weights: 
FB.Close AAPL.Close AMZN.Close NFLX.Close GOOGL.Close SQ.Close NVDA.Close 
0.1428571 0.1428571 0.1428571 0.1428571 0.1428571 0.1428571 0.1428571 


RRKRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRR ARR RÉ RRRRR RÉ À KR 


PortfolioAnalytics Portfolio Specification 
kkkkkkkhkhkkkhkhkkkkkkkkkkkhkkkkhkkhkhkhkhkhkhkkkkhkkkkkkh kk kkk 


R Statistical Software 2620/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Et le graphique: 
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Maintenant on va analyser et plotter le rebalancement du portefeuille par mois, pour cela on 
écrira: 


R RGui (64-bit) - [R Console] = (me 


R File Edit View Misc Packages Windows Help -#,x 


> #on optimise pour analyser l'évolution des poids 

|> opt_rebal <- PortfolioAnalytics::optimize.portfolio.rebalancing(portfolioReturns, 
portf, 

optimize method="random", 

TP-rP7r 

rebalance on="months", 

training period=1, 

rolling window=10) 


+++++ + 


> 
> summary(opt rebal) 
kRkRRkRRkR RÉ À À À À À À À k k k k k k k k k ik ke À ke À À à ke ke À À à k ke À À 


PortfolioAnalytics Optimization with Rebalancing 
RAR RAR RRR RAR À À KR À À k k k k k k k k k k ke ke ke ke 


Call: 
PortfolioAnalytics::optimize.portfolio.rebalancing(R = portfolioReturns, 
portfolio = portf, optimize method = "random", rp = rp, rebalance on = "months", 


training period = 1, rolling window = 10) 


| First rebalance date: 
[11] "2016-01-29" 


Last rebalance date: 
[11] "2019-03-29" 


Annualized Portfolio Rebalancing Return: 
| [1] 0.2621835 


Annualized Portfolio Standard Deviation: 
[1] 0.2401668 


Downside Risk Measures: 
portfolio.returns 


Semi Deviation 0.0114 
Gain Deviation 0.0093 
Loss Deviation 0.0125 
Downside Deviation (MAR=210%) 0.0154 
|Downside Deviation (Rf=0%) 0.0110 
Downside Deviation (05%) 0.0110 
Maximum Drawdown 0.4187 
Historical VaR (95%) -0.0259 
|Historical ES (95%) -0.0386 
Modified VaR (95%) —0.0253 
“x pH ES (95%) —0.0433 
> 


Maintenant affichons le graphique correspondant: 
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R 
SROBCEUCE | 
> PortfolioAnalytics::chart.Weights(opt_rebal, main="Rebalanced Weights Over Time”) | 
1 
R [=] Ce) 23 
Rebalanced Weights Over Time 
[=] 
œ 
o 
(re) 
o 
œ 
=] 
w 
> 
+ 
s 
LT 
[=] 
[=] 
o Î Ï | Î 
Jan 16 Jul 16 Jan 17 Jul 17 Jan 18 Jul 18 Dec 18 
nm FB Close m AMZN Close M GOOGL.Close M NVDA Close 


M AAPL Close M NFLXClose m SQ Close 


Maintenant pour faire du backtesting, 1l nous faut un ou des portefeuilles de benchmark.…. 
nous allons donc les construire: 
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Li 
M File Ed Vie 


SFR 


> (equal weight <- rep(i / ncol(portfolioReturns), ncol(portfolioReturns))) 
[1] 0.1428571 0.1428571 0.1428571 0.1428571 0.1428571 0.1428571 0.1428571 
> benchmark <- PerformanceAnalytics::Return.portfolio(portfolioReturns, weights = equal weight) 
> colnames (benchmark) <- "Benchmark Portfolio" 
> head(benchmark) 
Benchmark Portfolio 


2016-01-05 -0.011832483 
2016-01-06 0.0033685648 
2016-01-07 -0.036580082 
2016-01-08 -0.007907097 
2016-01-11 0.016870462 
2016-01-12 0.014488606 


> 
> spS00prices <- getSymbols.yahoo("SPY", from='"2016-01-03', periodicity = ‘daily’, auto.assign=FALSE) [(,4)] 
> sp500Rets <- na.omit (ROC (spS500prices)) 

> spS00Rets <- as.xts(sp500Rets) 

[> head(spS00Rets) 

SPY.Close 

[2016-01-05 0.0016899303 

2016-01-06 -0.0126944278 

2016-01-07 -0.0242840547 

2016-01-08 -0.0110372652 

2016-01-11 0.0009895217 

2016-01-12 0.0080359350 

> 


Mais pour faire le backtesting avec ces portfolios, il nous faut aussi construire les rendements 
de nos portefeuilles optimisés et vue que ce que nous avons est uniquement leurs poids, nous 
allons devoir mettre un tout petit peu la main dans le cambouis pour en extraire les 
rendements correspondants: Ke 


Ÿ 
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R RGui (64-bit) - [R Console] — 


R File Edit View Misc Packages Windows Help SX 


GE 


> rebal_weights <- PortfolioAnalytics::extractWeights(opt_rebal) 
> head(rebal_ weights) 
FB.Close AAPL.Close AMZN.Close NFLX.Close GOOGL.Close SQ.Close NVDA.Close 


2016-01-29 0.100 0.100 0.100 0.102 0.100 0.154 0.334 
2016-02-29 0.100 0.100 0.100 0.100 0.336 0.100 0.158 
2016-03-31 0.202 0.100 0.100 0.112 0.256 0.100 0.120 
2016-04-29 0.162 0.222 0.100 0.100 0.100 0.100 0.220 
2016-05-31 0.224 0.130 0.168 0.100 0.100 0.102 0.166 
| 2016-06-30 0.100 0.386 0.104 0.100 0.104 0.100 0.100 


| > rebal_returns <- PerformanceAnalytics::Return.portfolio(portfolioReturns, weights=rebal weights) 
> head(rebal_returns) 
portfolio.returns 


2016-02-01 —0.006866786 
2016-02-02 —0.027820575 
2016-02-03 —0.007920239 
2016-02-04 0.003731294 
2016-02-05 —-0.053902943 
2016-02-08 —-0.025716076 
> 


> rets_ df <- cbind(rebal returns, benchmark, sp500Rets) 
> head(rets_df,25) 


portfolio.returns Benchmark.Portfolio SPY.Close 
2016-01-05 NA —1.183248e-02 0.0016899303 
2016-01-06 NA 3.385648e-03 -0.0126944278 
2016-01-07 NA —3.658008e-02 -0.0242840547 
2016-01-08 NA —7.907097e-03 -0.0110372652 
2016-01-11 NA 1.687046e-02 0.0009895217 
2016-01-12 NA 1.448861e-02 0.0080359350 
2016-01-13 NA —4.681438e-02 -0.0252569149 
2016-01-14 NA 4.209125e-06 0.0162835358 
2016-01-15 NA —3.741662e-02 -0.0216998829 
2016-01-19 NA —1.731043e-03 0.0013302474 
2016-01-20 NA —1.235290e-03 -0.0128979019 
2016-01-21 NA 1.774835e-03 0.0055863497 
2016-01-22 NA 2.098561e-02 0.0203076990 
2016-01-25 NA —9.701530e-03 -0.0152319688 
2016-01-26 NA —1.474812e-03 0.0135509062 
2016-01-27 NA —4.046526e-02 -0.0109428945 
2016-01-28 NA 4.112542e-02 0.0051956218 
2016-01-29 NA 2.323196e-03 0.0240849611 
2016-02-01 —0.006866786 4.946499e-03 -0.0003614477 
2016-02-02 —0.027820575 —2.076353e-02 -0.0181865309 
2016-02-03 —0.007920239 —1.320037e-02 0.0059770480 
2016-02-04 0.003731294 —1.414720e-03 0.0015670047 
2016-02-05 —-0.053902943 —5.220721e-02 -0.0192339428 
2016-02-08 —0.025716076 —1.872914e-02 -0.0135524427 
2016-02-09 0.009895919 6.474899e-03 0.0000539032 


> 
> PerformanceAnalytics::charts.PerformanceSummary(rets df, main="P/L Over Time") 
>| 


Et donc le graphique de backtesting et benchmarking donnera: 
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P/L Over Time 


Cumulative Return 2016-02-01 / 2019-03-29 


25 —— _portfolio.retums 
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Exemples 402.: Analyse de la performance 
R 3.0.2 


Avant de commencer il faut savoir que ce package ne peut manipuler que des séries 
temporelles de type xts même si le contraire est écrit. 


Nous nous concentrerons ici que sur des fonctionnalités du package dont les concepts sous- 
jacents ont été démontrés dans le cours théorique et sur certaines fonctionnalités ne 
nécessitant aucun package mathématique particulier mais qui sont visuellement élégantes. 


Plotter les retours/rendements (return) 


Avec la commande chart.CumReturns() du package PerformanceAnalytics en association 
avec la commande get.hist.quote() du package tseries nous pouvons plotter facilement le 
return en fonction du temps en utilisant les commandes Return.calculate( ) et 
chart.CumReturns() du package PerformanceAnalytics: 


El | 


R EEE 
> library("PerformanceAnalytics") 

> library("tseries") 

> prices<-get.hist.quote("IBM",start="2009-01-01",quote="AdjClose", 


+ compression="d") 

time series starts 2009-01-02 

time series ends 2019-11-08 

> ReturnIBM<-Return.calculate(prices,method="simple") 

>» ES RP ES Daily Returns for IBM") 
> 


Ce qui nous donne: 
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GR Graphics: Device 2 (ACTIVE ts | © |'&x | 

Cumulative Daily Returns for IBM 2009-01-05 / 2019-11-08 

15 

10 

05 

0.0 
RS RS RS RE CS RS PE RE PE DS 

Jan 05 2009 Jan 032011 Jan 022013 Jan022015 Jan032017 Jan 02 2019 


On peut comparer plusieurs tickets: 


El Xe > | 
Re R Console [sax] 
> library("PerformanceAnalytics") 
> library("tseries") 
> pricesIBM<-get.hist.quote("IBM",start="2009-01-01",quote="AdjClose", 

+ compression="d") 


> 
Fa 


> 


V+V VV 


time series starts 2009-01-02 
time series ends 2019-11-08 


time series starts 2009-01-02 
time series ends 2019-11-08 


pricesGO0G<-get.hist.quote ("GO0G",start="2009-01-01",quote="AdjClose", 
compression="d") 


ReturnsIBM<-Return.calculate(pricesIBM,method="simple") 
ReturnsGOOG<-Return.calculate (pricesGOO0G,method="simple") 
merged<- merge (ReturnsIEM,ReturnsGOOG) 

chart.CumReturns (merged,main="Total Returns IBM vs Google", 
| legend.loc="topleft") 


Ce qui donne: 
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El 


Œ R Graphics: Device 2 (ACTIVE (Ss|g|x|] 
Total Returns IBM vs Google 2009-01-05 / 2019-11-08 
— ReturnsIBM 
—  RetunsGO0G 
6 
4 
2 
Hg 
) 
Jan 05 2009 Jan 03 2011 Jan 02 2013 Jan 02 2015 Jan 03 2017 Jan 02 2019 


Et nous pouvons faire un plot des retours vis-à-vis d'un indice du marché: 
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> library(quantmod) 

> Bi<-get.hist.quote("Ba",start="2009-01-01",quote="àdijClose") #Boeing 

essai de l'URL 'http://chart.yahoo.com/table.csv?s=BAca=0£h=01ec=2009€6d=3€e=25€ef=$ 
Content type 'text/csv' length unknown 

URL ouverte 

downloaded 83 Kh 


time series starts 2009-01-02 
time series ends 2015-04-24 
> SPY<-get.hist.quote({"*GSPC",start="2009-01-01",quote="ädjClose") #SP500 


essai de l'URL 'http://chart.yahoo.com/table.csv?s="GSPCea=0€h=01ec=2009e6d=3€e=25$ 
Content type 'text/csv' length unknown 

URL ouverte D 

downloaded 115 Kb 


time series starts 2009-01-02 

time series ends 2015-04-24 

> BA.ret<-diff(log(BA)) 
SPY.ret<-diff(log(SPY)) 
pilot (x=SPY.ret,vy=BÀ.ret ,pch=20,xlab="Market Return" ,vylab="Boeing Return”, 
col=rgbh(0,0,100,50,maxColorValue=255),main="Boeing Return versus Market Return") 


Ce qui donne: 
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Boeing Return versus Market Return 


en 
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Plotter des ratios des performances cumulées 


Bon c'est vraiment le genre de fonctions qui ne sert qu'à gagner du temps sinon quoi nous 
pourrions le programmer nous-même.... 


Considérons le jeu de données suivant: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> data(managers) 
> managers 


HAM1 HAM2 HAM3 HAM6 EDHEC LS EQ SPS5SO0 TR US 10Y TR US 3m\TR 
1996-01-31 0.0074 Ni 0.0349 . Ni Ni 0.034000 0.003550 0.006 
1996-02-29 0.0193 Ni O.0351 . Ni Ni 0.009300 -0.03532 0.00398 
1996-03-31 0.0155 Ni 0.025858 . Ni Ni 0.009600 -0.01057 0.00371 
1996-04-30 -0.0091 Ni O.0449 . Ni Ni 0.014700 -0.01739 O0.00428 
1996-05-31 0.0076 Ni 0O.0353 . Ni Ni 0.025800 -0.00543 0.00443 
1996-06-30 -0.0039 Ni -0.0303 . Ni Ni 0.003800 0.01507 0.00412 
1996-07-31 -0.0231 Ni -0.0337 . Ni Ni -0.044200 -0.00100 O.00454 
1996-08-31 0.0395 -0.0001 O.0461 . Ni Ni 0.021100 -0.00448 0.004851 
1996-09-30 0.0147 O.1002 O.0653 . Ni Ni 0.056300 0.022229 0.00470 
1996-10-31 0.028588 0.0338 0.0395 . Ni Ni 0.027600 0.02869 0.004728 
1996-11-50 0.0156 0.0737 0.0666 Ni Ni 0.075600 0.02797 0.00427 
1996-12-31 0.0176 O0.0298 0.0214 Ni Ni -0.019800 -0.02094 0.00442 
1997-01-31 0.0212 0.0794 0.0771 Ni -0281 0.062500 -0.00055 0.00457 
1997-02-28 0.0022 -0.0082 -0.0374 Ni -0006 0.007600 -0.00167 0.00390 
1997-03-31 0.0094 -0.0269 -0.0336 Ni -0054 -0.041100 -0.01958 0.00422 
1997-04-50 0.0126 -0.0061 0.0286 Ni -0084 0.059700 0.01954 0.00477 
1997-05-51 0.0438 0.0539 0.0759 Ni -0394 0.060900 0.010353 0.005153 
1997-06-30 0.0231 O.0552 O.0054 Ni -0223 0.044800 0.01665 0.00365 
1997-07-31 0.0154 0.1150 O.1081 Ni -0454 0.079600 0.04161 O.00450 
1997-08-31 0.0237 -0.0197 -0.0028 Ni -0107 -0.056000 -0.02148 0.00428 
1997-09-50 0.0219 0.0576 0.0549 Ni -0429 0.054800 0.02153 0.00458 


0000006 0606 0 0 


Nous souhaitons comparer rapidement la performance des managers relatifs au rendement du 
SP500: 
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> chart.RelativePerformance (managers[(,1:6,drop=FALSE] ,managers(,8,drop=FALSE)], legend.loc="bottomrigh"}) 
> | 


Relative Performance 


À 
INÉNEITIRES A | 
A Pont ns des 


Ÿ 
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Figure 333 Graph des comparaisons de performances d'indices de marché 
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Plotter des corrélations par rapport à un indice sur une fenêtre 


Nous allons dans la même idée de confort qu'avant comparer la corrélation du rendement des 
managers par rapport à un indice donné sur une fenêtre par exemple de 12 mois. Nous 
utilisons alors la fonction chart.RollingCorrelation( ) : 


e à] 


R R Console EEE 


+ 


> library(Performanceinalytics) 
> chart.RollingCorrelation(managers(,1:6] ,managers[,68],legend.loc="bottomright", 
+ width=12,main="Rolling 12-month Correlation") 


5 


Rolling 12-month Correlation 


HAM1.t0.SP500.TR 
HAM2.t0.SP500.TR 
HAM3.to. SP500.TR 
HAMA4.to. SP500.TR 
HAMS.t0. SP500.TR 
HAM6.t0.SP500.TR 


TNT LL LL LA LEE LEELE 
janv. 96 juil. 97 janv. 99 juil. O0 janv. O2 juil. 03 janv. 05 juil. 06 


Bon voilà quoi rien d'extraordinaire…. 
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Plotter la moyenne et son intervalle de confiance sur une fenêtre 
temporelle 


L'idée est la même qu'avant mais avec une moyenne et son intervalle de confiance en utilisant 
la fonction chart.RollingMean( ) (attention comme à l'habitude de s'assurer de la conformité 
avec les hypothèses normalement à respecter pour utiliser ce type d'analyse!): 


R R Console 


EIRE 
> prices<-xts(c(100000, 150000, 90000, 125000, 80000,225000}),S$ys.Date()-6:1} 


> chart.RollingMeaniprices,width=2) 
> | 


R R Graphics: Device 2 (ACTIVE) 


Rolling 2-day Performance 


sept. 22 


sept. 17 sept. 18 sept. 19 sept. 20 sept. 21 


Avec un vrai jeu de données, cela donne quelque chose de plus intéressant: 
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For ME 


> library("#erformarceanalytics") 

> library("tseries") 

> prices<-gez-hiest.quote("TRN", start="2009-01-01",qmote="AïClose",compression="d") 
time series starts 209G-01-02 

Lime series ends 2019-11-12 

> ReturnIBM<-EFerformanceAnalytics::Return.calculaze (prices,metho3="discrete") 

> pe .RollingMean(tail (Return1iBM,400),width=3) 

> 


 F G'ophiez Dence 2 (ACTIVE SE 


Rolling 3-day Performance 2018-04-13 / 2019-11-12 


T T T T T T 
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Calculer le maximum Draw Down et faire un graph 


Nous avons vu dans le cours théorique une des définitions existantes du maximum Draw 
Down, nous allons voici ici si nous retrouvons le même résultat qu'à la main et que dans le 
cours MATLAB: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


library(Performancelnalytics) 
prices<-xts(c(100000,150000,90000,125000,80000,225000),Sys.Date()-6:1) 
rPrices<-Return.calculate (prices,method="simple") 

rPrices 


[;1] 
2014-09-17 NA 


2014-09-18 0.5000000 
2014-09-19 -0.4000000 
2014-09-20 0.35568889 
2014-09-21 -0.3600000 
2014-09-22 1.8125000 
> chart.Drawdowun(rPrices,geometric=FAiL$E) 
> maxDrawdown(rPrices) 
[1] 0.4666667 
Li 


No 
es de 
Nous obtenons bien le même résultat qu'avec MATLAB. Le graphique associé nous donne: 


R R Graphics: Device 2 (ACTIVE) Be AGE Eu 
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Pour ceux qui veulent comprendre ce graph, voici le code source de la fonction (c'est 
empirique et bête): 


A function (R, geometric = TRUE, ...) 
3 { # author Peter Carl 
4 
5 # DESCRIPTION: 
6 # Calculate the draudoun levels in a timeseries 
- 
8 # FUNCTION: 
9 
10 x = checkData(R}) 
65 x 
12 # Get dimensions and labels 
13 columns = ncol(x)} 
14 columnnames = colnames(x) 
5 
16 colDrawdowun <- function(x, geometric) { 
7 if(geometric) 
18 Return.cumulative = cumprod(1l+x)}) 
19 else 
20 Return.cumulative = 1+cumsum(x} 
21 maxCumulativeReturn = cummax(c(l,Return.cumulative))[-1] 
22 column.drawdoun = Return.cumulative/maxCumulativeReturn - 1 
2 } 
(# 
S 
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Plotter l'ECDF et l'histogramme des retours/rendements (return) 
Bon c'est un ultra-classique qui ne nécessite même pas d'explications. Il s'agit juste de voir 
que le package PerformanceAnalytics a aussi une commande ECDE propre qui compare à 


une loi Normale Centrée Réduite. 


D'abord nous importons les données: 


TR 


R File Edit View 


SPA] 


Packages Windows Help 


> library("PerformanceAnalytics") 

> library("tseries") 

> prices<-get.hist.quote("IBM",start="2014-01-01",end="2014-06-01",quote="AdjClose", 
+ compression="d") 

time series starts 2014-01-02 

time series ends 2014-05-30 


> ReturnIBM<-Return.calculate (prices,method="simple") 
> | 


Ensuite, nous comparons de façon très qualitative avec la commande chart.ECDF( ) : 


: 
ee MDE:) 
> chart.ECDF(ReturnIEM) 
>| 
R EE 
Empirical CDF 
a 
Le] 
o 
© 
o 
& 
[TE 
DA 
o 
N 
o 
a 
o 
-0.03 0.02 -0.01 0.00 0.01 0.02 0.03 
X 


ou dans sa version QQplot avec la commande chart.QQPlot() toujours du même package: 
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 R Console 


> chart.QCPlot (R.IBM,distribution="norm'",envelop=0.95; | 


un 
2 
= 
= 
[ua 
à 
G 
TG 
es 
— 
mi 
= 
LL] 


norm Quantiles 


Dans le même genre ultra-classique, nous avons avec la commande chart.Histogram( ) : 


R Statistical Software 2640/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


> chart.Histogram(R.IBM,methods=c{"add.density","add.rug",'"add.normal", 
+ "add.qaplot","add.risk")) 
> 


Returns 


Figure 334 Graph de la VaR avec Q-Q plot, histogramme, densité et jitter 


Notez le petit Q-Q plot dans le coin supérieur gauche. 
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MEDAF ou CAPM 


Les données utilisées ici seront les mêmes que celles utilisées dans le cours théorique lors de 
notre étude du modèle de diversification efficient de Sharpe. 


Nous allons voir comment retrouver les paramètres du MEDAF comme beta, la prime de 
risque. que nous avions calculé à la main. 


D'abord calculons le rendement moyen de chacun des titres avec des commandes classiques de 
R: 


_OnsO 

> require (PerformanceAnalytics) 
> # les données converties en Time series (series temporelles) 
> ra <- ts(c(-0.15,0.05,-0.43,0.79,0.32)) 
> rb <= ts(c{(0.29,0.16,0.24,0.25,0.17)) 
> re <- ts(c(0.38,0.63,0.46,0.36,-0.57)) 
> rm <- ts(c(0.45,0.61,0.54,0.29,0.12)) 
> data <- data.framel(ra,rb,rc,rm) 
> data 

ra rb rc rm 
1 -0.15 0.29 0.38 0.45 
2 0.05 0.18 0.63 0.61 
3 -0.43 0.24 0.46 0.54 
4 0.79 0.25 0.36 0.29 
S 0.32 0.17 -0.57 0.12 
> fl'espérance de chaque titre 
> (mu <-lapply(data,mean)) 
$ra 
[1] 0.116 
Srb 
[1] 0.226 
Src 
[1] 0.252 
Srm 
[1] 0.402 
> fl'espérance d'un titre 
> mu$rb 
[1] 0.226 
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Nous faisons ensuite d'autres petits calculs mais déjà pour certains qui sont plus pertinents et 
qui utilisent les commandes CAPM.beta() ou BetaCoVariance() du package 
PerformanceAnalytics: 


> #Obtenir la variance ou le risque des titre 
> (sigma <-lapply(data,var)) 

$ra 

[1] 0.21728 


$rb 
[1] 0.00253 


$rc 
[1] 0.22247 


$Srm 
[1] 0.03917 


> sigma$rb 

[1] 0.00253 

> #Obtenir le beta d'un titre 

> (beta <- cov(ra,rm)/var(rm)) 

[1] -1.498979 

> # Obtenir le beta d'un titre avec une fonction déjà existente 
> CAPM.beta(ra, rm,R£f=0) 

[1] -1.498979 

> # une autre fonction 

> BetaCoVariance(ra,rm) 

[1] -1.498979 

> #Obtenir le beta de plusieurs titres 

> (beta<- lapply(data,function(x)CAPM.beta(x,rm))) 
$ra 

[1] -1.498979 


$rb 
[1] 0.054506 


$rc 
[1] 2.1265 


Donc jusque là les résultats sont parfaitement conformes à ce que nous avions calculé à la 
main dans le cours théorique. 
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Maintenant calculons la prime de risque avec un actif sans risque de 5% (CML signifie pour 
rappel: droite de marché ou "Capital Market Line" en anglai) avec la commande 
CAPM.RiskPremium(}) du package PerformanceAnalytics ainsi que la rentabilité espérée 
avec la commande CAPM.CML ) : 


Re 


R R Console (nt) s) 


+ = - . 2 " 
> Déterminer la prime de risque de marché 


> (prime <- CAPM.RiskPremium(rm, R£ = 0.05)) 
[,1] 
Risk Premium (R£=5%) 0.352 
> # la rentabilité espérée d'un titre sur la droite de marché 
> CAPM.CML(ra,rm,R£f=0.05) 
[1] 0.2563117 
> fPour plusieurs titres 
> (cml <- lapply(dataf{,1:3,drop =F],function(x)CAPM.CML(x,rm,R£f=0.05))) 
$Sra 
[1] 0.2563117 


Srb 
[1] 0.4519521 


$rc 
[1] 0.4981944 


Comme nous l'avons démontré dans le cours c'est de l'algèbre élémentaire et donc nous 

n'avions pas fait d'applications numériques. Faisghs donc cela ici même exceptionnellement. 
Ÿ 

Rappelons que: à 


Nous avons alors dans le cas présent pour le premier exemple du CAPM.RiskPremium( ) : 
À = 0.402 — 0.05 = 0.352 
et ainsi de suite pour les autres... 


Ensuite comme la rentabilité espérée était aussi triviale dans le cours théorique, nous n'avions 
pas fait d'application numérique. Donc allons-y: 


EGRn)— Rs 


E(R,)= 
di (En) 


a(R,)+R, 


Nous avons alors dans le cas présent pour le premier exemple: 


__ 0.402 -0.05 


DIR = 
(Ri) /0.03917 


et donc nous n'obtenons pas la même chose. Cela semblerait à priori être une erreur du 
package. Effectivement dans le code source, nous avons (version 1.1.0): 


V0.2178 + 0.05 = 0.87904051 
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Sciences.ch 


CAPM.CML <- function (Ra, Rb, Rf = O0) 
{ #author Brian G. Peterson 


Ra = checkData(Ra) 

Rh = checkData(Rh} 

if(lis.null(dim(R£))) 
R£ = checkData(Rf) 


Ra.ncols = NCOL(Ra) 
Rb.ncols = NCOL(Rh}) 


pairs = expand.grid(i:Ra.ncols, 1:Rb.ncols) 


cml <-function (Ra, Rhb, Rf) 


{ 
CHL = mean(R£, na.rnF TRUE) + CAPM.CML.slope(Rhb, R£f)*mean(Ra, na.rnr TRUE) 


return(CML) 
} 


result = apply(pairs, 1, FUN = function(n, Ra, Rb, R£f) cml(Raf,n[1]1], Rb[,n[2]1], R£), Ra = Ra, 


if(length(result}) ==1) 
return(result) 


else { 
dim(result} = c(Ra.ncols, Rb.ncols) 


colnames(result) = paste("Capital Market Line:", colnames(Rb)} 
rownames(result) = 
return(t(result)) 


colnames(Ra) 


= Rb, Rf = Rf) 


Donc il y a bien une erreur car à ma connaissance on ne doit pas multiplier par la moyenne 


mais par l'écart-type! 


Nous pouvons avoir des indicateurs de ratios de performances avec le ratio de Sharpe utilisant 
la commande SharpeRatio( ) , l'alpha de Jensen avec la commande CAPM.jensenAlpha( ) 


et enfin le ratio de Treynor avec la commande KréynorRatio( ): 
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ï Console (cn || (Ses 
| A 
> data 
ra rb pe rm 
1 -0.15 0.29 0.38 0.45 
2 0.05 0.18 0.63 0.61 
3 -0.43 0.24 0.46 0.54 
4 0.79 0.25 0.36 0.29 
5 0.32 0.17 -0.57 0.12 
> fformater en xts 
> t<- paste("2010-0", 1:5, "-01", sep = "") 
> (data <- xts(data,as.Date(t))) 
ra rb rc rm 
2010-01-01 -0.15 0.29 0.38 0.45 
2010-02-01 0.05 0.18 0.63 0.61 
2010-03-01 -0.43 0.24 0.46 0.54 
2010-04-01 0.79 0.25 0.36 0.29 


2010-05-01 0.32 0.17 -0.57 0.12 

> # le ratio de Sharpe, il est possible de choisir le denominateur 

> # soi même ici le denominateur classic du ratio de Sharpe sigma = StdDev 

> SharpeRatio(data$rb,Rf=0.05,FUN ="StdDev" ) 
rb 

StdDev Sharpe (R£=5%, p=95%): 3.499068 

> #Pour plusieurs titre 

> SharpeRatio(as.xts(data{,1:3,drop=FALSE]), R£f = 0.05,FUN="StdDev") 
ra rb EC 

StdDev Sharpe (R£f=5%, p=95%): 0.1415905 3.499068 0.428268 

> # alpha de jensen 

> CAPM.jensenAlpha(as.xts(ra), as.xts(rm), R£ = 0.05) 

[1] 0.4975685 

> # le ratio de treynor 

> TreynorRatio(ra, rb, R£f = 0,modified = FALSE) 

[1] -0.0224735 


«ag 
NS 

O 
Bref rien d'extraordinaire ici... la finance est aVec la statistique le domaine expert dans la 


création à l'infini d'indicateurs empiriques... 


Il existe aussi des fonctions pour calculer le résidu epsilon de la droite de régression et alpha 
qui est l'ordonnée à l'origine en utilisant les commandes CAPM.alpha() et 
CAPMLepsilon() toujours du même package: 
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> library(iPerformancedinalytics) 

> ra<-ts(c(-0.15,0.05,-0.43,0.79,0.32)) 
> rb<-ts(c(0.29,0.18,0.24,0.25,0.17)) 

> CAPM.alpha(ra,rb,R£=0) 

[1] 0.4929644 


> CAPM.betai(ra,rb,R£=0) 


[1] -1.667984 

> CAPM.epsilon(as.xts(ra) ,as.xts(rb),R£=0) 
[1] -0.07989193 

> | 
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Là aussi rien d'extraordinaire. Le paramètre alpha étant simplement l'ordonnée à l'origine de 
la fonction de régression linéaire: 


R,=/f(R,)=BR,+a+e 
Nous n'avions pas calculé dans le cours théorique l'epsilon pour la simple raison que c'est une 


abstraction. L'auteur du package a fait le choix empirique et tout à fait discutable de 
déterminer celui sur la base du calcul suivant: 


e-[ftare))-1)- 4 Ta rr)-)-e 


Donc il s'agit de calculer la différence entre les rendements composé des deux portefeuilles. 
Choix tout à fait discutable. 
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Risque total, systématique et spécifique 


Maintenant revenons à la relation démontrée dans le cours théorique: 


2: 2 2 
O, — Poe + Os 


L 


Risque total (Risque systématique )? (Risque spcécifique )” 


Pour laquelle nous n'avons pas fait d'application numérique pratique (état donné les 
approximations implicites pour écrire cette relation qui par voie de conséquence est alors un 
peu trop scolaire). 


Observons que le package PerformanceAnalytics a les fonctions SystematicRisk( ) , 
SpecificRisk() et TotalRisk() pour cela (comme il existe plusieurs manières dans la 
pratique de calculer le risque spécifique. nous ne souhaitons pas ici valider comme nous le 
faisons d'habitude la sortie du logiciel). 


R R Console -=-|-©.] 3 
> ra<-ts(c(-0.15,0.05,-0.43,0.79,0.32)) s 
> rm<-tsic(0.45,0.61,0.54,0.29,0.12)j) 
> data<-data.frame(ra,rm) 
> #on formate en xts car une des fonctions n'accepte que cela 
> t<-pastel("2010-0",1:5,"-01",sep="") 
> data<-xts(data,as.Dateit)) 
> data 
ra ri 
2010-01-01 -0.15 0.45 
2010-02-01 0.05 0.61 
2010-03-01 -0.43 0.54 
2010-04-01 0.79 0.29 
2010-05-01 0.32 0.12 


> 
> fce serait à vérifier... 

> SyR<-SystematicRisk(datal,1i,drop=F],datal,2,drop=F],R£=0) 
> SyR 

[1] -1.027691826 

> SpR<-SpecificRisk(datal,1i,drop=F],datal,2,drop=F],R£f=0) 

> SpR 

[1] 1.113987257 

> TR<-TotalRisk(idatal,1i,drop=F]l,datal,2,drop=F] ,R£f=0) 

> TR 

[1] 1.515624656 

> 

> #check 

> sqrt(SyR"2+SpR"2) 

[1] 1.515624656 

> | 


« b 
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Modèle de Fama-French (CAPM multi-facteurs) et régression croisée de Fama- 
MacBeth 


Bon je ne veux pas débattre et m'étendre sur ce modèle empirique mais juste présenter 
brièvement sa mise en application car: 


1. Ilest censé faire partie de la culture générale du praticien 
2. Il m'est régulièrement demandé dans les formations 


Bon étant donné ma passion dévorante ([ironie off] pour ce modèle nous allons nous en tenir 
au minimum syndical. 


D'abord, nous allons sur le site d'un des auteurs du modèle 


http://mba.tuck.dartmouth.edu/pages/faculty/ken.french/data_library.html 


Pour télécharger les valeurs coefficients SMB (Small Minus Big: Facteur de taille) et HML 
(High Minus Low: Facteur de prix) pour les U.S. (dans le cas de l'exemple qui va suivre): 


< Web | mbatuck.dartmouth.edu/pages/faculty/ken.french/data_li (FH + Rechercher avec Google 


Current Research Returns 


We have revised the market retum used to measure Rm-Rfin the US. Itis now the value-weight return of 

al CRSP firms incorporated in the US and listed on the NYSE, AMEX, or NASDAQ that have a CRSP 

share code of 10 or 11 at the beginning of montht, good shares and price data at the beginning oft, and 
HOME good retum data for t. Previously we used the CRSP NYSE/ÉAMEXNASDAOQ Value-Weighted Market 

Index as the proxy for the market return. The set of finms in the new series is more consistent with the 
BI DERAPAY universe used to compute the other US returns. 


CURRIQUUM VITAE 
WORKNE PAPERS 
DATA Ligesey 


e US RESEARCH RETRNS 
e PENCHMAR£S 
e US RESEARCH BREAKPONTS Rm-Rf 
o US BOUk EGUITY DATA Le 
+ INTERNANONAL 
RESENRCH RETURNS Fama/French Research Portfolios 

+ DEVELGPED MARLET NEV! 

FACIDRS AND RETURNS Small Value 


Small Neutral 
CONSULTINE Small Growth 


RELATIONSHIPS 
FAMA l FRENCH FoRv Big Value 

Big Neutral 
CONTACT INFORMATION Big Growth 


Fama/French Research Factors 


Plus bas dans la page se trouve le lien qui nous intéresse: 
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mba.tuck.dartmouth.edu/pages/faculty/ken.french/data_li + Rechercher avec Google 


U.S. Research Returns Datal(Downloadable Files) 


Changes in CRSP Data 
Changes in Industry Specifications 


Fama/French Factors Detail: 
rench Factors [Weekly] Detail: 
Fama/French Factors [Daily] Detail: 


6 Portfolios Formed on Size and Book-to-Market (2 x 3) Detail: 

6 Portfolios Formed on Size and Book-to-Market (2 x 3) [ex. Dividends] Detail: 
6 Portfolios Formed on Size and Book-to-Market (2 x 3) [Weekly] Details 

6 Portfolios Formed on Size and Book-to-Market (2 x 3) [Daily] Data: 


25 Portfolios Formed on Size and Book-to-Market (5 x 5) Details 
25 Portfolios Formed on Size and Book-to-Market (5 x 5) [ex. Dividends] Details 
25 Portfolios Formed on Size and Book-to-Market (5 x 5) [Daïly] Dai 


100 Portfolios Formed on Size and Book-to-Market (10 x 10) Dei: 
100 Portfolios Formed on Size and Book-to-Market (10 x 10) [ex. Dividends] Details 
100 Portfolios Formed on Size and Book-to-Market (10 x 10) [Daïly] Detail: 


Portfolios Formed on Size Detail: 
Portfolios Formed on Size [ex. Dividends] Detaïle 
Portfolios Formed on Size [Daily] Detail: 


Portfolios Formed on Book-to-Market Datails 


Portfolios Formed on Book-to-Market [ex. Dividends] Detail: 
Portfolios Formed on Book-to-Market [Daïly] Detail: 


Portfolios Formed on Earnings/Price Detail 


S'y trouve alors un fichier avec les facteurs qui nous intéressent qui une fois un peu remanié et 
auquel on rajoute dans la dernière colonne notre investissement d'intérêt (11 s'agit d'un Fond 
comme un autre): 


Fichier Edition Format Affichage 


"Date","Mkt-RF" "SME" "HML' "REF" "EMAGX" 
200601,3.65,5.38,1.13,0.35,4.77 
200602,-0.5,-0.37,-0.84,0.34,-1.49 
200603,1.54,3.52,-0.02,0.37,2.68 
200604,0.94,-1.21,3.06,0.36,1.92 
200605,-3.53,-2.99,2.72,0.43,-4.83 
200606,-0.44,-0.47,1.48,0.4,-0.74 
200607,-0.59,-3.91,3.28,0.4,-3.13 
200608,2.09,0.79.-1.72,0.42,2.41 
200609,1.53,-1.19,-0.45,0.41,1.12 
200610,3.3,1.68,0.48,0.41,2.92 
200611,1.95,0.7,0.46,0.42,2.60 
200612,0.68,-0.9,2.55,0.4,-0.53 
200701,1.5,0.04,-0.09,0.44,2.86 
200702,-1.78,1.39,0.31,0.38,-1 64 
200703,0.87,-0.19,0.32,0.43,0.83 
200704,3.55,-2.11,-0.96,0.44,4.82 
200705,3.48.-0.07,-0.08,0.41,4.06 
200706,-1.87,0.65,-1.05,0.4,-0.42 
200707,-3.57,-2.71,-2.97,0.4,-1.83 
200708,0.75,-0.13,-2.35,0.42,1.16 
200709,3.77,-2.47,-2.09,0.32,6.21 
200710,2.26,0.08,-1.98,0.32,5.32 
200711,-5.27,-2.74.-0.99,0.34,-3.79 
200712,-0.7,0.06,-0.07,0.27,0.34 
200801,-6.44,-0.76,3.05,0.21,-3.95 


4 
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Et maintenant vient la partie R pour déterminer les coefficient de la régression croisée de 
Fama-MacBeth: 
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#on importe les données 
ff data <- read.table("c:/tmp/ffdata.csv",header=T,sep=",") 


rmrf<-ff datal,2] 
smb<-ff datal,3] 
hml<-ff datal,4] 
rf<-ff datal,s5] 

fund<-ff datal,6] 


# On lance la régression 
fund.xcess<-fund-rf 

ffregression <- Im(fund.xcess-rmrf+smb+hml) 
summary(ffregression) 


TVR VENTE 


Call: 
imiformula = fund.xcess + rmr£ + smb + hml) 


Residuals:] 
Min 10 Median 3Q Max 
-4.3944 -0.8162 -0.0333 0.9172 4.2174 


Coefficients: 
Estimate Std. Error t value Pri>ltl) 
{Intercept) -0.29216 0.194566 -1.502 0.13881 
EME T 1.21064 0.041774 29.002 < 2e-16 
0.151093 0.086647 1.747 0.08606 
-0.29893 0.07349 -4.068 0.00015 


Signif. codes: O0 ‘#*##° 0.001 ‘*f° 0.01 ‘$° 0.05 *.f 0.1 *" *“ 1 
Residual standard error: 1.491 on 56 degrees of freedom 


Multiple R-squared: 0.9509, idjusted R-squared: 0.9483 
F-statistic: 361.7 on 3 and 56 DF, p-value: < 2.2e-16 


Après libre à vous d'utiliser le modèle de la même manière que pour le CAPM (voir page 
2642). Bref la même chose peut être fait avec n'importe quel tableur d'entrée de gamme. 
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Exemples 403.: Values at Risk 
R 3.02 


Value at Risk Historique et Gaussienne 


Le but ici va être de vérifier si les calculs coïncident avec ce que nous avons vu dans le cours 
théorique lors de notre étude des nombreux modèles de Vak. 


Commençons par la VaR historique en utilisant la commande VaR( ) : 
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> ra 
Time Series: 
Start = 1 
End = 
Frequency = 1 
[1] -0.15 0.05 -0.43 0.79 0.32 
> sort(ra) 
C1] -0.43 -0.15 0.05 0.32 0.79 
> #avec un quantile basique pour vérifier 
> VaRira,p=0.75,method="historical") 
[1] 
VaR -0.15 
> #par contre dès que la valeur du quantile devient positive... 
> VaR(ra,p=0.5,method="historical") 
VaR calculation produces unreliable result (inverse risk) for column: 1 : 


Donc a priori rien à signaler de particulier. C'est logique et c'est trivial. 


Voyons donc maintenant la VaR gaussienne, toujours avec la commande VakR( ) : 
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> library(iPerformanceänalytics) 
> ra<-tsic(-0.15,0.05,-0.43,0.79,0.32)j) 
> VaRira,p=0.95,method="gqaussian") 
C1] 
 VaR -0.56977585 


#première vérification 

ra<-c(-0.15,0.05,-0.43,0.79,0.32) 

mz<- (var (ra) ) 

meani(ra)-sqrt (m2) fqnorm(0.95) 

1] -0.6507206 

fc'est pas ok... curieux car c'est la définition intuitive 
#et qu'on retrouve dans 995 des ouvrages 


#Si on regarde le code source on voit qu'ils centrent la v.a. 
#fet prennent la variance biaisée 
ra<-c(-0.15,0.05,-0.43,0.79,0.32) 

mi<- (var (ra-mean(ra))j)jft(lengthira)-1)/lengthira) 
mean(ra)-sqrt (m2) fqnorm(0.95) 

1] -0.5697758 


#c'est discutable tout ça et dangereux! 


> 
> 
> 
> 
> 
[ 
> 
> 
> 
> 
> 
> 
> 
> 
[ 
> 
> 
> 


Faisons maintenant un plot (malheureusement l'abscisse est imposée dans le code source du 
package mais on comme on a accès au code source...) en utilisant la commande 

chart. VaRSensitivity(}) et vérifions la correspondance avec les calculs faits précédemment 
(raison pour laquelle j'ai rajouté une ligne verticale): 


R Statistical Software 2653/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


> ca<-tsici-0.15,0-05;:-0.43,0,79;:0.32)1 
> chart.VaR$Sensitivity(ra,methods=c{("HistoricalvaR","GaussianvaRr")) 
> abline(h=0,v=0.95,col="bhlue") 
> VaR(ra,p=0.95,method="historical") 

C1] 
Vak -0.374 
> VaR(ira,p=0.95,method="qaussian") 

[;1] 

VaR -0.5697758 


Value at Risk 


Historical YaR 
Gaussian YaR 


| PTT IT T TI 
0.89 09 091 092 093 094 095 096 097 098 0.99 


Confidence Level 


Figure 335 Graph de l'intervalle de confiance de la VaR Gaussienne et Historique 


Donc nous voyons que tout est conforme! 
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Conditional VaR (Expected Shortfall) 


Nous avons démontré dans le cours théorique comment calculer la conditional VaR (Expected 
Shortfall) dans le cas Gaussien. Nous allons vérifier ici que nous retrouvons le même résultat 
que celui calculé à la main. 


Pour ce faire, nous allons utiliser la commande ES() avec des données provenant aussi d'une 
loi Normale: 
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Bel] [el él 


> library(Performanceinalytics) 
> values<-rnorm(in=100000 ,m=0,sd=1) 


> ES(values,p=0.99,method="gaussian") 

ES calculation produces unreliable result (risk over 100%) for column: 1 : 2.67081055425868 
C;1] 

ES -1 

> | 


Donc excepté les messages d'erreurs le résultat est bien le bon! 


Avec des données un peu plus réalistes, cela donne: 
No 
QŸ 


R File Edit View Misc Packages Windows Help IE: 


EROISCSINIE 


> library("PerformanceAnalytics") 
> prices<-getSymbols.yahoo("IBM",from="2014-01-01",to="2014-06-01",periodicty="daily",auto.assign=FALSE) [,4] 
> R.IBM <- na.omit (TTR::ROC(prices)) 
> ES(R.IBM, p = 0.99, method = "“gaussian") 
IBM.Close 
ES -0.02833656 
l> | 


ToDo: Trouver la raison de ce message d'erreur! 
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Plotter Écart-type ou la VaR historique/Gaussienne/Conditionnelle 


Sans vérifier si les données correspondent aux calculs effectués à la main, observons que nous 
pouvons avec le package PerformanceAnalytics obtenir simplement les 4 indicateurs de 
risque cités dans le titre. 


D'abord nous importons les données: 


| 


> library("Performanceanalytics") 

> library("quantmod") 

> prices<-getSymbols.yahoo ("IBM", from="2014-01-01",to="2014-06-01",periodicty="daily",auto.assign=FALSE) [,4] 
> R.IBM <- na.omit (TTR: : ROC (prices)) 

> 


——————————————————————————_—_—_—_—_—_aêLZaZaL 


Commençons par l'indicateur un peu hors catégorie (car indépendant de toute probabilité dans 
ce package) qui est l'écart-type seul avec un départ du calcul depuis le 10°" jour avec la 
fonction chart.BarVar( ): 


e 


R R Console = | O | 


12 


> chart.BarVaR(R.IBM,methods=c("StdDev"),gap=10) 
> 


R R Graphics: Device 2 (ACTIVE) 


— Std Dev 
III 


janv. 02 janv. 27 févr. 18 mars 10 mars 31 avr. 21 mai 12 mai 30 


Date 


R Statistical Software 2656/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Avec un départ du calcul à 20 jours: 


fl 
R R Console sex] 


> chart.BarVaR(R.IBM,methods=c{("StdDev"),qap=20) 


44 1 a, “pr 


—— Std Dev 
INA 


janv. 02 janv. 27 févr. 18 mars 10 mars 31 avr. 21 mai 12 mai 30 


Date 


et ainsi de suite. Voyons maintenant la même chose avec les 3 VaR à un niveau de 95% que 
nous avons vues dans le cours théorique avec aussi un départ des calculs à 10 et 20 jours: 
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RR Console PAIE) 


> chart.BarVaR(R.IBM,methods=c{("HistoricalvaR","GaussianvaR",'"GaussianES"),p=0.95,gap=10) 
> | 


—— Historical VaR (1 day, 95%) ---  Gaussian YaR (1 day, 95%) Gaussian ES (1 day, 95° 
MITIIIIMNNNINNIINNNNNININNINNNNIINNNINININNININININININIT 


janv. 02 janv. 21 févr. 10 mars 03 mars 24 avr. O7 avr. 21 mai05 mai 19 


Date 


Avec un départ du calcul à 20 jours: 
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R & Console EEE 


> chart.BarVaR(R.IBM,methods=c{("HistoricalvaR","GaussianvaR","GaussianEs"),p=0.95,gap=20) 
> | 


; ul le Il in y, 


—— Historical VaR (1 day, 95%) ---  Gaussian YaR (1 day, 95%) -': Gaussian ES (1 day, 95° 
TTITTITIINITMIIMTNNINIINIMINMIINIIMIINININIMNTMININIINNINNIIMININN 
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Figure 336 Graph VaR Hiorique é Gaussienne et Conditionnelle 
ù 
Faisons maintenant une compilation et un cas Slus esthétique avec un départ du calcul au 
début et un fenêtre (rolling) de 30 jours: 


R Statistical Software 2659/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Q FE Console sex 


> library("PerformanceZnalytics") 
> library("tseries") 
> 


> prices<-ger-hist.qmuote ("TRAM",start="2009-01-01",quote="AdjClose",compression="d") 
time series starts 2009-01-02 
time series ends 2019-11-12 

RoturnIEM<-Roturn.calculate (pricos,method-"discrete") 


> 
> 
> ton prend que les 20C dernières valeurs 
> ROCIBM<-ra . Oui L {TTR: : ROC (Lail (prices, 200) )) 
> par(mfrcw=c(2,2)) 
> chart.BarVaR (ROCIBM,methods=c("StdDev"),gap=0,width=30,main-"Ecart Type",colorse-=i) 
> chart.BarVak (ROC1BM,methods=c ("Historicalvank"),gap=0,width=30,main="HvVan",colorset=Z) 
> chart BarVaR (ROCIBM, methods=c ("ZzarssianVaR"),gap=),width=30,main-"CGVaR",colsreset=3) 
> chart.BarVaR (ROCIBM,methods=c ("3acssianES"),gap=0,width=30,main-"GESs",colorset=4|) 
> 
R 


RGraphics Devise 2 (ACTIVE) ER EX 


Ecart Type 2019-0:-31 / 2019-*1-12 HVaR 2019-01-31 / 2019-11-12 
0.04 
« L it | 
-0.04 
— Rolling 3)-day Std Dev — _ Kollinj 3U-day Historical Va (1 dy, Y£%) 
Jan 31 2019 May 01 2019 Aug 01 2019 Nov 01 2019 Jan 31 2019 May 01 2019 Aug 01 2019 Nov 01 2019 
GVaR 2019-0:-31 / 2019-11-12 GES 2019-01-31 /2019-1:-12 


0.04 0.04 


Map nm 


——  Hollng 33-dar Gaussian Vax (1 day, J2%) —— _ Kolling 3U-day GausSIAn ES (1 da), 95%) 
À 5 CE © 


Jan 31 2019 May 01 2019 Aug 01 2019 Nov 01 2019 Jan 31 2019 May 01 2019 Aug 01 219 Nov 01 2019 


R Statistical Software 2660/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Monte Carlo Value at Risk 


Voyons donc un cas particulier de la VaR de Monte Carlo mais l'idée est relativement 
facilement généralisable: 


R Fils Edit View Misc Packages Windows Help 
ÉSROIBOBIAIE 


#On génère aléatoirement deux séries de prix 
p<-matrix(c(rnorm(1000,mean=S0, sd=4),rnorm(1000,mean=S, sd=0.5)),nco1l=2); 
colnames (p)<-c("Ai","A2") 
head (p) 
Ai A2 
[1,] 47.20033 4.383123 
[2,] 43.43404 4.976469 
[3,1] 46.74710 4.676421 
[4,] 52.50418 4.665694 
[5,1] 46.65974 5.131612 
[6,] 48.99237 4.138979 
> 
poids<-c(0.4,0.6) 


> 
> 
> #on calcule les moyennes et écarts-types 
> (mu<-apply(p,2,mean)) 

Al A2 
50.085771 4.970927 
> (sigma<-cov(p)) 

Al A2 

A1 15.78649116 0.06390502 
A2 0.06390502 0.24301737 


library ("MASS") 


#on génère à partir du vecteur des moyennes 

fet de la matrice de covariance une loi normale bivariée 
MC<-mvrnorm(10000,mu, sigma) 

head (MC) 


Al A2 

[1,] 50.361800 4.495778 
[2,1 51.02892 5.105456 
[3,1 54.50432 3.901817 
[4,1] 53.58052 5.015394 
[5,1 51.40691 5.356199 
[6,1] 56.05881 5.200256 
> 
> 
> MCportfolio <- MC$*$as.matrix (poids) 
> head(MCportfolio) 

[1] 
[1,] 22.84219 
[2,] 23.47484 
[3,1] 24.14282 
[4,] 24.44144 
[5,1 23.776488 
[6,1 25.54368 
> 
> #et finalement la VaR Monte Carlo à 95% 
> quantile (MCportfolio,p=0.05) 

5% 

20.29566 
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Distribution de perte de portefeuille de Vasicek (distribution de 
Vasicek) 


Nous allons simplement ici voir si nous pouvons reproduire (et faire mieux) le petit calcul à la 
main relatif au modèle de grand portefeuille homogène, appelé aussi "Portefeuille homogène 
de Vasicek" sur lequel se sont basées les Exigences de fonds propres de Bâle (RWA: Basel's 
capital requirements). 


Donc refaisons le même calcul que dans le cours théorique: Quel est le 99.9ème centile 
associé à la probabilité de défaut de 0.05% d'un gros portefeuille homogène associée à une 
corrélation avec le marché de 0.257? 


Le calcul est simplement donné par la fonction qV ASIM( ) du package vasicekreg: 


° RGui (64-bit) - [R Console] [I] X 
R File Edit View Misc Packages Windows Help AE: 


> library("vasicekreg") 
> qVASIM(p = 0.999, mu = 0.005, sigma = 0.25) 
[1] 0.1169908 


” 


On retombe bien sur exactement la même valeur que dans le cours théorique! 


Contrairementa au cours théorique on peut rapidement faire certains graphiques qui peuvent 
être plus ou moins intéressants pour certains: 


R Statistical Software 2662/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


library("vasicekreg") 
set.seed(123) 


x <— rVASIM(n = 100000, mu = 0.005, sigma = 0.25) 

R <- range(x) 

S <- seg(from = R[1], to = R[2], length.out = 1000) 
hist(x, prob = TRUE, main ='Vasicek') 

lines(S, dVASIM(x = S, mu = 0.005, sigma = 0.25), col = 2) 


Vasicek 
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8 À Console 


> plot(ecdf (x)) 
> lines(S, pVASIM(q = S, mu = 0.005, sigma = 0.25), col = 2) 
> | 


QU R Graphics Device 2 (ACTIVE) 
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QU À Console 
> plot (quantile(x, probs = S), type = "l") 


> lines (qVASIM(p = S, mu = 0.005, sigma = 0.25), col = 2) 
> | 


QU R Graphics Device 2 (ACTIVE) 
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Exemple 404.: Pricing de SWAP de taux d'intérêts (IRS) 
R 3.53 


Bon nous avons mentionné dans le cours théorique que le pricing de SWAP est une vraie 
jungle étant donné qu'il y a plusieurs manières de calculer ces derniers et différents types de 

S WAP, que cela dépend de l'instrument financier, du type de méthode du calcul des taux ainsi 
que si on prend la partie fixe ouf flottant. 


Mais voyons déjà le cas simple d'un IRS (Interest Rate Swap) à l'aide de la fonction 
swap.rate( ) du package Financial Math: 


R File Edit View Misc Packages Windows Help 
BB 


> library("FinancialMath") 
> swap.rate(rates=c(.06/2, .07), type = "spot rate") 
[1] 0.06862247 
> 


QC 
N 
: Ds 5. Fe : 
Nous retombons donc bien sur la valeur du cours théorique calculée à la main! 


Courbe des taux zéro-coupons 


Nous avons pour les SWAPs (et pas que!) un élément central est l'estimation de la courbe des 
taux zéro-coupon. Il existe de nombreux modèles, mais un modèle semi-empirique 
relativement simple est celui de Nelson-Siegel. Voyons comment utiliser ce dernier à l'aide du 
package YieldCurve, en reprenant à l'identique l'exemple fourni dans la documentation du 
package, faisant appel à son jeu de de données FedYieldCurve et ses fonctions 

Nelson.Siegel( ) ainsi que NSRate( ): 
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MR RGui (64-bit) - [R Console] EL 


ŒR File Edit View Misc Packages Windows Help ere" 


EC] 


> library("YieldCurve") 
> data(FedYieldCurve) 
> class (FedYieldCurve) 


[1] "xts" "zoo" 
> dim(FedYieldCurve) 
[1] 372 8 


> head(FedYieldCurve, 10) 
R_3M R 6M R1Y R2Y R3Y RS5Y R7Y R 10Y 
1981-12-31 12.92 13.90 14.32 14.57 14.64 14.65 14.67 14.59 
1982-01-31 14.28 14.81 14.73 14.82 14.73 14.54 14.46 14.43 
1982-02-28 13-31 13-83 13-95 14:19 14-13 13.98 13.93 13:86 
1982-03-31 13.34 13.87 13.98 14.20 14.18 14.00 13.94 13.87 
1982-04-30 12-71 43-13 13-34 13:78 13-77 13:75 13-74 13-62 
1982-05-31 13.08 13.76 14.07 14.47 14.48 14.43 14.47 14.30 
1982-06-30 11.86 12.80 13.24 13.80 14.00 14.07 14.07 13.95 
1982-07-31 9.00 10.51 11.43 12.32 12.62 13.00 13.14 13.06 
1982-08-31 8.19 9.83 10.85 11.78 12.03 12.25 12.36 12:34 
1982-09-30 7.97 8.63 9.32 10.19 10.62 10.80 10.88 10.91 
Warning message: 
index class is Date, which does not support timezones. 
Expected "UTC' timezone, but indexTZ is ‘'' 
> maturity.Fed <- c(1/4, 0.5, 1,2,3,5,7,10) 
> (NSParameters<-Nelson.Siegel(rate=first (FedYieldCurve, '10 month'),maturity-maturity.Fed)) 
beta_0 beta_1 beta_2 lambda 
1981-12-31 14.34594 -1.76249751 3.650061 0.9999507 
1982-01-31 14.14681 0.05426534 2.219142 0.9999507 
1982-02-28 13.61065 -0.54316951 2.708078 0.9999507 
1982-03-31 13.61517 -0.51818755 2.757486 0.9999507 
1982-04-30 13.52630 -1.16619236 2.392793 0.9999340 
1982-05-31 14.13378 -1.43747932 3.237697 0.9999507 
1982-06-30 13.846996 -2.49133196 3.694406 0.9999507 
1982-07-31 13.021622 -4.77732118 4.909178 0.9999507 
1982-08-31 12.10749 -4.77732737 6.112491 0.9999507 
1982-09-30 11.02616 -3.75388964 2.730966 0.9999340 
Warning message: 
index class is Date, which does not support timezones. 
Expected "UTC' timezone, but indexTZ is ‘'' 
> (y <- NSrates (NSParameters[5,], maturity.Fed)) 
X0.25 X0.5 X1 X2 X3 XS5 X7 X10 
1982-04-30 12.74806 13.04023 13.42137 13.73275 13.79568 13.75386 13.6992 13.64886 
plot (maturity.Fed,FedYieldCurve[5,],main="Fitting Nelson-Siegel yield curve", 
xlab=c("Pillars in months"), type="o") 
lines (maturity.Fed,y, col=2) 
legend("topleft",legend=c("observed yield curve","fitted yield curve"),col=c(1,2),1lty=1) 
grid() 


VVNNVNV+V 


ñ 
La 


Ce qui donne graphiquement: 
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QU À Graphics: Device 2 (ACTIVE) 
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Exemple 405.: Classification ascendante hiérarchique de 


séries chronologiques 
R 3.0.2 


Nous allons voir ici l'utilisation de la technique de classification ascendante hiérarchique 
(étudiée dans le cours théorique) mais avec de séries chronologiques et dont le code a été mis 
à disposition sur un forum par Vincent ZOONEKYND et qui hasard faisant est d'usage 
courant dans certains instituts financiers en Suisse mais à ce jour plutôt avec Matlab (et donc 
avec un visuel beaucoup plus élémentaire). 


Commençons: 
R R Console -=-|-©.] Ex 
> # On crée six séries fictives de variables N(0,1) 7 
> n<-100 
> K<-6 
> d<-matrix (rnorm(k#n) ,nc=Kk) 
> #on fait exprès que 2 d'entre elles soient identiques pour tester le résultat final 
> daf,2]<-df,1] 
> #on donne des intitulés simples à chacune des séries 
> colnames (d) <-LETTERS[1:k] 
> #on somme les valeurs pour que le rendu de l'exemple soit moins fluctuant 
> x<-apply(d,2,cumsum) 
> #On fait un hclust des séries 
> r<-hclust(dist(t(d))) 
> #on crée un vecteur qui contiendra l'ordre des feuilles de l'arbre 
> #r$order donner les permutations qui faut faire à l'ordre d'origine 
> #pour construire l'arbre sans que les branches se croisent 
> o<-1:k:o[r$order]<-1:k;:0;:colnames (d) [r$order] 
[11341562 
[1] Lr'el Fr" rar rp" D" EE" 
> piotir]) 
> windows() #pour garder l'arbre d'origine sur une fenêtre à part 
> | 2 
« | (LL b 


Ce qui donne pour l'instant: 
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Cluster Dendrogram 


dist{t(d)) 
hclust (*, "complete" 


Ensuite: 


#On crée un plot avec l'art des commandes R... 

#d'abord on met les marges entre chaque future entité à zéro 

#et on met une marge à gauche de 2 pour pouvoir y mettre plus tard 

#fune structure de légendes particulières 

op <- par (mar=c(0,0,0,0),oma=c(0,2,0,0)) 

#fon prepare le plot avec un xlim de 5 pour pouvoir y mettre les 5 

#structures de graphe. Si l'arbre venait à avoir à niveau de plus 

#il faudrait ajouter une unité (on peut rendre ce script plus adaptatif...) 

pilot (NA,vylim=c(.5s,k+.5),xlim=c(0,4),axes=FALSE) 

# Dendrogram. See ?hclust for details. 

xe<-yce<-rep (NA,k) 

fon crée un vecteur qui à autant d'éléments que de séries pour écraser les légendes des axes 
#pour Ÿ on mettra le nom des séries et pour X on y mettra les séries et les niveaux de l'arbre 
xe<-ye<-rep (NA,k) 

#on dessine maintenant subtilement l'arbre de façon horizontale 

#on va utiliser la propriété merge de hclust qui renvoie une matrice 

r$imerge 


[1] [,2] 


[Le] “<Ÿ 2 
C2;] 4 =S 
[3] 1 
[4,] -6 


> 


=3 
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Avant de poursuivre, indiquons comment lire cette matrice. (aidez vous du graphe précédent 
pour vous aider!). 


5. 


La première ligne signifie que les éléments (séries chronologiques) 1 (A) et 2 (B) ont 
été fusionnés et comme ils sont des singletons, le signe est négatif. 

À la deuxième étape (deuxième ligne), nous avons les éléments (séries 
chronologiques) 4 (D) et 5 (E) ont été fusionnés et comme ils sont des singletons, le 
signe est négatif. 

À la troisième ligne, comme les valeurs sont positives, cela signifie que nous avons 
associé les deux premiers associations (donc celles des deux premières étapes) 
ensemble. 

À la quatrième ligne, nous associons le E° (F) élément (62° série chronologie) avec 
l'association de la ligne 3 de cette même matrice {1,2}. 

et ainsi de suite... 


Nous poursuivons: 


Ce 


R R Console = || © |[5%m} 


> #on construit subtilement l'arbre à l'horizontale 
> 0: 
[11 3 #4 1 5 6 2 

> gridij #la grille comme aide visuelle pour comprendre ce qui se passe 
> v<-0 #pour comprendre ce qui est fait dans la boucle 

> forii in 1:(Kk-1)) { 


+ 


HR RH OO + + + + + + 


“ 


#pour rappel 


a <- r$mergeli,1] 

Xi <— if( a<0 j of[-a] else xcfa] 

y1 <- if( a<0 ) O0 else ycla] 

b <- r$merge[i,2] 

X2 <— if( b<O j of[-b] else xcfh] 

y2 <= 1£{ b<O ) O else yelb] 

#fjuste pour comprendre la construction 
v<-rbind(v,c(i=i,a=a,b=b,x1=x1,vi=y1,x2=x2,v2=v2)) 

#on construit deux lignes parallèles à chaque itération 

#on divise par k pour que l'arbre soit pas trop en longuer horizontalement 

#et ne déborde ainsi pas de la zone du graphique (mais c'est un choix empirique) 
#plus on est loin des feuilles moins les branches sont épaisses aussi 
readline() #pour voir la construction étape par étape 

print{v[-1,]) #pour voir le détails des calculs étape par étape 

#ne pas oublier que la commande line utilise les coordonnées du point précédent 
#donc en dessinant 4 points comme ci-dessous on dessine un branche! 
lines(3+c(yl,i,i,v2)/k,c(x1i,x1,x2,x2),luwud=k-i) 

xc[i] <- (x1+x2)/2 

yoli] <= i 


Ce qui donne à la première itération (puisque nous avons mis une pause avec la commande 
readline( ) ): 
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#donc en dessinant 4 points comme ci-dessous on dessine un branche! 
lines(3+c(iyvi,i,i,v2)/k,cixi,x1,x2,x2),luwud=k-i) 

xc[i] <- (xi+x2)/2 

yeli] <= i 


i a hb xi yi x2 ye 
1-1 -2 3 0 4 0 


à la deuxième itération: 
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a bb xi yil x2 y2 
-1 -2 3 0 4 0 


b x1 vil x2 y2 
-2 3 0 4 0 
-5 5 0 6 0 


à la troisième itération: 
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à la quatrième itération: 
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et enfin à la cinquième et dernière itération: 
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Æ R Console 


Pour la suite enlevez le readline( ) sinon quoi cela va poser des problèmes!!! 


Maintenant, nous posons les séries chronologiques en face des feuilles ainsi que l'axe des 
légendes: 
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> #Section où on "dessine" les courbes chronologiques 
> #d'abord on met sur l'axe Ÿ les lettre des colonnes de l'ordre du clust 
> axis(2,1:k,colnames (d) [r$order],las=1) 
> u<-par()$usr:u #les marges du graphiques par défaut 
[11 =0.16 4.16 0.26 6:74 
> r$order #pour rappel... 
[A], 3:6 1.2 4 5 
» forii in L6K) { 
+ £<- c(0,3,i-.5,i+.5) 
£ <- el 
(£[1]-uf[1])/(u[2]-uf1]), 
(£(2]-u(1])/(u[2]-u[1]), 
(£(3]-u[3])/(u[4]-u(3]), 
(£[4]-u[3])/(u[4]-u[3]) 
} 
par (new=TRUE, fig=f) 
#on ajoute simplement la courbe i qui nous intéresse dans la zone délimite par f 
plot(x{,r$order{[i]],axes=FALSE,xlab="",ylab="",main="",type="1",col="navy", lud=2) 
box () 
} 
par (op) 


+ 
— 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
4 
+ 
> 
>| 


Ce qui donne au final: 
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Figure 337 Graph de classification ascendante hiérarchique de séries temporelles 
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Voici le script sans les commentaires pour ceux qui veulent copier/coller (c'est un excellent 
exercice à décortiquer pour le cerveau!): 


n <- 100 
k <- 6 
d <- matrix(rnorm(k*n),nc=k) 
df,2] <- d[f,1]colnames(d) <- LETTERS[1:k] 
x <- apply(d,2,cumsum) 
r <- hclust(dist(t(d))) 
op <- par(mar=c(0,0,0,0),oma=c(0,2,0,0)) 
plot (NA,ylim=c(.S,k+.5), xlim=c(0,4),axes=FALSE 
XC <—- yc <- rep(NA,Kk) 
o <- 1:k 
ofr$order] <- 1:k 
for(i in 1:(k-1)) { 
a <- r$mergeli,1] 
x1 <- if( a<0 ) of-a] else xc{a] 
yl <—- 1f( a<0 ) 0 else ycla] 
b <- r$mergeli,2] 
x2 <—- if( b<0O ) of-b] else xc{b] 
y2 <— 1f( b<0O ) O0 else ycfb] 
lines 
3+c(y1,i,i,y2)/k, 
c(xl,x1l,x2,x2), 
lwd=k-i 


— 


} 


axis(2,1:k,colnames (d) [r$order],las=1) 


u <- par()$usr & 
for(i in 1:k) { eŸ 
F <= .et0,8: 1,5, 14.5) 
LE: <=: :C'( 
(£{1]-uf1])/(ul2]-ul1]), 
(£{2]-uf1])/(ul2]-ul1]), 
(£[3]-ul[3])/(ul4]-ul3]), 
(£[4]-u[3])/(ul4]-ul3]) 


par (new=TRUE, fig=f) 


plot(x{,rS$order[i]],axes=FALSE,xlab="",ylab="",main="",type="l",col="navy", 
lwd=2) 
box () 
} 
par (op) 
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Exemple 406.: Modèle Merton-KM/V de risque de défaut 
R 3.6.1 


Nous allons ici faire un cas pratique de calcul du modèle Merton-KMV basées sur les mêmes 
valeurs que celles utilisées dans la démonstration faire avec Microsoft Excel. 


Nous utilisons pour cela le package ifrogs et la fonction dtd( ) (qui donne combien d'écarts- 
types est une entreprise loin du point par défaut): 


R File Edit View Misc Packages Windows Help FX 


ÉBSOISEOSIOE 


> library("ifrogs") 
| > dtd(mcap=10123543670, debt=121047000000, vol=0.42600148, r=0.0075) 
| dtd.v asset.v sigma.v 

à bd 1.311705e+11 3.291993e-02 

- à 


Nous ne somme pas trop loin du résultat obtenu avec Microsoft Excel (à quelques pourcents) 
et MATLAB. À nouveau ce genre de différences explique pourquoi il faut tester plusieurs 
solutions informatiques pour comparer les résuliâts. 
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Exemple 407.: Évaluation immobilière (real estate) 


R 3.6.1 


Influence des investissements 


Une analyse de l'influence supposée des investissements sur le tourisme: 


R R 
R File Edit View M 


Windows Help 


> mydata 

L +995 8461.5 1389.0 
2: 2996 11924.2 1040.7 
3: 12997 92415-1 627.3 
4 1998 7758.8 581.4 
5: 1999 6072.9 526.3 
6 2000 5491.7 316.7 
7 2001 5237.2 584.8 
8 2002 4586.9 557.0 
9 2003 4556.1 704.4 
10 2004 4850.4 956.9 
11 2005 5872.2 1080.6 
12 2006 7060.5 1332.0 
13 2007 8402.4 1600.9 


> summary(aov(GDP_in Million RON-.,data=mydata[,-1])) 
Df Sum Sq Mean Sq F value 


Hotel _ Restaurants Investments 1 9638396 9638396 9.282 
Tourists_In_Thousands 1 38464246 38464246 37.041 
| Overnight _Stays_In_Thousands L 915578 915578 0.882 
Residuals 9 9345893 1038433 


> summary(lm(GDP_in Million RON-.,data=mydatal,-1])) 


Call: 
| 1m(formula = GDP_in Million RON - ., data = mydatal, -1]) 


Residuals: 
Min 10 Median 3a Max 
—1248.3 -381.9 -169.0 608.5 1702.2 


Coefficients: 
Estimate Std. Error t value 
(Intercept) —1.621e+04 3.623e+03 -4.474 
| Hotel _ Restaurants Investments -8.174e+00 2.167e+00 -3.771 
Tourists_In_Thousands 6.585e+00 1.749e+00 3.765 


Overnight _Stays_ In _ Thousands -3.888e-01 4.141e-01 -0.939 
Residual standard error: 1019 on 9 degrees of freedom 
Multiple R-squared: 0.8399, Adjusted R-squared: 0.7865 
F-statistic: 15.73 on 3 and 9 DF, p-value: 0.0006344 


E 


0. 
0. 
0. 


> mydata<-read.csv("c:/tmp/Tourism Romanian _ 1995 2007.csv",header=T, sep: 
> colnames (mydata)<-c("Year","GDP_in Million RON","Hotel Restaurants Investments", "Tourists In Thousands", 


Pr(>F) 
013869 
000182 
372253 


Pr(>Itl) 
0.00155 
0.00441 
0.00445 
0.37225 


7070 
6595 
5727 
5552 
5109 
4920 
4875 
4847 
5057 
5639 
5805 
6216 
6972 


skip=1) 


Year GDP_in Million RON Hotel Restaurants Investments Tourists In Thousands Overnight Stays_In_Thousands 


24111 
21838 
19611 
19183 
17670 
17647 
18122 
17277 
17845 
18501 
18373 
18992 
20593 


Overnight _Stays_In_ Thousands") 
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27. Finance Actuarielle 


Le but de ce chapitre va être de vérifier les résultats renvoyés par le package 
lifecontingencies correspond aux résultats obtenus suites aux quelques démonstrations 
mathématiques triviales étudiées dans le cours théorique d'introduction élémentaire à la 
finance actuarielle. 


Pour des données à télécharger, vous pouvez visiter: 


http://www.mortality.org 


Pour cela, nous utiliserons le fichier suivant: 


Fichier Edition Format Affichage ? 


Age;survivants 
0,100000 
1,99129 
2,99057 
3:99010 
4:93977 
5,98948 
6,93921 
7:98897 
8,98876 
9:98855 
10,98835 
11:98814 
12:98793 
13:98771 
14,98745 
15,98712 
16,98667 
17,98606 
18,98520 
19,9840é 
2098277 
21,98137 
22:97987 
23,97830 
24:97677 
25,97524 
26,97373 
27,97222 
28,97070 
2996916 
3096759 
31,96597 
32:,96429 
33,96255 


« 


qui se poursuit bien évidemment au-delà de 33 ans... 
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Exemple 408.: Générer une table des survivants simple et 


indicateurs de survies 
R 3.02 


Nous chargeons donc d'abord le package lifecontingencies et le fichier *.csv qui nous 
intéresse: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> library(lifecontingencies) 
> mydata<-read.csv("C:/Survie.csv",header=T,sep=";") 
> head(mydata) 
ige Survivants 
(a) 100000 
99129 
99057 
99010 
98977 
98948 


e 
Nous avons alors en utilisant la commande new("'lifetable'"..) du package lifecontingencies: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> mydata<-new("lifetable",x=mydata$ige,lx=mydata$Survivants,name="mydata") 
> mydata 
Life table mydata 


1x px ex 
100000 0.9912900 .7944800 
99129 0.9992737 .2583603 
99057 0.9995255 -2963445 
99010 0.9996667 .3206949 
98977 0.9997070 .3374723 
98948 0.9997271 .3519323 
98921 0.9997574 .3651298 
98897 0.9997877 .3766242 
98876 0.9997876 .3864740 
98855 0.9997977 -.3961155 
98835 0.9997875 . 4050994 
98814 0.9997875 .4143239 
98793 0.9997773 .4233397 
98771 0.9997368 .4325662 
98745 0.9996658 .4432123 


© -J o in + © Dh © X 


1 
2 
3 
4 
5 
6 
7 
8 
9 


HHHHHH 
in H © NN h © 
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avec au passage un petit plot: 


R R Console 


> plot imydata) 


life table mydata 


24 
in 
= 
+ 
Lu] 
[en 
© 
= 
La 
TZ 
[en 
[e) 
[en 


30 40 


x values 


Pour les deux premières colonnes x et /x il n'y a rien de particulier à dire. 


La colonne px est très simple à calculer à la main: 
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« 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> mydata<-read.csv{("C:/Survie.csv",header=T,sep=";") 
> lagSurvivants<-c(mydata$Survivants[-1],Nà) 
> px<-lagSurvivants/mydatafSurvivants 
> px 
[1] 
[3] 
[15] 
[22] 
[29] 
[36] 
[43] 
[50] 
> | 


.9912900 
.-9997877 
.9996658 
.9984715 
.9984135 
.9978932 
.-9966660 
.9939342 


.9992737 
.9997876 
.9995441 0.9993818 
-9983977 0.9954361 


0.9995255 
(e) 
(a) 
(a) 
.-9965800 0.9983257 
(a) 
(a) 
(e) 


.9997977 


.9996667 
.9997875 
.9991278 
.-9954336 
.-9962608 
.9974500 
.9956406 
.9919563 


.-9997070 0.9997271 0.9997574 
.9997875 0.9997773 0.9997368 
.9958429 0.9986891 0.9985755 
.9954517 0.9984493 0.9954366 
-.9981956 0.9980884 0.9979911 
.-9973576 0.9971503 0.9965661 
.9953412 0.9949943 0.9945444 
-9912153 0.9903876 Ni 


-.9977737 0.9976326 
-9962394 0.9959151 
-9933134 0.9926606 


00000000 


() 
(a) 
(a) 
(a) 
(a) 
() 
() 
(a) 


O00C000G00000 
O00000000 


La colonne ex qui donne l'espérance de vie à la naissance est déjà plus intéressante à vérifier 
pour voir si elle correspond aux notions vues dans le cours théorique. Pour obtenir l'espérance 
de vie à la naissance relativement à cette table, nous savons qu'il suffit de faire la somme des 
probabilités de survie de la fin jusqu'au temps d'intérêt divisé par la probabilité de survie 
jusqu'à ce même temps d'intérêt. Comme je n'ai pas trouvé dans R une commande unique 
pour vérifier cela à la main nous pouvons dansË cas présent nous reporter à la feuille 
Microsoft Excel suivante: 
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Sciences.ch 


Surnivants (/,) Proportion Px Espérance de wiee, 
100000 1.000000 0.991290 52.794480 
99129 0.991290 0.999274 52.258360 
99057 0.990570 0.999526 51.296345 
99010 0.990100 0.999667 50.320695 
983977 0.989770 0.999707 49.337472 
93943 0.989480 0.999727 48.351932 
93921 0.989210 0.999757 47.365130 
98897 0.983970 0.999788 46.376624 
93876 0.988760 0.999788 45.386474 
98855 0.988550 0.999798 44.396116 
98835 0.988350 0.999788 43.405099 
93814 0.988140 0.999787 42.414324 
93793 0.987930 0.999777 41.423340 
98771 0.987710 0.999737 40.432566 
98745 0.987450 0.999666 39.443212 
93712 0.987120 0.999544 38.456398 
98667 0.986670 0.999382 37.473938 
93606 0.986060 0.999128 36.497120 
93520 0.985200 0.993843 35.528979 
93406 0.984060 0.998689 34.570138 
Avec toute simplement: 
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Sciences.ch 


Migce Survivants (,) Proportion p: Espérance de ee, 
2 100000 —=B2/B2 =C3/C2 =SOMME(C3:$C$57/C2 
1 99129 —B3/$B$2 —C4/C3 =SOMME(CA4:FCF57)/C3 
4 99057 —B4/FB$2 —=C5/C4 =SOMME{CS5:$CF57/C4 
5 EË 99010 =BS/FB$2  —=Cé6/Cs =SOMME(C6:FCF57CS5 
: [4 98977 —B6/FB$S2 —C7/C6 =SOMME(C7:$CF57)/CE 
TE 98948 —B7/FBS2 —C8/C7 =SOMME(CS:$CF57/C7 
8 98921 =BS/FB$2 —C9/C8 =SOMME(C9:FCF57/C8 
°° & 98897 =B9/$B$2 —=C10/C9 =SOMME(C10:$C$57)/C9 
10 EË 98876 =B10/$B$2 —C11/C10 =SOMME(C11:5C$57%C10 
n° 98855 =B11/$B$2 —C12/C11 =SOMME(C12:$C$57/C11 
PD10 93835 =B12/$B$2 =C13/C12 =SOMME(C13:$C$57)/C12 
13 hi 98814 =B13/$B$2 —=C14/C13 =SOMME{(C14:$C$57/C13 
IEM12 93793 =B14/FB$2 —C15/C14 =SOMME(C15:$C$57)/C 14 
mn 15 93771 —=B15/FB$2 —C16/C15 =SOMME(C16:$C$57/C15 
D 14 93745 =B16/$B$2 =C17/C16 =SOMME(C17:$C$57/C16 
mn 15 93712 =B17/$B$2 =C18/C17 =SOMME(C18:$C$57)/C17 
IEn15 93667 —B18/FB$2 —C19/C18 =SOMME(C19:$C$57/C18 
En17 93606 =B19/$B$2 —=C20/C19 =SOMME(C20:$C$57/C19 
Mn13 93520 =B20/$B$2 —=C21/C20 =SOMME(C21:$C$57)/C20 
19 98406 =B21/$B$2 =C22/Ce1 =SOMME{C22:5C$57VC21 


Ne) 
. LE L Ÿ L s | s Le 
Nous pouvons ensuite calculer la probabilité dè la durée encore à vivre, c'est-à-dire dans le 
cas de l'exemple ci-dessous la probabilité que si un individu est encore vivant à 20 ans qu'il 


atteigne les 20+30=50 ans en utilisant la commande pxt( ) : 


R Fichier Edition Voir Misc Packages Fenétres Aide 


> pxt(life,x=20,t=30) 


[1] 0.9236953 


> 


Ce qui correspond bien à au résultat vu dans le cours théorique: 


Espérance de wee, 


lise Survivants (/,) Proportion  p, 


2 (l 100000 1.000000 0.991290 52.794480 Probabilité d'atteindre 50 ans lorsqu'on est encore vivant à 20 ans: 
1 99129 0.991290 0.999274 52.258360 302 20: 0.923695 
4 2 99057 0.990570 0.999526 51.296345 
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Soit explicitement: 


Probabilté d'attendre 50 ans lorsqu'on est encore vivant à 20 ans: 


302 20: =C52/C22 


Soit la proportion de survivants à 50 ans sur la proportion de survivants à 20 ans. 


Le package intègre plusieurs techniques empiriques d'interpolation pour des âges non entiers: 


Gui (64-bit) - [R 
R Fichier Edition Voir Misc Packages Fenêtres Aide 


> qxt(life,x=20,t=30) 

[1] 0.07630473 

> qxt(life,x=20,t=30.5,"linear") 

[1] 0.07939294 

> qxtilife,x=20,t=30.5,"constant force") 
[1] 0.07939812 

> qxt{life,x=20,t=30.5,"hyperbolic") 
[1] 0.0794033 

> qxt(life,x=20,t=30.5) 

[1] 0.07939294 

> | 


« 
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> qxt(life,x=20,t=30) 
[1] 0.07630473 


> | 
Û 


Ce qui correspond bien à au résultat vu dans le cours théorique: 
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Probabilté d'attendre 50 ans lorsqu'on est encore vivant à 20 ans: 
302 20: 0.923695 


Probabilté de décéder entre la 20ème et 50ème année: 
304 20: 0.07630473 


Soit explicitement: 


Probabilité d'atteimdre 50 ans lorsqu'on est encore vivant à 20 ans: 
302 20: =C52/C22 


Probabiité de décéder entre la 20ème et 50ème année: 
304 20: ={(C22-C52yC22 


Il est aussi possible de travailler sur plusieurs têtes de plusieurs tables différentes de vie. Par 
exemple si dans notre cas nous souhaitons savoir quelle est la probabilité jointe (pour rappel 
c'est donc par définition le produit des probabilités) de survie que deux individus d'âge de 
départ identiques ou différentes ont de survivre pendant la même période de temps, nous 
utilisons alors la commande pxyt() qui correspôhd dupe 


EC -bit 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> pxyt(life,life,x=20,y=20,t=30,status="joint") 


[1] 0.853213 

> pxt(life,x=20,t=30) *pxt(life,x=20,t=30) 
[11 0,853213 

> | 


Ou pour avoir la probabilité qu'une des personnes soit encore en vie (2 événements 
incompatibles non nécessairement disjoints) , D 
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R Fichier Edition Voir Misc Packages Fenêtres Aide 


IEBROISOSIOIE 


> pxyt (life, life,x=20,y=21,t=30,status="last") 
[1] 0.9938062 
> pxt(life,20,t=30)+pxt(life,21,t=30)-pxtilife,20,t=30) f*pxt{life,21,t=30) 


[1] 0.9938062 

> pxt(life,20,t=30)+pxt(life,21,t=30)-pxyt (life, life,x=20,y=21,t=30,status="joint") 
[1] 0.9938062 

> | 


W 
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Exemple 409.: Capitals différés (annuités) 
R 3.0.2 


Nous pouvons aussi contrôler que les calculs de capitaux différés dans le cours théorique de 
techniques de gestion sont accessibles avec ce même package lifecontingencies. 


Calculons la valeur probable d'un capital qui pour rappel est donné par: 


m Ds m 
m Ex = , Fo m Px 


X 


Donc en utilisant la commande Exn() ou pxt() , nous avons: 


— Fichier Edition Voir Misc Packages Fenêtres Aide 


ÉBROISCSINIE 


> Exn(life,x=20,n=10,i=0.1) 
[1] 0.3795881 


> pxt(life,20,t=10)/(1+0.1)"10 
[1] 0.3795881 
> | 


Les calculs d'annuités sont alors probablement in extenso faciles à obtenir. Rappelons la 
relation de la rente viagère temporaire praenumerando démontrée dans le cours théorique: 


PTT S 
ar 1+£ Su +g 2 sr NS Sxtn-l LT je Sue xH 
Sy f=0 Sy 


Ce calcul se fait avec la commande axn( ) : 
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> axn(life,x=20,n=10,i=0.1) 
[1] 6.720642 


#check 


Ex<-Vectorize(function(N){Exn(life,x=20,n=N,i=0.1)}) 
sumiEx(0:9)) D 

[1] 6.720642 

> | 


> 
> 
> 
> 


Voyons maintenant comment reproduire les calculs que nous avions fait dans Microsoft Excel 
à l'aide des fonctions annuïty.pv( ), annuity.fv(), annuity.rate( ) et annuity.periods( ) du 
package jrvFinance: 


GR RGui (64-bit) - [R Console EL J d | 


R File Edit View Misc Packages Windows Help x 


> library("jrvFinance") 

> #Valeur actuelle d'une rente postnumerando de 3'500.- versée durant 10 ans 
> tet calculée au taux d'intérêt de 6% 

> annuity.pv(rate=0.06, instalment = 3500, n.periods=10, cf.freq=1) 

[1] 25760.3 | 
> 

> #Valeur finale d'une rente postnumerando de 3'500.- versée durant 10 ans 

> tet calculée au taux d'intérêt de 6% 

> annuity.fv(rate-=0.06, instalment = 3500, n.periods=-10, cf.freq=1) 

[1] 46132.78 

> 


> fvaleur actuelle d'une rente pranumerando de 3'500.- versée durant 10 ans et calculée 
> #au taux d'intérêt de 6% 

> annuity.pv(rate=0.06, instalment = 3500, immediate.start=TRUE, n.periods=10, cf.freq=1) 
[1] 27305.92 

> 


> #Valeur finale d'une rente praenumerando de 3'500.- versée durant 10 ans 

> fet calculée au taux d'intérêt de 6% 

> annuity.fv(rate-0.06, instalment = 3500, immediate.start=-TRUE, n.periods=-10, cf.freq=1) 
[1] 48900.75 

> 


> #On dispose aujourd'hui de 17'757.22.- permettant de verser une rente praenumerando 

> #tde 2'000.- par an durant 10 ans. À quel taux d'intérêt cette opération correspond-elle ? 
> annuity.rate(pv=-17757.22, instalment = 2000,immediate.start-=TRUE, n.periods=10, cf.freq=1) 
[1] 0.02747479 

> 

> #On dispose aujourd'hui de 17'000.- permettant de verser une rente de 2'000.- par an. 

> #fPendant combien d'années peut-on verser cette rente (y compris paiement partiel) si 

> fle taux d'intérêt est de 3% 

> annuity.periods(rate=0.03, instalment = 2000, pv=17000, immediate.start = FALSE,cf.freq = 1) 
[1] 93.959 

>| 


On retrouve bien les mêmes résultats que les calculs faits à la main et que dans Microsoft 
Excel! 
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Exemple 410.: Amortissements 
R 3.6.1 


Le but va être ici de reproduire les calculs faits à la main dans le cours théorique et dans 
Microsoft Excel. 


On commence par l'amortissement linéaire avec la fonction SLN( ) du package DescTools: 


R File Edit View Misc Packages Windows Help | IX 


> library("DescTools") 

> SLN(cost = 20000, salvage = 2000, life = 6) 
[1] 3000 

> | 


On retrouve bien la même chose que les calculs fäits à la main et que dans Microsoft Excel! 
& 


Voiyons maintenant l'amortissement arithmétique dégressif avec la fonction SYD( ) toujours 
du même package: 


R File Edit View Misc Packages Windows Help … FX 
Bla 


> famortissement dégressif linéaire 

> SYD(cost = 75000, salvage = 0, life = 5) 
[1] 25000 20000 15000 10000 5000 

> #et en cumul... 

> cumsum(SYD(cost = 75000, salvage = 0, life 
“ 25000 45000 60000 70000 75000 

> 


5)) 


On retrouve bien la même chose que les calculs faits à la main et que dans Microsoft Excel! 


Voyons maintenant l'amortissement géométrique dégressif avec la fonction DB ) toujours du 
même package: 
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R RGui (64 R Console] O 


R File Edit View Misc Packages Windows Help -_ 5 x 


> famortissement dégressif géométrique 

> DB(cost = 20000, salvage = 2000, life = 6) 

[1] 6374.1586 4342.6637 2958.6223 2015.6859 1373.2708 935.5985 
> fet en cumul... 

> cumsum(DB(cost = 20000, salvage = 2000, life = 6)) 

# 6374.159 10716.822 13675.445 15691.131 17064.401 18000.000 
> 


On retrouve bien la même chose que les calculs faits à la main mais contrairement à Microsoft 
Excel où les résultats renvoyés par le logiciel étaient faux, au moins avec R ces derniers sont 
justes.…..! 
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Exemple 411.: Emprunts 
R 3.6.1 


Le but va être ici de reproduire les calculs faits à la main dans le cours théorique et dans 
Microsoft Excel. 


Pour cela, allons utiliser les fonctions PMT( ), IPMT( ), PPMT( ) et RBAL ) du package 
DescTools: 


BR File Edit View Misc Packages Windows Help ms EU LX 


> library("DescTools") 

> chind(year = 1:10, 

+ payment = PMT(rate=0.05, nper=10, pv=20000, fv=0, type=0), 

+ interest = IPMT(rate=0.05, per=1:10, nper=10, pv=-20000, fv=0, type=0), 

+ principal = PPMT(rate=0.05, per=1:10, nper=10, pv=-20000, fv=0, type=0), 

+ cumprincipal = cumsum(PPMT(rate=0.05, per=1:10, nper=10, pv=20000, fv=0, type=0)), 


+ balance = RBAL(rate=0.05, per=1:10, nper=10, pv=-20000, fv=0, type=0)) 
year payment interest principal cumprincipal balance 
[1,1] 1 -2590.091 -1000.0000 -1590.091 —-1590.091 18409.909 
[2,1 2 -2590.091 -920.4954 -1669.596 —-3259.688 16740.312 
[3,1] 3 -2590.091 -837.0156 -1753.076 —5012.763 14987.237 
[4,] 4 -2590.091 -749.3618 -1840.730 —6853.493 13146.507 
[5,1 5 -2590.091 -657.3253 -1932.766 —-8786.259 11213.741 
[6,] 6 -2590.091 -560.6870 -2029.404 —10815.664 9184.336 
[7,1] 7 -2590.091 -459.2168 -2130.875 —12946.538 7053.462 
[8,] 8 -2590.:091 -352.6731 -2237.418 —-15183.957 4816.043 
[9,1] 9 —-2590.091 -240.8022 -2349.289 —-17533.246 2466.754 
4 é 10 -2590.091 -123.3377 -2466.754 —20000.000 0.000 
> 


Nous obtenons donc bien le même résultat que dans le cours théorique et qu'avec un tableur. 


Sinon, concernant le fait de trouver le taux à partir des paiements, de la valeur initiale et 
finale, je n'ai rien trouvé dans le package DescTools (mais j'ai peut-être mal cherché!). Par 
contre le package jrvFinance à la fonction rate( ) adéquate!: 


Œ RGui (64-bit) - [R Console] — 0 


R File Edit View Misc Packages Windows Help EX 


> library("jrvFinance") 
> #d'abord le PMT classique 


> pmt(amt = 20000, maturity = 10, rate = 0.05) 

[1] 2590.091 

> fet le taux (ingénierie inverse) 

> rate(amt = 20000, maturity = 10, pmt = 2590.091) 


[1] 0.05000593 
| > | 
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Exemple 412.: Valeur actuelle nette (VAN/NPV) et Taux de 


rendement interne (IRR) périodiques 
R 3.12 


Bon je préfère utiliser le tableur Microsoft Excel pour cela mais suite à la demande d'un 
participant à une de mes formations voici comment calculer le même VAN que dans le cours 
théorique et qu'avec un tableur en utilisant la fonction present Value ) : 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


library(lifecontingencies) 

df <- data.frame (date = c(as.Date("2011-01-01")j ,as.Date("2012-01-01")j, as.Date("2013-01-01")j), pmts=c(400,800,1600)) 
today <- as.Date("2010-01-01°") 

lumpsum <- -2000 


capitals<-c{lumpsum, df$pmts) 

times<-c(today,df$date) 

times<-as.Date(times)-min(as.Date(times)) 
times<-as.numeric(times,units="days")/365.25 

presentValue (cashFlows=capitals, timelds=times,interestRates=0.05) 
1] 488.7312 


M ON MONO NON NY 


Nous obtenons donc bien le même résultat que dans le cours théorique et qu'avec un tableur. 
NS 
N 


ape d . 
Le lecteur pourra se référer au package tvm présenté plus bas pour une version plus simple 
d'implémentation! 


Malheureusement ce package ne contient pas de fonction pour le calculer de retour sur 
investissement. Donc voici une autre approche avec le package financial et la fonction cf( ) 
où cf est l'abréviation de "cash-flows" mais qui malheureusement ne gère que les cas 
parfaitement périodiques: 
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e 


R R Console LS [e Lx) 


> library("financial") 
> y = cfic(-2000,400,600, 1600) ,5,5,5) 
> Y 


Cash Flow Model 


Flows: 
1 2 3 4 
-2000 400 800 1600 


IRR$ : 115.12 


NPY Extremes at 1%: 


Safe* Rein MIRR* 
1 5 5 12.94 


15 NPY NFY NUS 
5 K66.721565.75 179.46 


par imfrow=c(2,1)) 

par imar=c(0.5,3,2,2)j) 
plotiy,type="n"] 

plot (y) 


SL 
> 
> 
> 
> 
> 
| 


Où nous retrouvons bien la valeur de NEFV (Net Future Value) vue calculée dans le cours 
théorique! 


Et avec les graphiques: 
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Nous pouvons réobtenir les résultats ci-dessus avec le package tvm et ses fonctions npv() et 
ir ): 


R RGui (64-bit) - [R Console] — (m] X 
ŒR File Edit View Misc Packages Windows Help Ex 


ÉBSOSEES 


> library("tvm") 

> npv(i = 0.05, c£f = c(-2000, 400, 800, 1600), ts = c(0, 1, 2, 3)) 
[1] 488.7161 

> irr(cf = c(-2000, 400, 800, 1600), ts = c(0, 1, 2, 3)) 

[1] 0.1511656 

> 
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Exemple 413.: Valeur actuelle nette (VAN/NPV) et Taux de 


rendement interne (IRR) apériodiques 
R 3.6.1 


Le but va être ici de reproduire les calculs faits à la main dans le cours théorique et dans 
Microsoft Excel. 


On utilise les fonctions npv( ) et irr( ) du package jrvFinance qui vont faire l'équivalent des 
fonctions XNPV( ) et XIRR( ) de Microsoft Excel: 


R File Edit View Misc Packages Windows Help 


SEFUFEC CE 

> library("jrvFinance") 

> library("lubridate") 

> 

> d<-as.Date(c("2008-01-01", "2008-12-31", "2009-12-31", "2010-12-31","2011-12-31")) 
> (diff<-time length(difftime(d, min(d)), "years")) 

ELT CL 23 4 

A 

2 

> npv(cf=c(-400, 100, -150, 200, 500), rate=0.1, cf.t-diff) 
[1] 58.711684 

> irr(cf=c(-400, 100, -150, 200, 500), c£f.t-diff) 

[1] 0.1426429 

> | 


On retrouve bien la même chose que les calculs faits à la main et que dans Microsoft Excel! 
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28. Théorie des files d'attentes et simulations 
d'événements discrets 


Le but ici va être de vérifier ici les quelques résultats importants obtenus dans le cours 
théorique vis à vis de la théorie des files d'attentes utilisée de façon importante dans la 
production, la logistique, la circulation ou autres domaines où l'on trouve des files d'attentes 
que l'on doit optimiser et qui satisfont les hypothèses des théorèmes démontrés dans le cours 
théorique. 


Nous allons pour cela installer le package queueing: 


Lr 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> install.packages ("queueing") 

Installing package into ‘C:/Users/Isoz Vincent/Documents/R/win-library/3.1’ 

(as ‘lib’ is unspecified) 

essai de l'URL 'http://cran.rstudio.com/bin/windows/contrib/3.1/queueing 0.2.2.zip' 
Content type 'application/zip' length 708232 bytes (691 Kb) 

URL ouverte 

downloaded 691 Kb 


le package ‘queueing’ a été décompressé et les sommes MD5 ont été vérifiées avec succés 


Les packages binaires téléchargés sont dans 

C:\Users\Isoz Vincent\ippDataiLocal\Temp\RtmpiERAf9\ downloaded packages 
> library(queueing) 
> | N 
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Exemple 414.: Résumé d'une file d'attente M/M/1 
R 3.0.2 


Le package queuing a une commande résumant toutes les paramètres d'une file d'attente 


M/M/1 tel que nous l'avons démontré dans le cours théorique en utilisant les commandes 
QueueingModel() et Newlnput.MMI( ) : 


rc 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> summary (QueueingModel(Newlnput.MMiilambda=1/4, mu=1/2, n=0))) 
The inputs of the M/MH/1 model are: 
lambda: 0.25, mu: 0.5, n: 0 


The outputs of the M/M/1 model are: 


The probability (p0O, pl, ..., pn) of the n = O0 clients in the system are: 
0.5 
The traffic intensity is: 0.5 
The server use is: 0.5 
The mean number of clients in the system is: 1 
The mean number of clients in the queue is: 0.5 
The mean number of clients in the server is: 0.5 
The mean time spend in the system is: 4 
mean time spend in the queue is: 2 
mean time spend in the server is: 2 
mean time spend in the queue when there is queue is: 
throughput is: 0.25 


Nous retrouvons bien les valeurs du cours théorique. 


Après nous pouvons faire cela pour de nombreuses autres files d'attentes avec ce package 
mais nous nous limiterons pour l'instant à la M/M/1 car c'est la seule dont nous avons 
démontré les propriétés mathématiques en détails. 


Nous pouvons extraire les valeurs indépendamment les unes des autres (si nous avons besoin 
de faire des graphiques par exemple): 
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[R Fichier Edition Voir Misc Packages Fenétres Aide 


> summary (QueueingModel (Newlnput.MM1(lambda=1/4,mu=1/3,n=0))) 
The inputs of the M/M/1 model are: 
lembda: 0.25, mu: 0.333333333333333, n: 0 


The outputs of the M/M/1 model are: 


The probability (p0O, pi, ..., pn) of the n = O clients in the system are: 
0.25 

The traffic intensity is: 0.75 

The server use is: 0.75 

The mean number of clients in the system is: 3 

The mean number of clients in the queue is: 2.25 

The mean number of clients in the server is: 0.75 

The mean time spend in the system is: 12 

The mean time spend in the queue is: 9 

The mean time spend in the server is: 3 

The mean time spend in the queue when there is queue is: 12 

The throughput is: 0.25 

> PniQueueingModel (NewInput.MM1(lambda=1/4,mu=1/3 ,n=0))) 

[11 D:85 

> Throughput (QueueingModel(NewlInput .MM1(lambda=1/4,mu=1/3,n=0))) 
[11 0,25 

> L(QueueingModel (Newlnput . MM1 (lambda=1/4,mu=1/3,n=0))) 

1) 4 

> LqiQueueingModel (NewlInput.MM1{lambda=1/4,mu=1/3 ,n=0))) 

{11 2.25 

> ROiQueueinglodel (NewlInput .MM1ilambda=1/4,mu=1/3,n=0) )) #server use 
[1] 0.75 

> W(QueueingModel(NewlInput .MM1(lambda=1/4,mu=1/3,n=0))) 

LU 22 

> WqiQueueingModel(NewInput .MM1{lambda=1/4,mu=1/3 ,n=0) )) 

[1] 9 

> Wqq(QueueingModel (NewInput .MM1(lambda=1/4,mu=1/3,n=0))) 

[Al 2 

> 
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Exemple 415.: Probabilité d'Erlang-B 
R 3.02 


Rappelons l'exercice du cours après avoir démontré la relation mathématique d'Erlang-B: 


Dans une entreprise, nous avons dénombré aux heures de pointe 200 appels d'une durée 
moyenne de 6 minutes à l'heure (temps de service moyen). Quelle est la probabilité de 
saturation avec 20 opérateurs (sachant que la durée de service suit une loi exponentielle et la 
distribution des arrivées une loi de Poisson)? 


Nous utilisons alors la commande B_erlang() du package queueing: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> B erlang(20, 200/10) 


[1] 0.158892 
> | 


© 

Ÿ 
: ; à 

Nous retrouvons exactement le même résultat! 
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Exemple 416.: Probabilité d'Erlang-C 
R 3.0.2 


Rappelons l'exercice du cours après avoir démontré la relation mathématique d'Erlang-C: 


Quelle est la probabilité d'être mis en attente si nous prenons un nombre N de 7 serveurs s'il y 
a un taux d'arrivée de 1 appel par minute et une durée moyenne de service de 5 minutes. 


Nous utilisons alors la commande C_erlang() du package queueing: 


R Fichier Edition Voir Misc Packages Fenétres 


> C erlang(7, 1/0.2) 


[1] 0.3241499 
> | 
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Exemple 417.: Simualtions d'événements discrets (D.E.S.) 
R 4.0.5 


L'exemple que nous allons voir ici est un simple copier/coller et retranscription en français de 
l'exemple crée par Mohamed Kamal: 


https://www.linkedin.com/in/mohamedkamalpharm/ 
qui a simplement repris l'exemple de la vignette du package: 
https://cran.r-project.org/web/packages/simmer/vignettes/simmer-01-introduction.html 


et sa page web correspondante: 


https:/www.linkedin.com/pulse/discrete-event-simulation-using-r-oncology-hospital- 
example-kamal/ 


et sa chaîne Youtube: 


https:/www.voutube.com/c/StatPharm/videos 


Le D.E.S. est donc un sytème physique qui subit des changements probabilistes à certain 
points précis dans le temps. 


Chargeons les packages: 


R File Edit View Misc Packages Windows Help 5 


> library("simmer") 
> library("simmer.plot") 
Loading required package: ggplot2 


Attaching package: ‘simmer.plot’ 
The following objects are masked from ‘package:simmer’ : 


get _ mon arrivals, get mon attributes, get mon resources | 


Mettons en place une trajectoire simple. Disons que nous voulons simuler une consultation 
ambulatoire où un patient est d'abord vu par une infirmière pour un accueil, ensuite par un 
médecin pour la consultation et enfin par le personnel administratif pour fixer un rendez-vous 
de suivi. 
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R File Edit View Misc Packages Windows Help IL 


ÉBROISEE 


patient <- trajectory("patients' path") %>% 
## add an intake activity 
seize ("nurse", 1) +>%5 fcréation d'un objet infirmière 
#fmoyenne de traitement de L minute avec écart-type de 15 minutes (loi normale) 
timeout (function() rnorm(l, 15)) +%>% 
release("nurse", 1) $5>% | 
## ajout de l'activité de consultation ou de traitement 
seize "doctor", 1) +>% 
#moyenne de traitement de L1 minute avec écart-type de 10 minutes (loi normale) 
timeout (function() rnorm(l, 20)) +5>% 
release ("doctor", 1) %>% 
#*# activité de planification 
seize ("administration", 1) +%>% 
#fmoyenne de traitement de 1 minute avec écart-type de 5 minutes (loi normale) 
timeout (function() rnorm(l, 5)) %>% | 
release ("administration", 1) 

> patient 

trajectory: patients' path, 9 activities 

Activity: Seize | resource: nurse, amount: 1 } 

Activity: Timeout delay: function() } 

Activity: Release resource: nurse, amount: 1 } 

Activity: Seize resource: doctor, amount: 1 } 

Activity: Timeout delay: function() } 

Activity: Release resource: doctor, amount: L } 

Activity: Seize resource: administration, amount: 1 } 

Activity: Timeout delay: function() } 

Activity: Release resource: administration, amount: lL } 

str(patient) 

Class 'trajectory' <environment: 0x000000003c2f24a8> 

> 


HO HO OO OO + + HV 


V on pm on pin pm en vin dm vin 


Dans ce cas, l'argument de l'activité fimeout est une fonction, qui est évaluée dynamiquement 
pour produire un temps d'attente stochastique, mais cela pourrait aussi être une constante. En 
dehors de cela, cette fonction peut être aussi complexe que vous le souhaitez et peut faire ce 
que vous voulez : interagir avec les entités de votre modèle de simulation, obtenir l'état des 
ressources, prendre des décisions en fonction de ces dernières… 


Une fois la trajectoire connue, vous pouvez y attacher des arrivées et définir les ressources 
nécessaires. Dans l'exemple ci-dessous, trois types de ressources sont ajoutées : les ressources 
infirmières et administratives, chacune d'une capacité de 1, et la ressource médecin, d'une 
capacité de 2. La dernière méthode ajoute un générateur d'arrivées (patients) suivant les 
patient de trajectoire. Le temps entre les patients est d'environ 10 minutes (une gaussienne de 
moyenne 10 minutes et écart-type de 2). (remarque : le renvoi d'un temps d'inter-arrivée 
négatif à un moment donné arrêterait le générateur): 
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R RGui (64-bit) - [R Console] — O 


GR File Edit View Misc Packages Windows Help EX 


> env $>% 

- add resource("nurse", 1) $>% 

+ add _ resource ("doctor", 2) +>#% 

+ add resource ("administration", 1) %>% 

- add generator("patient", patient, function() rnorm(l, 10, 2)) 

simmer environment: outpatient clinic | now: © | next: © 

{ Monitor: in memory } 

{ Resource: nurse | monitored: TRUE | server status: O(1) | queue status: O(Inf) } 
{ Resource: doctor | monitored: TRUE | server status: 0(2) | queue status: O(Inf) } 
{ Resource: administration | monitored: TRUE | server status: 0(1) | queue status: O(Inf) } 
{ Source: patient | monitored: 1 | n generated: 0 } 

> 


On peut lancer la simulation et voir le taux d'utilisation des ressources: 


FH 


KR Console = [e | & | 


> #on lance la simulation 
> env +$5>% 

+ reset () $5>% 

- run(200) $5>% 


+ now() 
[1] 200 
> 


> resources <- get mon resources (env) 
> plot(resources, metric = "utilization'") 


> 
L : Device 2 (ACTIVE) | 
Resource utilization 
100% - 
80% - 
60% - 
= 
2 
5 
œ 
N 
5 
3 
40% - 
20% - 
0% - 
: 1 ! 
administration doctor nurse 
resource 
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Il est également possible d'avoir un aperçu de l'activité des ressources pendant la simulation: 
EI ES 


"doctor"), items = "server") 


le 


R 
metric = "usage", c("administration","nurse", 


plot (resources, 


R R Graphics: Device 2 (ACTIVE) 
Resource usage 
administration 


2.0- 


0.5- 


00- 


5 100 150 200 


nurse 


100 
time 


150 


200 


100 150 200 


Ensuite, nous pouvons regarder l'évolution du temps d'écoulement des arrivées au cours de la 
simulation. Dans le graphique ci-dessous, chaque ligne individuelle représente une 


réplication. Une ligne lisse est tracée sur eux. Toutes les arrivées qui n'ont pas terminé toute 


leur trajectoire sont exclues du tracé. 


2708/3133 
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a _ —— 


RE Console 


> arrivals <- get mon arrivals(env) 

> plot(arrivals, metric = "flow time") 

‘geom_ smooth()' using method = 'loess' and formula 'y - x' 
>| 


Flow time evolution 


100 - 


œ 
£ 

ES 
2 


120 
simulation time 


On peut faire les mêmes analyses sur un paquet de simulation (ce qui est scientifiquement 
plus objectif bien évidemment!): 
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éa EE 


> envs <- lapply(1:100, function(i) !{ 
+ simmer ("SuperDuperSim") +>% 
add _ resource("nurse", l) 224% 
add resource "doctor", 2) #+>* 
add_ resource ("administration", 1) +>% 
add generator ("patient", patient, function() rnorm(l, 10, 2)) %>% 


run (200) 


> resources <- get _mon resources (envs) 
» plot (resources, metric = “ytilization") 


Resource utilization 


100% - 


C 
OS 
2 
œ 
N 
= 
3 


l 
administration doctor 
resource 
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> plot (resources, metric = "usage", c"“administration","nurse®, "doctor'"), items = c("server","queue")) 
> | 


Resource usage 
administration 


100 150 200 0 
time 
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> arrivals <- get _ mon arrivals(envs) 
> plot(arrivals, metric = "flow time") 


‘geom smooth()' using method = 'gam' and formula 'y - s(x, bs = "cs")" 
>| 


Flow time evolution 


flow time 


Donc le temps de passage ne cesse d'augmenter de manière a peu près linéaire. Et: 
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> plotiarrivals, metric = "activity time") 
‘geom_smooth()" using method = 'gam' and formula ‘y - s(x, bs = "cs")' 


> 


Activity time evolution 


"1 
o 
1 


activity time 


Le] 
[=] 
1 


> plot(arrivals, metric = "waiting time") 
‘geom smooth()" using method = "gam' and formula ‘y - s(x, bs = "cs")! 


> 


Waiting time evolution 


waiting time 
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29. Statistiques bayésiennes 


Le but ici n'est pas de redévelopper la discussion relativement au débat qui concerne les 
statisticiens fréquentistes contre les statistiques bayésiens mais uniquement de vérifier que 
nous retrouvons bien les quelques rares calculs bayésiens fait à la main dans la cours 
théorique ou ceux qui ont été simplement mentionnés avec suffisamment de détails 
mathématiques. 
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Exemple 418.: Classification bayésienne naive 


Nous n'allons pas revenir sur la technique de classification bayésienne naïve vue en détails à 
la page 2142. 


R Statistical Software 2715/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Exemple 419.: Réseaux Bayésiens 
R 3.6.2 


Nous allons ici reproduire l'exemple vu dans le cours théorique et comparer aux résultats 
obtenu avec le logiciel MSBN 1.4. Pour rappel le cas d'étude est résumé par: 


P{SL)-{1%,99%] P(S2)-(0.1%,99.9%] 


L 
. . Ÿ _ . 
Pour faire l'analyse avec R nous allons suivre fà procédure de l'excellent livre et package 
associé (bnlearn) suivant: 


Texts in Statistical Science 


Bayesian 
Networks 


With Examples in R 


Marco Scutari 
Jean-Baptiste Denis 


(Rû) CRC Press 
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Sciences.ch 


Pour construire le réseau bayésian visible ci-dessus nous devons d'abord écire le script ci- 


dessous: 


R RGui (64-bit F 


OR File Edit View Misc Packages Windows Help 


library("bnlearn") 

#W est "Accident du Travail" 
*#M est “Panne Machine" 

#2 est "Alarme" 

#P est "Arrêt production" 

#E est "Évacuation" 


#On construit le graphe bayésien 
dag <- empty.graph(nodes = c("wW", 
dag 


VYVVNVYNVNVNNN NV 


Random/Generated Bayesian network 


model : 

[W] [M] [A] [P][E] 
nodes : 
arcs: 

undirected arcs: 

directed arcs: 
average markov blanket size: 
average neighbourhood size: 
average branching factor: 


generation algorithm: 


dag <- set.arc(dag, from = "W", to = 


dag <- set.arc(dag, from "Tr 69 
dag <- set.arc(dag, from = "M", to 
dag <- set.arc(dag, from = "P", to 


Empty 


"E") 


#on affichage la structure selon le package bnlearn 


dag 
Random/Generated Bayesian network 


model : 

[W] [M] IAIW:M] [PIM]IEIP] 
nodes : 
arcs: 

undirected arcs: 

directed arcs: 
average markov blanket size: 
average neighbourhood size: 
average branching factor: 


generation algorithm: 


> | 


On peut afficher le modèle sous forme de chaîne de caractère ainsi qu'un piètre visuel 


graphique du réseau bayésien correspondant: 
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r 


ARR Console EEE 


> fon affiche le modèle résumé 

> modelstring(dag) 

[1] "[W] [M] [AIW:M][PIM][EIP]" 

> +on peu extraire que les noeuds si on le désire 
> nodes (dag) 

ETF TNT "MT "8" "ET "E” 

> tet le grpahique correspondant 

> PO RE 

> 


kr 


R R Graphics: Device 2 (ACTIVE ILES 


Maintenant construisons les tables de probabilité (avec une subtilité difficile à devenir pour la 
dernière table sinon quoi cela ne marche pas“): 


4 Merci à ‘l'auteur du package pour nous l'avoir indiqué 
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| Œ RGuï (64-bit) - [R Console] — 


R File Edit View Misc Packages Windows Help | x 


*on construit les légendes des tables de probabilité 
W.lv <- c("Oui", "Non") 
M.ilv <= c"Oui”, “Non”) 
A:1v <= el"Oui", "Non"} 
P.lv <- c("Oui”, “Non”) 
E:1v <- c("Oui", “Non"} 


#on construit les tables en y mettant les probabilités 
(W.prob <- array(c(0.01, 0.99), dim = 2, dimnames = list(W = W.lv))) 


EVVVVVVV VV 


Oui Non 


0.01 0.99 
> (M.prob <- array(c(0.001, 0.999), dim = 2, dimnames = list(M = M.lv))) 
M 
Oui Non 
0.001 0.999 
> (P.prob <- array(c(0.99, 0.01, 0.01, 0.99), dim = c(2, 2),dimnames = list(P= P.lv, M = M.lv))) 
M 
P Oui Non 


Oui 0.99 0.01 

Non 0.01 0.99 
> (E.-prob <- array(c(0.99, 0.01, 0.05, 0.95), dim 
+ dimnames = list(E= E.lv, P = P.lv))) 

P 

E Oui Non 

Oui 0.99 0.05 

Non 0.01 0.95 
> (A:-prob <= array (c(0.75, 0.99, 0.1. 0:1, 0:25, 0.0E,0.:9; 0:9); dim = ci2, 2; 2)+ 
+ dimnames = list(W = W.lv, M = M.lv, À = A.lv))) 
rs »s À = Oui 


c(2, 2), 


M 
W Oui Non 
Oui 0.75 0.1 
Non 0.99 0.1 


W Oui Non 
Oui 0.25 0.9 
Non 0.01 0.9 


> #on permute la matrice pour la rendre compatible avec les exigence du package bnlearn 
A.prob = aperm(A.prob, c(3, 2, 1)) 


VV 


Enfin on peut construire l'objet de réseau bayésien comme le nécessite la package bnlearn: 
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4 RGui (64-bit) - [R Console] 0 
R File Edit View Misc 


| 


[ 
| 
| 
| 
| 
| 


*on construit le réseau bayésien 

cpt <- list(W = W.prob, M = M.prob, P = P.prob, E = E.prob,A = A.prob) 
bn <- custom.fit(dag, cpt) 

#et on affichage de toutes les tables 

bn 


VVVVV 


Bayesian network parameters 
Parameters of node W (multinomial distribution) 
|Conditional probability table: 
| W 
| Oui Non 
0.01 0.99 
| _ Parameters of node M (multinomial distribution) 
|Conditional probability table: 
| M 
| Oui Non 
[0.001 0.999 
Parameters of node A (multinomial distribution) 


Conditional probability table: 


lr r M = Oui 


A Oui Non 
Oui 0.10 0.10 
Non 0.90 0.90 


Parameters of node P (multinomial distribution) 


Conditional probability table: 


M 


Et maintenant on calcule toutes les probabilités conditionnelles a posteriori (les mêmes que 
dans le cours théorique) mais en remarquant que l'auteur, dans un souci de généralisation, 
traite le calcul vie des simulation de Monte Carlo (on sait bien évidemment pourquoi!): 


Packages Windows Help = | 
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UR RGui (64-bit) - [R Console] = (| 


QR File Edit View Misc Packages Windows Help = M x 


> fon fait tous les calculs avec 1 milliard de simulations de Monte Carlo 

> #Probabilité a posteriori d'un arrêt production à cause d'une panne machine 
> #Calcul à la main: P(S2/S4)=9.02% 

> cpquery(bn, event = (M == "Oui"), evidence = (P == "Oui"})},n = 10*9)*100 

[1] 9.039312 

> 

> #Probabilité a posteriori d'une évacuation due à un arrêt de production 

> #Calcul à la main: P(S4/S5)=18.02% 

> cpquery(bn, event = (P == "Oui"), evidence = (E == "Oui"),n = 10*9)*100 

[1] 18.01475 

> 

> #Probabilité a posteriori d'une alarme sachant qu'il y a eu une panne machine 
> #Calcul à la main: P(S3/S2)=98.76% 

> cpquery(bn, event = (A == "Oui"), evidence = (M == "“Oui"),n = 10*9)*100 

[11 98.75191 

> 

> #Probabilitéa posteriori d'une panne machine sachant qu'il y a eu une alarme 
> #Calcul à la main: P(S2/53)=-0.9789% 

> cpquery(bn, event = (M == "Oui"), evidence = (A == "Oui"),n = 10*9)*100 

[1] 0.9786511 

> 

> #Probabilitéa posteriori d'un accident du travail sachant qu'il y a eu une alarme 
> #Calcul à la main: P(S1/S3)=-0.9976% 

| > cpquery(bn, event = (W == "Oui"), evidence = (A == "Oui"),n = 10°*9)*100 

[1] 0.9986268 

>| 


Nous retrouvons donc bien les valeurs calculées à la main pour les probabilités 

conditionnelles a posteriori. Par contre nous n'avons pas trouvé dans le package bnlearn de 
2 SN = 

méthode pour calculer les constantes de normaliSation. 
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Exemple 420.: Statistiques bayésiennes discrètes (cas d'une 


proportion) 
R 3.0.2 


Nous allons donc reprendre ici le même calcul dans le cours théorique basée sur l'étude des 
cancers dans une école américaine a proximité de lignes haute tension. 


Nous commençons par définir ce que nous savons et les hypothèses a priori: 


R Fichier Edition Voir Misc Packages Fenétres Aide 


Bale] 


#festimation des valeurs des proportions 
p=010.03;0.04,0.05,0.06) 

#probhabilités associées à chacune des hypothèses 
prior=c(0.5,1/6,1/6,1/6) 

#nous vérifions que la somme est bien unitaire D 


sumiprior) 
[il À 
> #nous indiquons que dans cette école qu'il y a eu 8 cas de cancers 
> #sur 145 personnes du corps enseignant 
> data=c(8,145) 
> | 


Nous utilisons ensuite la commande pdise() du package LearnBayes pour calculer les 
probabilités a posteriori: 


KR Fichier Edition Voir Misc Packages Fenêtres Aide 


> library(LearnBayes) 
> post=pdisc(p,prior,data) 
> roundichindip,prior,post),2) 


bp prior post 


Ci,:] 0.03 0.50 0.28 
[2,1] 0.04 «17 0.21 
[3,1] 0.05 «17 0.27 
[4,] 0.06 «17 0.25 
> | 


Nous retrouvons donc bien les probabilités discrètes a posteriori calculées à la main dans le 
cours théorique. 
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Exemple 421.: Statistiques bayésiennes continues (cas 
d'estimation de la moyenne avec a priori et posteriori 


Normales) 
R 3.0.2 


Nous avons démontré dans le cours théorique que si la distribution a priori est une distribution 
Normale d'espérance L, et de variance 72 et que la distribution du maximum de 


vraisemblance est Normale, alors la fonction de distribution a posteriori aussi Normale 
d'espérance a posteriori: 


n 
F6 D 
2 2 

=. 76 
LH Lx n 
Ty © 


et de variance a posteriori: 


—1 
1 nn 
2 
d'ou rec: 
Ci. © 


Supposons que nous souhaitons mesurer le quotient intellectuel d'un group d'individus. Nous 
avons une fort prémonition que a priori il y a 50% de probablité cumulée (médiane) que son 
QI soit de 100 et qu'il y a 9/10 que celui-ci soit compris entre 80 et 120 (ces informations 
peuvent aussi être basées sur des données historiques passées). 


Donc à l'aide du package LearnBayes et de la commande normal.select() nous pouvons 
déjà déterminer la distribution Normal la mieux ajustée à ses données a priori: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> library(LearnBavyes) 

> quantilel=list (p=0.5,x=100) :quantilez=list (p=0.95,x=120) 
> normal.select (quantilei,quantile2) 

$rnu 

[i] 100 


$sicma 
[1] 12.15914 


> | 
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Notre groupe test composé de 4 personnes passe donc 4 tests de QI qui nous donnent les 


informations suivantes: 


n=4,y=110 


et que nous savons qu'au niveau mondial la variance vraie est donnée par o° =15. 


Nous avons au final comme informations: 


n = 4 
y=110 
M 

LH = 100 
r? =12.159 


Le calcul de l'espérance a posteriori est l'écart-type a posteriori est alors immédiate en 
transcrivant les relations suivantes dans R: 


PÉRS. 2 


= 107.2442,r, = 


1 
È + ze = 6.383469 


To (0x 


Nous avons donc les paramètres de la loi Normale a posteriori! 
S 


R 
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Exemple 422.: Statistiques bayésiennes continues (cas d'une 
proportion avec a priori beta estimée et a posteriori 


binomiale) 
R 3.0.2 


L'idée ici va être d'estimer a priori la fonction de distribution de la proportion du cas discret 
mais de façon continue. Comme il n'y a pas des milliers de fonctions de distributions dont le 
support est compris entre ]0,1[ nous allons nous rabattre sur la seule que nous avons 
rencontrée dans le cours théorique: la loi bêta. 


Nous avons alors en faisant l'hypothèse que la médiane de la proportion de cancers est de 3% 
et que le 66 centile est de 4% les paramètres de la fonction beta qui seront donnés par la 
commande beta.select() du package LearnBayes: 


se RGui (64-bit) - [RC 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


library(LearnBayes) 
quant ilei=list (p=0.5,x=0.03) 
quantile2=list (p=0.5+1/6,x=0.04) 


beta.select (quantilel,quantilez) 
11 2.23 61.66 


Nous avons démontré dans le cours théorique que si la distribution a priori est une distribution 
beta et que la distribution du maximum de vraisemblance est binomiale, alors la fonction de 
distribution a posteriori est une distribution binomiale aussi avec les paramètres qui changent 
un tout petit peu. 


Nous avons alors: 
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le 


> 
> 
> 
> 
> 
> 


RE RGui (64-bit -[ 
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#Probabilités bayésiennes continues 

#pour déterminer la fdp a priori il faut estimer/connaitre 
#deux quantiles (ni plus, ni moins!...) 

quantilei=list (p=0.5,x=0.03) 

quantile2=list (p=0.5+1/6,x=0.04) 

beta.select (quantileil,quantile2)[i] 


[1] 2.23 


> 


VVNMENNN+H+NY 


“ 


#distribution a priori 

curve(dheta(x,beta.select (quantilei,quantile2)[1], 
beta.select (quantilel,quantile2) [2]),from=0,to=0.2, 
ylim=c(0,30) ,ylab="Densité",luwud=3) 


#distribution a posteriori N 
curve (dhbeta(x,beta.select (quantilel,quantile2)[1]+8, 

beta.select (quantilel,quantile2)[2]+137) ,from=0,to=0.2,ylab="Densité",add=T) 
titlei"Ainalyse Bayésienne") 
legendi"topright",c{("Prior","Posterior"),lty=c{1,1),lwd=c(3,1)) 


Ce qui donne graphiquement: 
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Analyse Bayésienne 


30 


— Prior 
—— Posterior 


15 20 2 


Densité 


10 


0.00 0.05 0.10 0.15 0.20 


Ainsi, la probabilité a posteriori que la proportion soit plus grande ou égale à 3% est alors 
donnée par: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> 1-pheta(0.03,heta.select (quantilel,quantilez)[1]+8, 
+ beta.select (quantilel,quantile2z)[2]+137) 
[1] 0.9149043 


> | 
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Donc il n'y a rien d'extraordinaire a posteriori d'avoir une proportion de cancers au-delà de 
200: 


Nous pouvons même calculer l'intervalle à 90% en bilatéral de la proportion a posteriori: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> qhetaic(0.05,0.95),beta.select (quantilel,quantilez)[1]+6, 
+ beta.select (quantilei,quantile2)[2]+137) 
[1] 0.02712833 0.07561930 


> 


W 
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Exemple 423.: Test d'hypothèse bayésien unilatéral (cas 
d'estimation de la moyenne avec a priori et posteriori 


Normales) 
R 3.0.2 


Nous pesons un échantillon étalon de laboratoire sur une balance de précision d'écart-type 
connu 3 et obtenons les masses suivantes: 


= 


FR Fichier Edition Voir Misc Packages Fenétres Aide 


> masses=c{182,172,173,176,176,180,173,174,179,175) 
> vyhar=mean(masses) 
[> vhar 

[1] 176 


> sigma=3 
> variance pop=siqma"2/ lengthimasses) 
> variance pop 


Nous avons maintenant un nouvel échantillon et nous savons que a priori que sa masse devrait 
être de moyenne 170 avec un écart-type aussi de 3 et distribué selon une loi Normale. 


Nous émettons les hypothèses suivantes: 
HrHSUS, He 
La cote de l'hypothèse nulle est alors donnée a priori par: 


H, _ P(u<175) 


H, P(u>175) 


Ce qui se calcule très aisément avec R ou même n'importe quel tableur: 
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Sciences.ch 
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masse _apriori=170; 
ecarttype apriori hbalance=3; 
probH=pnorm(175,masse apriori,ecarttype apriori balance) 


probi=1-probH 

cote apriori=probH/probi 
cote apriori 

1] 19.924773 


Donc l'hypothèse nulle a une cote a priori de 20 contre 1 d'être plus plausible que l'hypothèse 
alternative. Et quid du a posteriori sachant que nous avons des mesures passées d'un 


échantillon étalon? 


Là encore, sachant que nous avons les informations suivantes: 


Le calcul de l'espérance a posteriori est l'écart-type a posteriori est alors immédiate en 


transcrivant les relations suivantes dans R: 


H = 


=175.454545,7, = 


1 
+ x) = 0.90453403 
© 


Ce qui nous donne les paramètres de la distribution a posteriori de la masse selon l'hypothèse 


de Normalité. 


Nous pouvons donc calculs la cote de l'hypothèse nulle a posteriori: 
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> cote aposteriori=pnorm(175,175.454545,0.90453403) {{1-pnorm(175,175.454545,0.90453403)) 
> cote aposteriori 


[1] 0.4443592 
> | 


Donc l'hypothèse nulle a une cote a posteriori de 1 contre 2 d'être plus plausible que 
l'hypothèse alternative. 


Bon et alors quoi? A priori l'hypothèse nulle est plus plausible mais a posteriori elle n'est le 
pas! Eh bien nous allons devoir associer une probabilité à l'hypothèse nulle. 


Suite à venir. 
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Exemple 424.: Intervalle de crédibilité 
R 3.63 


Voyons aussi un cas ludique d'application copié du blog d'Arthur CHARPENTIER“ et qui est 
instructif aussi bien au niveau de l'apprentissage de R (manipulationd de matrice et vecteurs et 
certains subtilités graphiques) que de la compréhension de statistiques: 


R RGui (64-bit) - [F 
| R File Edit View Misc Packages Windows Help _ 5 x 


SITE) | 


> #texemple pris de: https://freakonometrics.hypotheses.org/18117 
DD M M M MM 
> fpartie intervalle de confiance de la proprtion (binomiale) 
| > n <- 1000 #nombre d'événements (contrats d'assurance)) 
> xbar <- 150 #nombre d'événements d'intérêt (accidents déclarés) 
| > ns <- 100 #nombre de simulations 
> #on produit un vecteur de 100*1000 éléments binaires de probabilité 150/1000 
| > v<-rbinom(n*ns,size=1,prob=xbar/n) 
> #on les range en 1000 lignes dans une matrice 
> #(l'idée étant que chaque colonne contienne une simulation) 
> M<-matrix(v,nrow=n) | 
> 
> #on crée une fonction pour calculer l'intervalle de confiance de le proportion à 95% 
> fIC<-function(x) mean(x)+c(-1,1)*1.96*sqrt (mean(x) * (1-mean(x)))/sgrti(n) 
> #on l'applique sur chacune des ns colonne de la matrice M 
> fce qui donnera donc 100 (ns) intervalles de confiance 
> head(IC<-t(apply(M,2,fIC)),10) | 
[1] [,2] | 
[1,] 0.1344514 0.1795486 
[2,1] 0.1222392 0.1657608 
[3,] 0.1410501 0.1869499 
[4,1] 0.1100877 0.1519123 
[5,] 0.1222392 0.1657608 
[6,1] 0.1372775 0.1827225 
[7,] 0.1072929 0.1487071 
[8,1] 0.1054318 0.1465682 
[9,] 0.1203656 0.1636344 
[10,] 0.1128862 0.1551138 
> #on calcule aussi les 100 (ns) moyennes empiriques 
> MN<-apply(M,2,mean) 
> ton crée une matrice contenant de façon binaire les cas ou la moyenne attendu est en 
> #dehors des intervalles simulés 
> k<-(xbar/n<IC[,1])|(xbar/n>IC[,2]) 
> #on fait un plot pour mettre cela en évidence de manière sympa (de façon astucieuse) 
> plot (MN,i:ns,xlim=range (IC) ,axes=FALSE, xlab="",ylab="",pch=19,cex=.7,col=c("blue","red") [1+k]) 
> axis(i) 
> segments (IC[,1],1:ns,IC[,2],1:ns,col=c("blue","red")[1+k]) 
” oi iso 
” 


où on utilisé pour l'intervalle l'expression habituelle démontrée dans le cours théorique: 


_. JT(-#) 
dr au 


Ce qui donne graphiquement: 


#% https://web.archive.org/web/20190107115108/https://freakonometrics.hypotheses.org/18117 
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: 
R es: Device EN ES) 


Nous avons ci-dessus une belle illustration du concept d'intervalle de confiance de la 
proportion a posteriori les données étant connues. On voit bien - sans surprises - que certains 
statistiquement ne contiennent pas la valeur vraie de la proportion. 


Nous avons vu au cours que, puisque la distribusion Beta est le conjugué de celle de 
Bernoulli, la distribution postérieure sera également Beta. Plus précisément selon la notation 
d'Arthur Charpentier: 


B (a +YzBtn-Y r;) 


et selon celleu cours théorique: 


N N 
Pas (5 yi+a.nN — >» Yi + ) 


î t 


Dans le cours théorique nous avons traité le cas où ne prenions (cas où la loi beta se réduit a 
un a priori uniforme): 


l'(2) 


Par= Pa Dr 


po (1 p) ou = 1: lou 


Et dans l'exemple que nous prenons ici, nous prenons évidemment N = 1. 


Sur la base de cette propriété, l'intervalle de confiance de la moyenne est basé sur les 
quantiles de cette distribution (postérieure): 
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r 


QR R Console o | Q | &x 


n <-—- 1000 #nombre d'événements (contrats d'assurance)) 

xbar <- 150 #nombre d'événements d'intérêt (accidents déclarés) 

tintervalle de crédibilité avec a priori beta uniforme 

u<-segq(.1,.2,length=501) 

v<-dbeta (u, 1+xbar,1i+n-xbar) 

plot (u,v,axes=FALSE, type="l") 

I<-u<qgbeta(.025,1+xbar,1i+n-xbar) 
polygon(c(u[I],rev(ul[I])),c(v{Il,rep(0,sum(I))),col="red",density-=30,border-=NA) 
I<-u>qbeta(.975,1+xbar,1i+n-xbar) 
polygon(c(u[I],rev(ul[I])),c(v{I]l,rep(0,sum(I))),col="red",density=30,border-=NA) 
axis(i) 


> 
> 
> 
> 
» 
> 
> 
> 
> 
> 
’ 
à 
R 


R Graphics: Device 2 (ACTIVE =] (a! 23 


a: 


0.10 0.12 0.14 0.16 0.18 0.20 


Les bornes de l'intervalle de crédibilit sont donnés alors par: 


MR RGui (64-bit) - [R Console] — O 


QR File Edit View Misc Packages Windows Help | IX 


> qgbeta(.025,1+xbar,1+n-xbar) 
[1] 0.1292306 

> qgbeta(.975,1+xbar,1i+n-xbar) 
[1] 0.1734871 

> | 
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Maintenant, posons-nous la question de ce que cela signifie d'avoir un intervalle de crédibilité 
de 95%? Eh bien, cette fois, nous ne calculons pas un intervalle de confiance en utilisant une 
moyenne empirique ponctuelle, mais avec plusieurs moyennes empiriques obtenues par la 
distribution la distribution postérieure ci-dessus (compte tenu des observations). 


On peut bien évidemment afficher un histogramme des moyennes de cette distribution a 
posteriori: 


F 
@R Console EEE 
> n <- 1000 #nombre d'événements (contrats d'assurance)) 
> xbar <- 150 #fnombre d'événements d'intérêt (accidents déclarés) 
> ns <-— 100 #nombre de simulations 
> pk <- rbetai(ns,1i+xbar,1i+n-xbar) 
> hist (pk,prob=TRUE,col="light green",border="white",lwd=3,xlim=c(.12,.18)) 
> | 
À Graphics: Device 2 (ACTIVE) sex) 
Histogram of pk 
o 
T 
=] 
am 
& 
a o 
= tx 
Q 
| Il 
” == sel 
0.12 0.13 0.14 0.15 0.16 0.17 0.18 
pk 


Donc maintenant que fait-on? Eh bien on reprend le même type de code qu'au début qu'on 
change juste un petit peu (on a mis dans un rectangle rouge la modification majeure): 
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E 


R R Console Lex) 


> #partie intervalle de crédibilité de la proportion (binomiale) 


> n <- 1000 #nombre d'événements (contrats d'assurance)) 

> xbar <- 150 #nombre d'événements d'intérêt (accidents déclarés) 

> ns <- 100 #nombre de simulations 

> 

> fon produit un vecteur de 100*1000 éléments binaires de probabilité 150/1000 

> v<-rbinom(n*ns,size=i, prob-rep (pk, each=n)]) 

> #on les range en 1000 lignes dans une matrice 

> #(l'idée étant que chaque colonne contienne une simulation 

> M<-matrix(v,nrow=n) 

> MN<-apply(M,2,mean) 

> 

> hist (pk,prob=TRUE,col="light green",border="white",axes-FALSE,main="",xlab="",ylas 
> abline (v=gbeta(c(.025,.975),1+xbar,1l+n-xbar),col="red",lty=2) 

> points (pk,seq(1,40,length=ns),pch=19,cex=.7) 

> k<-(MN<qgqbeta(.025,1+xbar,1+n-xbar)) | (MN>qbeta(.975,1+xbar,1i+n-xbar)) 

> points (MN, seq(1,40,1length=ns),pch=19,cex=.7,col=c("blue","red")[1+k]) 

> segments (MN, seq(1,40,length=ns),pk,seq(1,40,length=ns),col="grey") 

> 

R R Graphics: Device 2 (ACTIVE) 


% 
o 


SE PE PES 
C2 


DRRRRREEME L 


Ici, il y a 95% de probabilité que ces moyenmes empiriques se situent dans l'intervalle de 
crédibilité, défini à l'aide des quantiles de la distribution postérieure. On peut en fait visualiser 
toutes ces moyennes: en noir la moyenne utilisée pour générer l'échantillon, puis, en bleu ou 
rouge, les moyennes obtenues sur ces échantillons simulés. 
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Exemple 425.: Test A/B Bayésian avec probabilités a priori 


beta 
R 3.5.1 


Non sans mal, nous avons démontré dans le cours théorique comment calculer dans le cours 
théorique la probabilité a posteriori que deux taux (compris entre 0% et 100%) suivant a 
priori une loi beta avaient d'être plus grand l'un que l'autre. 


Nous avons ensuite fait de même avec des données de comptage avec comme distribution a 
priori, une distribution Gamma. 


Attention à ne pas confondre le test bayésian A/B avec les tests A/B des proportions et du chi- 
deux dont nous avons démontré dans le cours théorique l'équivalence mathématique. Nous 
pouvons rapidement le vérifier ici en observant que R utilise toujours le chi-deux même 
pour la fonction prop.test( ): 


R 
R File Edit View Misc Packages Windows Help _ 5 


ÉBSOISESIIE 


> clicks <- c(10,21) 


> nonclicks <- c(55990,77979) 

> (mydata <- rbind(clicks ,nonclicks )) 
[,1] 1,2] 

clicks 10 21 


nonclicks 55990 77979 
> chisqg.test (mydata) 
Pearson's Chi-squared test with Yates' continuity correction 


data: mydata 
X-squared = 0.79955, d£f = 1, p-value = 0.3712 


> chisq.test (mydata, correct=FALSE) 
Pearson's Chi-squared test 


data: mydata 
X-squared = 1.1584, d£f = 1, p-value = 0.2818 


> prop.test (mydata) 
2-sample test for equality of proportions with continuity correction 


data: mydata 
X-squared = 0.79955, df = 1, p-value = 0.3712 
alternative hypothesis: two.sided 
95 percent confidence interval: 
—-0.27606238 0.08535866 
sample estimates: 
prop 1 prop 2 
0.3225806 0.4179325 


> prop.test(mydata, correct=FALSE) 
2-sample test for equality of proportions without continuity correction 


data: mydata 
X-squared = 1.1584, df = 1, p-value = 0.2818 
alternative hypothesis: two.sided 
95 percent confidence interval: 
—-0.25992961 0.06922589 
sample estimates: 
prop 1 prop 2 
0.3225806 0.4179325 
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Voyons comme cas d'application, comment le package bayesAB et sa fonction bayesTest( ) 
implémente cela: 


ee mn 


ole sax | 


z 


library("bayesAB") 


*on crée les deux groupes 
control <- rbinom(20, 1, 0.5) 
treatment <- rbinom(20, 1, 0.3) 


#fchoisissons la distribution beta comme a priori 
# (parmi les nombreux choix du package!) 
taffichibs une des distributions a priori 
plotBeta(10, 10) 


à: 


AUVVVVVVVVVVV 


7 


ne VS Le lx) 


Beta Probability Density Function for Parameters: alpha = 10, beta = 10 


PDF 


0.00 0.25 0.50 0.75 1.00 


Lançons d'abord les calculs du test: 
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R RGui (64-bit) - [F 
R File Edit View c Packages Windows Help -Ee x 


| 


> test <- bayesTest (treatment, control, distribution = "bernoulli", priors = list("alpha" = c(10,15), "beta" = c(10,20))) 
> print(test) 


Using data with the following properties: 


A B 
Min. 0.0 0.00 
ist Qu. 0.0 0.00 
Median 0.0 0.00 
Mean 0.3 0.35 
3rd Qu. 1.0 1.00 
Max. 1.0 1.00 


Conjugate Prior Distribution: Beta 
Conjugate Prior Parameters: 
$‘alpha' 

[1] 10 15 


$beta 
[1] 10 20 


Calculated posteriors for the following parameters: 
Probability 

Monte Carlo samples generated per posterior: 

[1] 1e+05 

>| 


Nous obtenons alors: 


MR RGui (64-bit) - [R Console] — 0 
QR File Edit View Misc Packages Windows Help ax 


SI Bel) lé] 


> summary(test) 
Quantiles of posteriors for À and B: 


S'‘Probability' 
| S‘Probability'S$'A° 

0% 25% 50% 75% 100% 
0.1330820 0.3413049 0.3890985 0.4380707 0.7525513 


| $‘Probability'$B 
0$ 25% 50% 75% 100% 
0.1581962 0.3619542 0.4101828 0.4600918 0.7733047 


P(A > B) by (0)%: 


S'‘Probability' 
[1] 0.41687 


|Credible Interval on (A - B) / B for interval length(s) (0.9) : 
| $‘Probability 


5% 35% 
—0.3829929 0.4394876 


| Posterior Expected Loss for choosing B over A: 


| S‘Probability" 
[1] 0.159195 


>| 


Et avec la fonction plot( ) native de ce package, nous obtenons deux graphs à la suite. Le 
premier étant: 
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> plot (test) 
Waiting to confirm page change... 
Waiting to confirm page change... 


Et le deuxième graphe: 
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A and B, Probability Posteriors 


Density 


0.2 0.4 0.6 


Et enfin le dernier et troisième graph: 
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« R'Graphice Device 2 (ACTIVE) 
Histogram of (A - B) / B Samples : Probability 


1000 
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Exemple 426.: BIC (Bayesian Information Criterion) et BF 


(Bayes Factor) 
R 3.5.1 


Nous avons déjà rencontré le BIC et le BF de multiples fois à travers cet ouvrage et pour 
différents modèles statistiques ou de machines learning. 


Revenons sur le premier exemple que nous avons vu dans ce livre et qui est le plus simple et 
probablement parmi les plus courants dans les statistiques de base: 


F | 


R: NES 
> library("performance") 
> library("see") 
> data(iris) 
> 1lmi<-lm(Sepal.Length-Species,data=iris) 
> 1m2<-lm(Sepal.Length-Species+Petal.Length,data=iris) 
> 1Im3<-im(Sepal.Length-Species*Petal.Length,data=iris) 
> (result<-compare performance (lmi,lm2,lm3)) 
# Comparison of Model Performance Indices 
Model | Type | AIC | BIC | R2 | R2 adjusted | RMSE | BF 
imi | 1m | 231.45 | 243.49 | 0.62 | 0:61 | 0-51 | 
1m2 | 1m | 106.23 | 121.29 | 0.84 | 0.83 | 0.33 | 3.45e+26 
1m3 | 1m | 106.77 | 127.84 | 0.84 | 0.83 | 0.33 | 1.30e+25 
> plot (result) 
> | 
Liz | 
M À Graphics: Device 2 (ACTIVE EEE 


Comparison of Model Indices 


BF AIC 


Models 


Limit (1m) 


À lim2 (Im) 


Cl im3 (1m) 


BIC 


R2_adjusted R2 
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Ne 
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30. Statistiques spatiales 


Une grande partie des statistiques spatiales sont relatives au fait de représenter graphiquement 
des courbes de niveaux (isoclines) ou des densités surfaciques de probabilités ou simplement 
des diagrammes à barre ou des diagrammes à secteurs représentés sur des cartes 
géographiques. Nous ne reviendrons pas sur tous ces cas déjà traités dans le chapitre sur les 
Graphiques à partir de la page 1063. 


Distribution circulaire 


Avec le package circular et ses fonctions circular() et rose.diag() déjà on peut représenter 
des fréquences d'observations et un histogramme circulaire sur 360° degrés: 


R Sslolx 
> require (circular) 
> x <- circular(runif(50, 0, 2*pi)) 
> rose.diag(x, bins = 18, main = 'Uniform Data',col=2) 
> points(x) 
> | 
€ — | 
R ao | ) 23 


Uniform Data 


Figure 338 Graph de distribution statistique spatiale angulaire 
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Plus proche voisin et distance moyenne 

Considérons le cas le plus simples de plus proches voisins. 

Pour cela nous générons des points aléatoirement qui nous serviront d'exemple: 

| R & Console EIRE 
x<-runif(100) 

y<-runif(100) 


par(pty="s") #zone de plot carrée 
plotix,y,pch=16) 


VVNVV 


1.0 


00 02 04 06 08 


00 02 04 06 08 10 


Pour chaque point nous calculons la distance euclidienne aux autres points et nous traçons une 
ligne pour chaque point avec son unique plus proche voisin (nn=nearest neighbour) ce qui 
donne: 
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Sciences.ch 


FE 


R & Console 

> distance<-function(xil,vi,x2,v2) sqgrt{(ix2-x1)"2+{(v2-v1)"2) 
> à 

> nn<-numeric (100) 

> d<-numeric (100) 

> Tor (i in 1:100){ 

+ for ({k in 1:100j d[k]<-distance(x[i],vli],x[k],v[K]) 

+ nn[i]<-which(id==min(da[-i])) 

+ } 

> 

> ‘ {i in 1:100)j linesicix[i],x{[nn[i]l]),c{(vli],v{nnfi]l])) 
> 


Be Tx) 


où le min(d[-i]) permet d'éliminer la distance nulle entre le point traité dans la boucle et lui- 
même. 


Ce qui donne: 


E 


FR R Graphics: Device 2 (ACTIVE) 


1.0 


0.8 


06 


04 


02 


0.0 


Figure 339 Graph plus proches voisins 


FRERES 
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Ensuite, il peut être intéressant de savoir quels sont les points qui sont plus proches du bord 
que de leur plus proche voisin, pour cela nous modifions un peu le code précédent: 


R R Console 
distance<-function(xi,vi,x2,y2) sqrt((x2-x1)*2+(y2-v1)"2) 


> 
> 
> r<-numeric(100) 

> nn<-numeric (100) 

> d<-numeric (100) 

> TOE [1 15 L:100!1{ 

+ for (k in 1:100) d[k]<-distance(x{i],y[i],x[k],v[K]) 

+ c[i]l<-min(da[-i]) 

+ nnfi]<-which(d==min(da[-i])) 

.? 

> 
> for (i in 1:100) lines(c(x[i],x{[nnfi]l]l),c{(yli],y(nnfi]]l)) 
> 
> 
> 
> 
> 
> 
> 


topd<-1-y 

rightd<-1-x 

edge<-pminix,y,topd,rightd) 

id<-which(iedge<r) 

points(ix[id],vlid],col="red",cex=1.5) 

sum(edge<r)#nombre de points plus proches des bords que de leur nn 
[1] 24 

> | 


Ce qui donne: 
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R R Graphics: Device 2 (ACTIVE) EEE 


1.0 


0.8 


06 


04 


02 


0.0 


Nous pouvons aussi calculer "à la main" ou avec le package de statistiques spatiales spatstat 
et sa fonction nndist( ) la distance moyenne: 
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F x 
R RGui (64-bit) - [R Console OO LE (es) 


KR Fichier Edition Voir Misc Packages Fenêtres Aide 


x<-runif(100) 
y<-runif(100) 


distance<-function(xi,yi,x2,y2) sqrt((x2-x1)"2+(y2-y1)"2) 


> 

> 

> 

> 

> 

> r<-numeric(100) D 
> nn<-numeric(100) 

> d<-numeric(100) 
> 
_ 
— 
_ 
— 
> 
> 


for (i in 1:100){ 

for (k in 1:100) dfk]<-distance(x[i],y{i],x{k],vylk]) 
r{i]<-min(d[-i]) 

nn{i]<-which(d==min(d[-i])) 

} 


mean(r) 
[1] 0.05006231 
> 
> library(spatstat) 
> d <- nndist (x, y) 
> mean(d) 
[1] 0.05006231 
> | 


« 


Nous avons démontré dans le cours théorique que l'espérance de la distance du plus proche 
voisin dans le cas d'une distribution aléatoire était donnée dans un disque par: 


r=E( 


1 
Dr 


Or nous avons dans notre exemple 100 points dans un carré de côté unitaire. En première 
approximation avec un disque inscrit au carré, nous avons alors: 


Dès lors: 
1 1 


DER re 


Comme 0.044 n'est pas trop éloigné de 0.0500 la distribution peut être considérée 
effectivement comme aléatoire. 


r=E( = 0.044 


Indiquons qu'il est possible toujours avec le package spatstat de faire des graphs de points 
distribués selon la loi de Poisson avec la fonction rpoispp( ) : 
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rpoispp(100) 
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31. Text Mining 


Le texte mining est un sujet qui a toujours été important dans certains domaines académiques 
mais depuis l'émergence des réseaux sociaux et de l'analyse de news en temps réel, ces 
techniques ont connu une véritable explosion et ce particulièrement dans le journalisme 
automatisé et la finance spéculative. 


Un exemple fameux est un algorithme de Text Mining de Tweet qui aurait suite à l'émission 
d'un faux Tweet publié par un personnage influent du réseau massivement fait chuter le S&P 
500 de 136 milliards de dollars“. Un autre exemple d'application est le métier d'historien qui 
va radicalement changer dans les décennies ou siècles à venir puisqu'aujourd'hui les 
documents officiels ou non ne sont plus imprimés mais générés directement en version 
électronique et une quantité phénomène d'entre eux est produite chaque jour. L'historien se 
transforme donc à un analyste de données numériques avec un approche statistique de la 
lecture de texte par les machines que sont les ordinateurs. 


Dans ce chapitre nous allons nous concentrer sur les techniques proposées par le package tm 
(text mining) de R en se basant sur un corpus contenant un seul et unique fichier qui est le pdf 
de mon e-book Éléments de Mathématiques appliquées (-4'900 pages A4) convertit en texte 
pur (*.txt) ce qui le réduit à environ 2'800 pages Ad. 


Sinon le Text Mining n'est pas utile que pour analyser des contenus de livres ou des médias 
sociaux ou de sites web mais aussi pour l'interaction avec des intelligences artificielles 
(http://www.ipsoft.com/amelia/) ou l'automatisation de la justice par l'analyse de compte 
rendus de jugements (https://predictice.com) ou encore la détection automatisée de plagiat et 
l'adaptation intelligente automatisée de contrats. 


Remarque: Nous ne traiterons pas ici du package googleLanguageR (du type text-to- 
speech) et de son APT pour deux raisons. La première est que l'API n'est pas gratuite, la 
deuxième est que le compte correspondant est vraiment ennuyeux à créer et à mettre à 
jour (du moins à chaque fois qu'il y a une mise à jour). Idem du package Rtts (aussi du 
type text-to-speech) dont le serveur ne répond que rarement. 


4 Source: https://www.buffalo.edu/news/releases/2015/05/037.html 
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Exemple 427.: Sélectionner des fichiers précis par leur 


extension 
R 3.42 


D'abord nous lisons le contenu d'un dossier: 


R RGui (64-bit) - [R Console] - O 


UR File Edit View Misc Packages Windows Help <) 


> file vector<-list.files(path="c:/tmp/Textes") 
> file vector 


[1] "Texte01.docx" "Texte01.pdf" "Texte01.txt" "Texte02.docx" "Texte02.pdf" 
[6] "Texte02.txt" "Texte03.docx" "Texte03.pdf" "Texte03.txt" "Texte04.docx" 
[11] "Texte04.pdf" “"Texte04.txt" 


> 


Le problème ici est que nous voulons que les *.pdf. Nous utilisons alors la fonction grepl( ) 
comme suit: 


R RGui (64-bit) - [R Console - 


# File Edit View Misc Packages Windows Help =) 


> file vector<-list.files(path="c:/tmp/Textes") 
> foundPDF vector<-grepl(".pdf",list.files (path="c:/tmp/Textes")) 
> foundPDF vector 


[1] FALSE TRUE FALSE FALSE TRUE FALSE FALSE TRUE FALSE FALSE TRUE FALSE 
> pdf_list<-file vector{foundPDF vector] 


> pdf_list 
| [1] "Texte01.pdf" "Texte02.pdf" "Texte03.pdf" "Texte04.pdf" 
> | 
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Exemple 428.: Lire le contenu d'un unique PDF 
R 3.43 


Pour cet exercice de style, le package pdftools et sa fonction pdf_text() sont tout à fait 
appropriés: 


UR RGui (64-bit) - [R Console O 
R File Edit View Misc Packages Windows Help sx 


@] 


> library("pdftools") 

> txt <- pdf _text("c:/tmp/Textes/Lorem Ipsum.pdf") 

> ‘CxC 

[1] “Lorem ipsum dolor sit amet, consectetur adipiscing elit. Sed elit enim, cursus at nisS 
> #Texte de la première page: 

> cat(tzat[11}) 

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Sed elit enim, cursus at nisi velS 
vehicula magna. Integer velit est, placerat id ex a, porttitor varius lacus. Donec non lao$ 
Aenean dictum purus nec ante finibus suscipit. Phasellus lobortis neque condimentum ultricS 
eleifend. Nulla porta mauris ligula, a laoreet risus euismod quis. Donec et risus pharetrasS 
eget, rutrum urna. Pellentesque porttitor et leo a blandit. 

Praesent hendrerit felis ut libero interdum pulvinar ac ut arcu. Pellentesque habitant morS 
senectus et netus et malesuada fames ac turpis egestas. Curabitur pellentesque tristique e$ 
Aenean porttitor id sem in lacinia. Nunc venenatis, mauris in porttitor accumsan, risus tu$ 
| dolor, sit amet auctor tellus nisl eu massa. Nam cursus lacinia urna in tincidunt. Aenean $ 
quis sollicitudin congue, nisl mauris hendrerit mauris, eu malesuada erat mi sit amet dui. 
Nulla hendrerit mauris in orci blandit tempor. Sed malesuada viverra mauris, eget rutrum a$ 
pharetra ac. Quisque quam lacus, fringilla nec lectus et, bibendum suscipit nisi. Donec atsS 
purus ultricies tincidunt ac non ipsum. Nunc condimentum tristique ex non mattis. Etiam euS 
erat in urna condimentum, luctus volutpat neque porttitor. Donec consequat, justo ut dapibS 
sagittis, enim orci tempus ex, varius pellentesque velit velit et risus. In mollis diam sa$ 
vestibulum nisi pulvinar quis. Praesent varius odio nec scelerisque gravida. 

Vestibulum ut lorem vulputate, placerat augue et, blandit ligula. Nulla sed urna suscipit,S 
eget, varius eros. Donec tincidunt ex vitae cursus vehicula. Nam porta tellus et neque tem$ 
amet tristique nisl facilisis. Nulla facilisi. Suspendisse accumsan lorem nec erat sagitti$ 
Aliquam sit amet risus vel nunc congue ultrices ut a quam. Suspendisse feugiat magna nec e$ 
pellentesque aliquam. Nam varius maximus odio non efficitur. Integer lectus erat, placerats 
nec, lobortis dictum quam. Maecenas tempus felis quis purus elementum, mollis auctor turpis 
aliquam. Maecenas laoreet nisl sed risus ornare, et rutrum turpis sagittis. Cras lobortis $ 
a vestibulum. Fusce facilisis, magna quis placerat facilisis, magna urna sodales tortor, e$ 
dolor turpis vitae tellus. 

Proin semper tellus eu dictum pharetra. Suspendisse lectus dolor, elementum et lacus eu, m$ 


< > 


Avec ce que nous avons vu précédemment, il est bien sûr alors possible d'itérer sur une série 
de fichiers listés dans un vecteur et d'agréger tous les textes! 


S1 jamais vous avez besoin d'extraire le contenu d'un PDF au format JPG, pour utiliser du 
OCR, vous pouvez toujours utiliser le package pdftools et sa fonction pdf_convert( ): 
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R 
R File Edit View Misc Packages Windows Help - x 


ÉROISEBIOIE 


> library("pdftools") 
> pdf_ convert ("c:/tmp/PDF to JPG.pdf",format="jpeg") 


Converting page 1 to PDF to JPG l.jpeg... done! 
Converting page 2 to PDF to JPG 2.jpeg... done! 
Converting page 3 to PDF to JPG 3.jpeg... done! 
Converting page 4 to PDF to JPG 4.jpeg... done! 
Converting page 5 to PDF to JPG 5.jpeg... done! 
Converting page 6 to PDF to JPG 6.jpeg... done! 
[1] "PDF to JPG l.jpeg" "PDF to JPG 2.jpeg" "PDF to JPG 3.jpeg" "PDF to JPG 4.jpeg" "PDF to JPG 5.jpeg" 
6.jpeg" 


[6] "PDF to JPG. 
Fr 


Ce qui donne: 


PDF_to_JPG.pdf 
B Por: 

B PDF to 

B PDF to_JPG 

B PDF to_JPG_4jpeg 
B PDF to_JPG_5.jpeg 
ES PDF to_JPG_6.jpeg 


Parts 
After-birth abortion: why should the baby live? sieiiéras After-birth abortion: why should the baby live? 
A Francesca Minerva t Adobe Export PDF L 


< ABOFNON AND AFTER SITE ABOETON 


“Conan Are th ar nr emoyer 12. Produced y D PublMng Group Ld under Bcence 
Convert, edit and e-sign PDF ee se RE 


forms & agreement: 


“Oonyome Adbée Sin Lot Eheaé emmyers 2, Produced by EMA Putiiæning Group Lid ander rence! 
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Exemple 429.: Créer et nettoyer le corpus (package 


tm/SnowballC) 
R 3.02 


D'abord nous installons et chargeons le package tm: 


R Fichier Edition Voir Misc Packages Fenétres Aide [-ls|x] 


> libraryi(tm) 
> 


4 


Nous spécifions le dossier avec tous les fichiers à analyser: 


FR Fichier Edition Voir Misc Packages Fenêtres 


> corpus<-file.path("C:/tmp/hbiblio") 

> corpus 

[1] "C:/tmp/hiblio" 

> dir(corpus) 

Ÿ "ElementsMathematiquesippliquees.txt" 
> 


Ensuite, nous commençons seulement à utiliser le package tm en construisant d'abord un 
corpus à l'aide de la commande Corpus ) : 


Gui (64-bit) - 
R Fichier Edition Voir Misc Packages Fenétres Aide 


> docs<-Corpus(DirSource (corpus)) 


> docs 


À corpus with 1 text document 
> | 
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On peut nettoyer le document avec la commande gsub() ou également pour remplacer des 
termes ou abréviations par autre chose: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> docs[[1]]<-gsub("/","",docs[[1]]) 
> docs[[1]]<-gsub("8","",docs[[1]]) 
> 


On peut mettre le contenu de l'ensemble du corpus en minuscules en utilisant de multiples 
paramètres avec la commande tm_map( ) : 


R Fichier Edition Voirl®Misc Packages Fenétres Aide 


> docs<-tm map(docs,tolower) 
> | 


Supprimer tous les nombres: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


Supprimer la ponctuation: 
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R Fichier Edition Voir Misc Packages Fenétres Aide 


> docs<-tm map(docs,removePunctuation) 
> | 


Enlever les espaces vides en trop: 


LE RGuï (64-bit) - [F nine es | 
R Fichier Edition Voir Misc Packages Fenétres Aide [-Ie|x] 


E docs<-tm map(docs,striplhitespace) 
> | 


CO 
Il y a possibilité de supprimer aussi les mots ultà courants d'une langue donnée et qui 
n'apportent rien à une analyse. Voyons d'abord quels sont ces mots dans le cas de la langue 
française: 
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Sciences.ch 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> lengthistopwords{"french")) 


[1] 164 


> stopuords ("french") 


pa] "au" 
[5] rcesg" 
[9] "au" 
[13] "eux" 
[17] "le" 
[21] "mais" 
[25] "moi" 
[29] "notre" 
[33] "par" 
[37] "que" 
[41] "ses" 
[45] rte" 
[49] "tu" 
[53] "votre" 
[57] "+ er 
[61] en" 
[65] "été" 
[69] "étant" 
[73] "sommes" 
[77] "seras" 


Nous nettoyons donc le corpus avec ce minimum syndical.…..: 


Gui (64-bit} - [R 


LL aux LL 
"dans" 
"elle" 
LA i L LL 
"leur" 
"rue LA 
“rmon'" 
"nous" 
"pas Fr 
"qui ” 
"son" 
"tes LL 
un’ 
"ous" 
Fr l Fr 

"rs LL 
rétée" 
"suis" 
rêtes" 
"sera" 


"avec" 
de’ 
en’ 
"je" 

LA lui LA 
rrrmêrne 
ne" 
on’ 
"pOur Fr 
sa 
"sur LL 
"toi" 
une" 
rer" 

rar" 

Le LU 
rétées" 
res rr 
"sont" 
"serons" 


R Fichier Edition Voir Misc Packages Fenêtres 


rce rr 
des LL 
ret LL 

rr la’ 
"a" 
"mes LL 
"nos LL4 
ou’ 
rqu" 
rse LL4 
ta’ 
ton’ 
"703 LL4 
ra" 

"ra" 

LA" 
rétés" 
rest LL4 
"serai" 
"serez" 


> docs<-tm map(docs,removelords,stopwords ("french")) 
> | 


ou nous pouvons aussi enlever nos propres termes (en réalité 1l vaut mieux avoir un fichier 
externe avec l'ensemble des termes considérés comme inutiles car en français il y en a un tel 


nombre que la commande stopwords utilisée précédemment est quasiment inutile): 
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KR Fichier Edition Voir Misc Packages Fenêtres Aide 


> docs<-tm map(docs,removelords,c("chapitre","cf.")) 
> | 


Arrivé à ce point nous ne pouvons pas encore lancer une analyse du corpus. Nous allons 
devoir effecteur un autre nettoyage (voir ci-après): 


De nombreux mots sont identiques à part qu'ils sont au singulier/pluriel ou accordés au 
féminin/masculin. 


Pour ne pas avoir à nettoyer cela manuellement (ce travail étant laborieux). Nous pouvons le 
laisser au package SnowballC mais mixé avec la commande tm_map() du package tm (pas 
besoin de spécifier la langue il s'en occupe) cependant le résultat du travail est à ce jour 
(2014-07-07) mauvais en français: 


MRÉR Gui (64-bit) - [RC 
KR Fichier Edition Voir Misc Packages Fenêtres Aide 


library(SnowballC) 
docs<-tm map(docs,stembocument) 


| À 
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Exemple 430.: Obtenir la matrice d'adjacence d'un corpus 
R 3.2.1 


Nous avons vu en théorie des graphes ce qu'était une matrice d'adjacence. Nous allons voir 
comment construire cette dernière dans R avec le corpus précédent. 


D'abord nous construisons notre corpus: 


R RGui (64-bit) - [R Console] = (a X 
R File Edit View Misc Packages Windows Help _|#|x 


ÉBROISOSINIE 


library(tm) 
corpus<-file.path("C:/tmp/crude") 
docs<-Corpus (DirSource (corpus)) 


tdm<-TermDocumentMatrix(docs,control=list( 
tolower=TRUE, 

removePunctuation=TRUE, 

removeNumbers=TRUE, 

stopwords ("english"), 

stripWhitespace=TRUE)) 

docs 

<<VCorpus>> 

Metadata: corpus specific: 0, document level (indexed): 0 
Content: documents: 20 

> tam 

<<TermDocumentMatrix (terms: 1019, documents: 20)>> 
Non-/sparse entries: 2010/18370 


ER AAA A 


Sparsity : 90% 

Maximal term length: 16 

Weighting : term frequency (tf) N 
>| 


Ensuite nous visualisons la matrice de termes par document du corpus: 


R Statistical Software 2761/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


R RGui (64-bit) - [R Console] _ (im X 
R File Edit View Misc Packages Windows Help 5x 


ESOSGE 


> termDocMatrix <- as.matrix(tdm) 
> termDocMatrix[1:20,1:10]#20 premières lignes des dix premiers fichiers 
Docs R 

Terms 1.txt 10.t0xt 11.txt 12.txt 193.txt 14.t1txt 15.t1tat 16.1txt 17.txt 16.tat 
abdulaziz 0 (e) (e) 0 (e) (e) (e] [e) [e) 
ability 
able 
about 
above 
abroad 
accept 
accord 
according 
across 
activity 
add 
added 
address 
addressed 
adherence 
adhering 
advantage 
advisers 


90000000000000000000 
000mMmOO0OO0O0O00mOONN OO 
#OOOO0O0O0O00000mO0O0O0O00O0M 
90000000000000000000 
9000MmO0O0O0O00O00O0NO0O0O0MmOO 
HOOO0O0O0O000000000Mm000 
D OOCOO0O0O0000MmO0O0O0O0O0O000 
9000000000000000O0N00 
0000000000000mO0O0O0NOO 
00000000000000000000 


Nous construisons et affichons une partie de la mâtrice d'adjacence: 
R 


R RGuï (64-bit) - [R Console] — DO X 
R File Edit View Misc Packages Windows Help 


> termDocMatrix{termDocMatrix>=1] <- 1 #transformation en matrice boléenne 

> termMatrix <- termDocMatrix $5*% t(termDocMatrix) #transformation en matrice d'adjacence 

> termMatrix([1:20,1:10] 

Terms 

Terms abdulaziz ability able about above abroad accept accord according across 
abdulaziz À 0 0 1 0 0 [el 0 
ability 
able 
about 
above 
abroad 
accept 
accord 
according 
across 
activity 
add 
added 
address 
addressed 
adherence 
adhering 
advantage 
advisers 


Oo 


90000000MmO000O00000bmOO 
DOBOObBBNOOOOMHOREN EH © & 
HbOOGOO0O000MHO0OO0MHO0O0O0OOHO 
OBFHNb EE ND © b © © Nb © ND @ © 
DO NO OOCOMOR BEN OO N 
HOOO0O0O0O0MmMO0O00000MmMMmMOO0OM 
0000000000 000mO0O0MmO0O 
HbOONbHOOCOO0O0O0O0WOORHNOR 
BH OOOOOO0O0O0OMmOOMmOOOOOMmO 
Bb 00000 0000MmO0O00O0O00O000 


Nous faisons un premier type de graphe de réseau: 
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R RGui (64-bit) - [R Console] — O X 
R File Edit View Misc Packages Windows Help - 5 x 


> library(igraph) 

> g <- graph.adjacency(termMatrix{1:20,1:20], weighted=T, mode = "undirected") 
> g <- simplify(g) #supprime les boucles 

> V(g)$label <- V(g)Sname #on ajoute des labels 

> V(g) Sdegree <- degree(g) 

> layoutl <- layout.fruchterman.reingold(g) 

> sis layout=layout1) 

> 


ù 


qui donne: 


R Statistical Software 2763/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


R RGui (64-bit) - [R Graphics: Device 2 (ACTIVE)] 


R File History Resize Windows 


ou avec un visuel amélioré: 
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R RGui (64-bit) - [R Console] — 0 X 
R File Edit View Misc Packages Windows Help F5 x 


> library(igraph) 
> g <- graph.adjacency(termMatrix{[1:20,1:20], weighted=T, mode = "undirected") 
> g <- simplify(g) #supprime les boucles 
> V(g)S$label <- V{(g)S$name #on ajoute des labels 
> V(g)S$degree <- degree(g) 
> layoutil <- layout.fruchterman.reingold(g) 
> V(g)$label.cex <- 2.2 * V(g)Sdegree / max(V(g) Sdegree)+ .2 
> V(g)$label.color <- rgb(0, 0, .2, .8) 
> Vi(g)$frame.color <- NA 
> egam <- (log(E(g)S$weight)+.4) / max(log(E(g)$weight)+.4) 
> E(g)$color <- rgb(.5, .5, 0, egam) 
> E(g)$width <- egam 
> plot(g, layout=layout1) 
>| N 
Ce qui donne en toute proportion ;-) : 

SC 

AR 
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R RGui (64-bit) - [R Graphics: Device 2 (ACTIVE)] = a] X 
R File History Resize Windows -|#|3x 


| 


Figure 340 Graph de réseau de mots 


Sinon pour avoir le fameux cas interactif que tout le monde à vu dans les reportages sur Data 
Journalists des Panama Papers il suffit d'utiliser la commande: 
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R RGui (64-bit) - [R Console] _ 


KR File Edit View Misc Packages Windows Help Ex 


> library(igraph) 

Warning message: 

In rm(list = cmd, envir = .tkplot.env) : object "tkp.9' not found 
g <- graph.adjacency(termMatrix{1:20,1:20], weighted=T, mode = "undirected") 
g <- simplify(g) #supprime les boucles 

V(g)$label <- V(g)S$name #on ajoute des labels 

V(g)$degree <- degree(g) 

layout1l <- layout.fruchterman.reingold(g) 

V(g)$label.cex <- 2.2 * V(g)S$degree / max(V(g)$degree)+ .2 
Vi(g)$label.color <- rgb(1l, 0, 0, .8) 

V(g)$frame.color <- NA 

egam <- (log(E(g)$weight)+.4) / max(log(E(g)S$weight)+.4) 
E(g)$color <- rgb(.5, .5, 0, egam) 

E(g)S$width <- egam 

tkplot(g, layout=layout.kamada.kawai) 

1] 10 


VmVVVYVVNVVNNNNNNYY 


Ce qui donne: 
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Exemple 431.: Analyser le corpus (package tm/wordcloud) 
R 3.0.2 


Une fois le nettoyage terminé, pour analyser le corpus nous utilisons la commande 
DocumentTermMatrix() du package tm: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> dtm<-Document TermMatrix (docs) 
> | 


Voici par exemple le temps nécessaire pour analyser la version texte brute de mon livre (pour 
que le lecteur ait une idée du temps de traitement de fichiers volumineux): 


R Fichier Edition Voir Misc Packages Fenêtres Aide [-[s]x] 


> system.time (Document TermMatrix(docs)) 
utilisateur système écoulé 
260.18 0.21 271.91 


> | 


Ensuite, nous affichons un résumé de la variable créée pour voir le nombre de termes 
analysés: 
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Gui (64-bit) - [F 
R Fichier Edition Voir Misc Packages Fenêtres 


> dtm 
À document-term matrix (1 documents, 26241 terms) 


Non-/sparse entries: 26241/0 

Sparsity : 0$ 

Maximal term length: 141 

Weighting : term frequency (tf) 
> | F 


« 


Ensuite, nous transformons la variable dtm en tant que matrice et faisons la somme des 
colonnes afin d'avoir la fréquence d'apparition de chaque mot: 


> freq <- colSums(as.matrix (dtm)) 
> lengthifred) 

[1] 26241 

> | 


Ensuite, avec les commandes classiques natives de R nous pouvons trier et afficher les mots 
les plus fréquents (remarquez les apostrophes qui n'apparaissent pas car le package tm ne gère 
par les apostrophes " mais veut une apostrophe stylisée ”): 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> ord<-order (freq, decreasing=TRUE) 

> freqlhead(ord,20)] 
donc plus alors coriie deux dun 
6244 5205 4823 3707 3508 3163 

fonction cas ainsi relation aussi exemple 
2287 2202 2084 2001 1970 1846 
être nombre bien pouvons cest valeur 
1798 1798 1796 1764 1673 1651 


> | 


« 
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Nous pouvons ensuite avec le package ggplot faire un histogramme des termes les plus 
fréquents: 


R R Console 


> freqgq <- sort (colSums({as.matrix (dtm)), decreasing=TRUE) 

> wf <- data.frame (vord=names (freq), freq=freq) 

> library(ggplot2) 

> ggplot (subset (wf,freg>-1000),aes(word,freq)) + geom bar (stat="identity") 
+ 

# 


theme (axis.text.x=element text (angle=45,hjust=1)) 


ls — = 
[IR R Graphics: Device 2 (ACTIVE) (ce )[ (3 || Sn 


“ 


6000 — 


G 


ns 


4000 -— 


freq 


Û 
n No < 
SE ET 


Noa 4 po . : Ç AB CO 6 ÈS 06 ET o on * A à & o c 
HRS I SDL RER SERIE RONE ÈS TS. ANS OC SN ESS 
À à a FAR U HS XS KO O0 Us ess SSSS SKROKO DT GR SS OX SES ANS L 
DD "Q SON db: ee à = Sa SE AS S BRL 26 SD 
ie gr ee à g © 
word 


Maintenant fais un nuage de terme à l'aide du package wordcloud et de sa commande... 
wordcloud ) : 
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> #le paramètre scale permet de régler empirique le ratio de taille des mots clés 
> #le paramètre rot.per permet de choisir le * de mots verticaux 
> library{(wordcloud) 


| > wordcloud(names (freq) ,freq,max.words=200,colors=brewer.pal(é, "Dark2"), 
|+ scale=ci(S, .1),rot.per=0.2) 


4 


xiste 
géérak D termes autre A : 
premier S  Jénergie = propriétés type léquation JS 


équation oons Œtmher 
veéciaur YONS fonctions 


d'ss 

oint champ *!8"S tout 
SL dur RCOIEIS ON Ur ta constantepoints Schaque 
probabilité nr “olethéorie “calcul 


peut =» être Dis ain en 
toujours $ 5:CAS soi SG ie leu 


£ 
FF 
g° matrice 


qun à 
hysiques 


ait She 2 


3 coordonnées 


£ 
gyitt Er rois ,lensemble $ 
al 


3 gel également 
are. Ë Esous F* 

© étE quar 
dé faire on Sur oops # 5 poknlel 5 : : 


tiques RUE terme HETS pement 2 28 ec 


oi équatons DHMOUVEMENT | avoir care ca es » très 


“lo ee. définition :fonction. ? Ê 25 mue 


après mecant iquel”* er * Valeu PRE 1 ËZ O nulléquand 


ét obier léhui probléme 
voir manière 4 btenons rats é relations toutes première 


quantique" quiforme sentre système SEonsidérons 


variable tir variables SOUVENT encoléseonn, 


moyenne NOM b re "æ#! Manet 


sVaeurs relatiON pi [ U S & 
alors" 


exemp = 


détucs faut 
maintenant 


‘remarque bien 


Figure 341 Graph de nuage de mots 
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Exemple 432.: Réseau de termes corrélés 
R 3.2.1 


À l'époque des Wikileaks, Swissleaks, Luxembourgleaks et Panama Papers, le data 
journalisme prendra probablement un place de plus en plus importante vis-à-vis du défis 
d'analyse ou de corréler les données de plusieurs TeraBytes de fichiers ou courriels. 


Voyons un exemple simple d'analyse de réseau de mots avec un corpus ayant 20 documents. 
Nous chargeons les librairies, les documents et créons le corpus: 


R RGui (64-bit) - [R Console] e (ml X 
FR File Edit View Misc Packages Windows Help - x 


ÉBROISOSINIE 


library(tm) 

finstallation du package Rgraphviz 

#source ("https://bioconductor.org/biocLite.R" 

fbiocLite("Rgraphviz") 

library(Rgraphviz) 

corpus<-file.path("C:/tmp/crude") 

dir (corpus) 

EI "LCTET" "A0. DEC" "LL. Tac" "L2ZOCRE" PIS. TEL" PLATE" "IS CAL" "IGDEL" "17.Lxc" 
[10] "18.txt" "19.00" "2.00"  "20.TEC" "3. TEL"  "ATEC"  "S.TAC"  "O.TAC"  "7,.1xc" 
[19] "S.TaEc"  "S.tat" 

> docs<-Corpus (DirSource (corpus)) 

> docs 

<<VCorpus>> 

Metadata: corpus specific: 0, document level (indexed): 0 

hu documents: 20 

> 


VVYNVNNVNNNNY 


R 


Nous construisons ensuite la matrice des termes: 
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Sciences.ch 


R RGuiï (64-bit) - [R Console] 
R File Edit View Misc Packages Windows Help 


a (nl X 


=|#|x 


tdm<-TermDocumentMatrix(docs,control=1list ( 
tolower=TRUE, 
removePunctuation=TRUE, 


stopwords ("english"), 
stripWhitespace=TRUE) ) 


> 
_ 
+ removeNumbers=TRUE, 
— 
+ 
> 


findFreqTerms (tdm, lowfreq=6) 


[1] "ability" "about" "above" “accord” "after" 
[6] "agreement" vaii" "also" "analysts" “and” 
[11] “april” "arabia" "are" "barrel" "barrels" 
[16] "because" "been" "before" "below" "billion" 
[21] "bpd" "budgefY "put" "crude" "december" 
[26] "demand" "dirs" "economic" "economy" "emergency" 
[31] "energy" "exchange" "“£or? "from" "futures" 
[36] "government" "group" "gulf" "had" "has" 
[41] "have" "help" "hold" "imports" "industry" 
[46] "international" "its" "january" "kuwait" "last" 
[51] "market" "markets" "may" "meeting" "members" 
[56] "minister" "mln® "month" "nazer" "new" 
[61] "not" "nymex®" "official" "oil" "one" 
[66] "opec" "output" "over" “pet” "petroleum" 
[71] "posted" "present" "price" "prices" "production" 
[76] "quota" "recent" "report" "reuter”" "riyals" 
[81] "said" "saudi" "says" "sell" "“sheikh" 
[86] "sources" "such" “than” "that" "the" 
[91] "their" "there" "they" "this" "today" 
[196] "traders" "under" "was" "were" “when” 
[101] "which" "will" "with" "world" "would" 
[106] "years" 
>| 
< > 
Enfin, nous pouvons faire un plot du réseau: 
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Exemple 433.: Détecter la langue (package textcat) 
R 3.0.2 


Nous pouvons détecter les langues avec la commande textcat du package textcat() nous 
avons avec un exemple simpliste: 


Re RGui (64-bit) - [F PRES) 


R Fichier Edition Voir Misc Packages Fenétres Aide F1 


> library(textcat) 
> textcat (ci 
+ "This is an English sentence.", 


+ "Das ist ein deutscher Satz.", 

+ "Esta es una frase en espa-nol.")) 
[1] "english" "german" "spanish" 

> 


] 


Ou en utilisant notre texte de tout à l'heure (j'ai aussi mis le temps afin que le lecteur puisse se 
faire une idée): 


R Fichier Edition Voir Misc Packages Fenétres Aide 


> textcat (docs[1]) 
ElementsMathematiquesippliquees.txt 
"french" 
> system.time (textcat (docs[1])) 
utilisateur système écoulé 
21.67 Le PSI D 22.79 


> | 
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Exemple 434.: Détecter les genres d'un vecteur de textes 
R 3.2.1. 


Le package genderizeR va intéresser probablement plus d'un praticien. Il utilise un API qui 
se connecte à un site web mais qui autorise par jour un maximum de 1'000 identifications de 
genres de prénoms ou de noms. Il peut être appliqué à un vecteur aussi bien qu'à un corpus. 


Voyons cela avec les fonctions findGivenNames( ) et givenNames( ) : 


R RGui (64-bit) - [R Console] — O X 
R File Edit View Misc Packages Windows Help 5 x 


ÉBSOISOSINIE 


library(genderizeR) 

x = c("Winston J. Durant, ASHP past president, dies at 84", 

“Gold Badge of Honour of the DGAI Prof. Dr. med. Norbert R. Roewer Wuerzburg", 
"The contribution of professor Yu.S. Martynov (1921-2008) to Russian neurology", 
"JAN BASZKIEWICZ (3 JANUARY 1930 - 27 JANUARY 2011) IN MEMORIAM", 

"Maria Sklodowska-Curie") 

givenNames<-findGivenNames (x) :givenNames 

removing special characters... 

building text-mining corpus... 

building term matrix... 

removing abbreviations... 

all characters to lower... 

removing numbers... 

removing punctuation... 

striping whitespaces... 

finding frequent terms... 


V++++VY 


Terms checked: 10/20. First names found: 6. | 0% 
Terms checked: 20/20. First names found: 7. | 50% 

[=======================-=----- ====================| 100% 
You have used 60 out of 1000 ( 6%) term queries. 


You have 24 hours until a new subscription period starts. 


name gender probability count 


1 at male 0.67 9 
2 dies female 1.00 1 
3 durant male 0.60 5 
4: jan male 0.60 1692 
5: january female 1.00 7 
6 maria female 0.99 8467 
7: to male 0.70 37 
> givenNames<-givenNames[{count>40];givenNames 


name gender probability count 


1: jan male 0.60 1692 
2: maria female 0.99 8467 
> | 
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Exemple 435.: Tableau de contingence lexical 
R 3.2.1. 


Nous partons du fichier texte suivant: 


= Vins.csv - Notepad = (= X 
File Edit Format View Help 


millésime;vin;frexte 

Millésime 1;Vin 1;Acidité, fruit 
Millésime 2;Vin 1;Fruité, léger 
Millésime 1;Vin 1;Bois 

Millésime 2;Vin 1;Acidité 
Millésime 1;Vin 2;Sucré 

Millésime 2;Vin 2;Sucré liquoreux 
Millésime 1;Vin 2;Léger, fruité 
Millésime 2;Vin 2;Sucré léger 


Nous utilisons alors la fonction textual() du package FactoMineR: 


FR RGui {64-bit} - [R Console] au O1 X 
KR File Edit View Misc Packages Windows Help 


aie] [ells) 


> mydata<-read.csv("C:/tmp/Vins.csv",header=T,sep=";") 

> library(FactoMineR) 

> textual(mydata,num.text=3,contingence.by=list(2,1:3),sep.word={(", "),maj.in.min=TRUE) 
$cont.table 


acidité bois fruit fruité léger liquoreux sucré 


Vin 1 2 1 1 1 1 [a] 0 
Vin 2 O0 [a] L 1 3 
Millésime 1.Vin 1 1 1 1 (a) 0 (a) 0 
Millésime 1.Vin 2 O0 O0 [a] 1 1 [a] p À 
Millésime 2.Vin 1 1 0 [a] 1 1 [a] (a) 
Millésime 2.Vin 2 O0 O0 [a] [a] 1 L 2 


$nb.words 

vords nb.list 
sucré 3 3 
léger 3 3 
fruité 2 2 
acidité 2 2 
liquoreux 1 1 
fruit 1 1 
bois 1 1 


> | 


où l'objet nb.list représente le nombre de lignes dans lequel le mot apparaît. 


Les valeurs peuvent ensuite être accédées directement puisqu'il s'agit de simple data frames! 
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Sciences.ch 


Exemple 436.: Analyse de sentiments (avec apprentissage par 


méthode bayésienne) 
R 3.2.1. 


Nous allons procéder ici à une analyse de Tweets typique. Pas souci de simplification nous 
écrirons les Tweets à la main plutôt que de passer par l'API qui a une tendance volatile. 


Nous utiliserons d'abord un nouveau package pas utilisé jusqu'ici qui est le package 


RTextTools. 


R RGui (64-bit) - [R Console] 


KR File Edit View Misc Packages Windows Help 


> library (RTextTools) 

> library(e1071) 

> 

> pos tweets = rbind( 

c('"I love this car', "'positive'}), 

c('This view is amazing', 'positive'}), 

c('"I feel great this morning', 'positive'}), 


c('He is my best friend', 'positive') 
) 


neg_ tweets = rbind( 
c('I do not like this car', "negative'), 
c('This view is horrible', "'negative'}), 
c('"'I feel tired this morning', "negative'}), 
c('"'I am not looking forward to the concert, 
c'He is my enemy', 'negative') 


test _tweets = rbind( 
c('feel happy this morning', "'positive'}), 
c'larry friend', 'positive'}), 
c'not like that man', "negative'}), 
c('house not great', "negative'}), 
c'your song annoying', "negative') 


VOA OV OV OV + + + + + 


— _ 


Jusque là rien d'extraordinaire! 


c('"I am so excited about the concert', 'positive'}), 


"negative'), 
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Ensuite, nous fusionnons ce joli petit monde: 


R RGui (64-bit) - [R Console] — O > 4 
KR File Edit View Misc Packages Windows Help 


> tweets = rbind(pos tweets, neg tweets, test _tweets) 


> tweets 
[,1] [,2] 
[1,] "I love this car" "positive" 
[2,] "This view is amazing" "positive" 
[3,] "I feel great this morning" N "positive" 
[4,] "I am so excited about the concert" "positive" 
[5,] "He is my best friend" "positive" 
[6,] "I do not like this car" "negative" 
[7,] "This view is horrible" "negative" 
[8,] "I feel tired this morning" "negative" 
[9,] "I am not looking forward to the concert" "negative" 
[10,] "He is my enemy" "negative" 
[11,] "feel happy this morning" "positive" 
[12,] "larry friend" "positive" 
[13,] "not like that man" "negative" 
[14,] "house not great" "negative" 
[15,] "your song annoying" "negative" 


> | 


Maintenant nous utilisons la fonction create_matrix() du package RTextTools: 


R RGui (64-bit) - [R Console] — O X 
R File Edit View Misc Packages Windows Help x 


| 


> matrix= create matrix(tweets{,1], language="english" 


+ removeStopwords=FALSE, removeNumbers=TRUE, 
_ stemWords=FALSE) 
> matrix 


<<DocumentTermMatrix (documents: 15, terms: 29)>> 
Non-/sparse entries: 49/386 


Sparsity : 89% 
Maximal term length: &8 
Weighting : term frequency (tf) 


> | 
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Bon cela crée un objet mais ce serait mieux d'en voir le contenu détaillé: 


R RGui (64-bit) - [R Console] 


R File Edit View Misc Packages Windows Help 


ER 


Sciences.ch 


maz = as.matrix (matrix) 
> maz 

Terms 

Docs about amazing annoying best car concert enenmy excited feel forward friend great 


1 0 0 


10 
900000000000 bkrO00 
000000000000 0h 


Terms 


Docs happy horrible house 


90000MmO0C0O00000000 
9000000000 00000 


Terms 
Docs tired view your 


1 o Le) 0 
2 Le) 1 0 
3 0 0 0 
4 0 0 0 
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Et enfin: 


KR File Edit View Misc Packages Windows Help - # x 


> classifier = naiveBayes(mat{1:10,], as.factor(tweets[1:10,2])) 
> predicted = predict{(classifier, mat{[11:15,]) 

> predicted 

[1] positive positive negative negative positive 

Levels: negative positive 

> fet la matrice de confusion 

> table(tweets[11:15, 2], predicted) 


predicted 
negative positive 
negative 2 1 
positive 0 2 


> | 


Voilà donc un résultat obtenu en un minimum d'efforts avec un coût minimum! 


LC 
LS 
2 
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Exemple 437.: Analyse de sentiments sur iTunes Store 
R 3.4.2 


Nous allons ici voir comment faire un exemple d'analyse sentimentale sur la base des 
commentaires d'une application iTunes à l'aide du package itunesr : 


| File Edit View Misc Packages Windows Help ||#) x 


EE 


> library("itunesr") 

Warning message: 

package ‘itunesr’ was built under R version 3.4.3 
> | 


Pour accéder aux avis de toute application 10S, nous devons avoir l'identifiant de 
l'application. L'identifiant d'application d'un identifiant d'application 10S peut être trouvé dans 
son URL iTunes (lien). Voici la capture d'écran montrant comment identifier l'App ID de 


L CO 

Uber iOS App: ‘ à 
Google uber ios app & à 
AI Images Videos News Shopping More Settings Tools 


About 75,100,000 results (0.80 seconds) 


Uber on the App Store - iTunes - Apple 
https//itunes.apple.com/us/app/uber/d368671368?mt-8 + 

Xi Rating: 4.7 - 132,418 reviews - Free - iOS - Travel 

Uber is a ridesharing app for fast, reliable rides in minutes—day or night. There's no need to park or 
wait for a taxi or bus. With Uber, you just tap to request a ride, and it's easy to pay with credit or cash in 
select cities. Whether you're going to the airport or across town, there's an Uber for every occasion 
Uber is available in 


Uber on the App Store - iTunes - Apple 
https://itunes.apple.com/it/app/uber/id368677368?71=en&mt=8 * Translate this page 

koh Rating: 43 - 255 reviews - Free - iOS - Travel 

Nov 13, 2017 - Uber is a ridesharing app for fast, reliable rides in minutes — day or night. There's no 
need to park or wait for a taxi or bus. With Uber, you just tap to request a ride, and its easy to pay with 
credit card or cash (in selected cities only). Whether you're going to the airport or across town, there's 
an Uber for every 


Maintenant, nous avons l'App ID - 368677368 pour lequel nous allons accéder à iTunes 
Reviews et l'analyser. 


R Statistical Software 2783/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Nous pouvons extraire les avis d'iTunes de n'importe quelle application avec la fonction 
getReviews( ) qui prend 3 arguments: 


1. ID de l'application 
2. Code du pays 
3. Données de la page des avis 


Allons-y pour extraire les commentaires de l'app Uber: 


R RGuï (64-bit) - [R Console] - O 


ŒR File Edit View Misc Packages Windows Help - x 


SROECEEIE 


C) 


> library("itunesr") 

> #dernière page de commentaires (1) pour les USA (us) 
> mydata<-getReviews (368677368,'us',1) 

> nrow(mydata) 


[1] 50 
> mydata 
Title Author URL 
2 annoying https://itunes.apple.com/us/reviews/id150269561 
3 Exceptional https://itunes.apple.com/us/reviews/id590382432 
4 $50 coupon: RIDE783 https://itunes.apple.com/us/reviews/id668607754 
5 Worse and worse over time update https://itunes.apple.com/us/reviews/1id27122826 
6 273 mb https://itunes.apple.com/us/reviews/id37427674 
7 Good app https://itunes.apple.com/us/reviews/id271820689 
8 Easy to Use https://itunes.apple.com/us/reviews/id133225505 
9 Horrible Company https://itunes.apple.com/us/reviews/id300641346 
10 Fix navigation and get better drivers https://itunes.apple.com/us/reviews/id523297410 
11 Refund https://itunes.apple.com/us/reviews/id542691574 
12 Just about perfect https://itunes.apple.com/us/reviews/i422338309 
13 Treats driver badly https://itunes.apple.com/us/reviews/id319729067 
14 They charge you if your driver doesn't arrive on time. https://itunes.apple.com/us/reviews/id148572603 
15 Comfortable https://itunes.apple.com/us/reviews/id669392100 
16 Love UBER! https://itunes.apple.com/us/reviews/id17856479 
17 Love Uber https://itunes.apple.com/us/reviews/id107466906 
18 Love it! https://itunes.apple.com/us/reviews/id127779696 
19 Excellent airport service https://itunes.apple.com/us/reviews/id30425984 
20 Chung toi di tu ch<U+1EE3> Kim Bien ve 46 thu khoa Huan https://itunes.apple.com/us/reviews/id669279788 
21 <U+0661><U+0660>/<U+0661><U+0660> https://itunes.apple.com/us/reviews/id301569409 
22 Fix https://itunes.apple.com/us/reviews/1id475161092 
23 Uber hates their users! https://itunes.apple.com/us/reviews/id224103119 
24 Great ride https://itunes.apple.com/us/reviews/id118645512 
25 Thank you for bringing Uber to Livermore https://itunes.apple.com/us/reviews/1d374052658 
26 Businessman https://itunes.apple.com/us/reviews/id596582482 
27 No cash option https://itunes.apple.com/us/reviews/id269338610 
28 Why do I have to wait for the driver to finish another drive? https://itunes.apple.com/us/reviews/id104030157 
29 Don't use UBER at Union station in Chicago. https://itunes.apple.com/us/reviews/1id6212464 5 
a > > . 
Voici un résumé de ce que contient le dataframe: 
R RGui (64-bit) - [R ole] = Ü 
ŒR File Edit View Misc Packages Windows Help - F x 
ÉROBOSIOIE 
> names (mydata) 
[1] "Title" “Author URL" "Author Name" "App Version" "Rating" "Review" "Date" 
> str(mydata) 
"data.frame': 50 obs. of 7 variables: 
$ Title : Factor w/ 51 levels "S$SS0 coupon: RIDE783",..: 6 15 1 51 3 19 13 22 18 36 ... 
$ Author URL : chr "https://itunes.apple.com/us/reviews/id150269561" "https://itunes.apple.com/us/reviews/id590382432" "https://1$ 
$ Author Name: chr "Deauy" "Anthony/Kerry" "uhyhhoqh368" "ErikJaffe" 
$ App_ Version: Factor w/ 3 levels "3.268.10002",..: 3 3 3 3 2 3 3 3 3 3 ... 
$ Rating s Factor w/ 5 levels "1","2%,030 04% cs 96 S LL SSL 2 2 sus 
$ Review :Error in nchar(lev.att, type = "w") 
invalid multibyte string, element 45 
>| 
| 
< > 
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Exemple 438.: Inférence de sentiments (sans apprentissage) 
R 3.2.3 


Nous allons analysis sans a priori le fichier de commentaires suivant en utilisant le multiples 
packages: 


s CommentsCharlestonGazetteMail.txt - Notepad = X 


File Edit Format View Help 


la church cemetery is no place to have a... ) 
Anyone in Congress who votes for Obama?s Iran deal is committing treason against their own country.... 

As a native born West Virginian I am outraged that the Chamber of Commerce branch of the Republican Party has... 

As a taxpayer, if we?re going to cut the subsidies to one entity such as the greyhound dogs, why... 

Can anyone seriously see Donald Trump in control of this nation?s nuclear weapons? 

Comparing Dulles airport to the regional airport is absurd. There are 6 million people within an hour-drive... 

Could someone please tell the readers why the gasoline prices in South Charleston are $2.64 per gallon and just up the 
Don?t you just love breaking news? It seems every news item is breaking news. If it rains too hard,... 

Don?t you just love breaking news? It seems every news item is breaking news. If it rains too hard,... 

Dr. Ben Carson blames ?gun free zones? for mass shootings, and lack of firearms... 

Federal and state taxes are... 

Grammar snobbery isn?t just snobbery. ?Let?s eat, Grandma.?... 

Gun nuts: shooting in Oregon. Nine dead so far. Is the 2nd Amendment regarding a well armed militia still... 

Have fun with... 

How can Republicans say with a straight face ?Bush kept us safe?? Wasn?t.., 

How many Washington Republicans does it take to change a light bulb? None! They would rather sit in the dark and blame 
am 92 years old and heartbroken. The police in Oregon are correct -- please do not give these... 

believe there are more people using cell phones and texting while driving than before the law against it... 

have done my research and decided I do not want a ?Coal or Cole man? for governor. They both... 

like Trump and what he says but I do ... 

read the Vent about what Republicans don?t want regarding women. But you missed the whole point. They don?t want a ? 
see that Sen. Manchin was one of three Democrats to vote against the Clean Water bill. If in fact he wants... 

see where the fall version of FestivALL is getting ready to start. Does it ever end? 

think the state needs to start taking notice of these people who are... 

think this side of Charleston has been shut out of Coonskin Park and no one cares enough to do something... 

was sorry to see the news about Cali. The only problem with having pet animals, especially cats, is that... 

wonder why AEP cannot ... 

I would love to read real examples of how Christians are being abused. Give examples or quit being so fragile. 

1?m convinced that if Adolf Hitler were alive today and ran for the Democratic Party for president... 

1?m glad there are a few who have enough common sense to have Halloween on Halloween. 

1?m so proud of the Gazette-Mail and the writer Eric Eyre. That article about Patrick Morissey is just ... 

1f Joe Manchin expects to get elected again in West Virginia then he needs to vote against the Iranian... 

If you want cheap gasoline then you need to come to Nitro or Cross Lanes. It is always several cents lower than anywhe 
If you want to know why there are no electric cars available in West Virginia, it?s not c-o-a-l,... 

in a job where you have no contact with the public whatsoever, why can you not wear blue jeans? 

in response to the person who said that the aluminum workers at Ravenswood went on strike and they are still... S 


HHHMHMHHHHH EH H 


< > 


D'abord nous lisons les le contenu ligne par ligne avec la fonction native readLines( ) : 
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Nous faisons un nettoyage avec la classique fonction gsub() et une mise en minuscule avec 


R RGui (64-bit) - [R Console] — Ü X 
R File Edit View Misc Packages Windows Help -I#|x 
> flecture des données 
> data<-readLines("c:/tmp/CommentsCharlestonGazetteMail.txt") 
> df<-data.frame (data) 
> #on prend que la colonne qui nous intéresse 
> textdata<-df{dfS$data, ] NS 
> textdata 
[1] À church cemetery is no place to have a... $ 
[2] Anyone in Congress who votes for Obama?s Iran deal is committing treason against their$ 
[3] As a native born West Virginian I am outraged that the Chamber of Commerce branch of t$ 
[4] As a taxpayer, if we?re going to cut the subsidies to one entity such as the greyhound$ 
[5] Can anyone seriously see Donald Trump in control of this nation?s nuclear weapons? $ 
[6] Comparing Dulles airport to the regional airport is absurd. There are 6 million people$ 
[7] Could someone please tell the readers why the gasoline prices in South Charleston are $ 
[8] Don?t you just love breaking news? It seems every news item is breaking news. If it ra$ 
[9] Don?t you just love breaking news? It seems every news item is breaking news. If it ra$ 
[10] Don?t you just love breaking news? It seems every news item is breaking news. If it ra$ 
[11] Dr. Ben Carson blames ?qun free zones? for mass shootings, and lack of firearms... $ 
[12] Federal and state taxes are... $ 
[13] Grammar snobbery isn?t just snobbery. ?Let?s eat, Grandma.?... $ 
[14] Gun nuts: shooting in Oregon. Nine dead s0 far. Is the 2nd Amendment regarding a well $ 
[15] Have fun with... $ 
[16] How can Republicans say with a straight face ?Bush kept us safe?? Wasn?t... $ 
[17] How many Washington Republicans does it take to change a light bulb? None! They would $ 
[18] I am 92 years old and heartbroken. The police in Oregon are correct -- please do not g$ 
[19] I believe there are more people using cell phones and texting while driving than befor$S 
[20] I have done my research and decided I do not want a ?Coal or Cole man? for governor. TS 
[21] I like Trump and what he says but I do ... $ 
[22] I read the Vent about what Republicans don?t want regarding women. But you missed the $ 
[23] I see that Sen. Manchin was one of three Democrats to vote against the Clean Water bil$ 
< > 
CO 
S 


lapply() : 
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R RGui (64-bit) - [R Console] ou (a! X 


R File Edit View Misc Packages Windows Help 5x 


library(plyr) 

fon supprime toutes les ponctuations 
textdata<-gsub("[[:punct:]]", "", textdata) 
fon supprime tous les nombres 
textdata<-gsub("[[:digit:]]", "", textdata) 
fon supprime tous les adresses internet 
textdata<-gsub("http\\w+", "", textdata) 
fpassage en minuscules DNS 
textdata<-lapply(textdata ,tolower) 

> head(textdata) 

[11]] 


[1] "a church cemetery is no place to have a" 


VYNVNVNVNNNNVY 


[12))] 


[1] “anyone in congress who votes for obamas iran deal is committing treason against their $ 


[131] 


[1] "as a native born west virginian i am outraged that the chamber of commerce branch of tS$ 


[14)] 


[1] "as a taxpayer if were going to cut the subsidies to one entity such as the greyhound d$ 


[15]] 
[1] "can anyone seriously see donald trump in control of this nations nuclear weapons" 


LE PRE dulles airport to the regional airport is absurd there are million people w$ 
>| 

< | > 
— si 

Pour la suite nous installons et nous chargeons le package sentiment qui n'est plus à ce jour 
sur le CRAN: 
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R RGui (64-bit) - [R Console] — O X 
R File Edit View Misc Packages Windows Help .|#|x 


> library(devtools) 

> install url("http://cran.r-project.org/src/contrib/Archive/sentiment/sentiment 0.1.tar.gz") 

Downloading package from url: http://cran.r-project.org/src/contrib/Archive/sentiment/sentiment 0.1.tar.gz 

Installing sentiment 

"C:/PROGRA-1/R/R-32-1.1/bin/x64/R" --no-site-file --no-environ --no-save --no-restore CMD INSTALL \ 
"C:/Users/Vincent Isoz/AppData/Local/Temp/RtmpA7ei7m/devtools1664183elea/sentiment" \ 
--library="C:/Users/Vincent Isoz/Documents/R/win-library/3.2" --install-tests 


* installing *“source* package 'sentiment' ... 

** package '"sentiment' successfully unpacked and MDS5 sums checked 

** R 

** data 

** preparing package for lazy loading 

** help 

*** installing help indices 

** building package indices 

** testing if installed package can be loaded 

*** arch - i386 

vs arch - x64 

* DONE (sentiment) 

Reloading installed sentiment 

> install url("http://cran.r-project.org/src/contrib/Archive/sentiment/sentiment 0.2.tar.gz") 

Downloading package from url: SU 

Installing sentiment 

"C:/PROGRA-1/R/R-32-1.1/bin/x64/R" --no-site-file --no-environ --no-save --no-restore CMD INSTALL \ 
"C:/Users/Vincent Isoz/AppData/Local/Temp/RtmpA7ei7m/devtoo1s16644787e5/sentiment" \ 
--library="C:/Users/Vincent Isoz/Documents/R/win-library/3.2" --install-tests 


* installing *“source* package 'sentiment' ... 

** package 'sentiment' successfully unpacked and MDS5 sums checked 
** R 

** data 

** preparing package for lazy loading 

** help 


*** installing help indices 

** building package indices 

** testing if installed package can be loaded 
*** arch - i386 

*** arch - x64 

* DONE (sentiment) 

Reloading installed sentiment 

> dd ht di eEs 

> 


Maintenant avec la fonction classify_emotion() nous classifions les messages par 
sentiments: 
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R RGuï (64-bit) - [R Console] _ O X 
KR File Edit View Misc Packages Windows Help - 5 x 


G | 


> fon tente de classifier les messages par émotion (joie, colère, etc.) 


> class emo = classify emotion(textdata, algorithm="bayes", prior=1.0) 
> #on prend que la partie émotions qui est dans la colonne 7 
> emotion = class emo{,7];emotion 


[1] NA NA "anger" NA NA DS NA "joy" "joy" "joy" 
[10] "joy”" NA NA NA NA NA NA "sadness" #‘"joy" 
[19] NA NA "joy" NA NA NA NA NA "sadness" 
[28] "surprise" "joy" NA "joy" "joy" “sadness”" NA NA "“sadness" 
[37] "joy" "surprise" "fear" "fear" NA NA NA "“anger" NA 
[46] NA Na “anger" NA Na NA NA "joy" “joy" 
[55] "joy" "anger" NA NA NA NA NA NA NA 
[64] NA "fear" NA NA "joy" "joy" "joy" NA NA 
[73] "joy" NA "joy" "joy" NA NA NA NA "joy" 
[82] "joy” NA 
> #on fait un peu plus propre 
> emotion{is.na(emotion)] = "unknown";emotion 

[1] "unknown" "unknown" "anger” "unknown" "unknown" "unknown" "joy” "joy" "joy" 
[10] "joy” "unknown" "unknown" "unknown" "unknown" "unknown" “unknown” "sadness" ‘"joy" 
[19] "unknown" "unknown" ‘"joy" “unknown” "unknown" "unknown" "unknown" "unknown" “"sadness" 
[28] "surprise" "joy" *“unknown" ‘"joy" "joy" "sadness" "unknown" "unknown" "sadness" 
[371 “iov" "surprise" "fear" "fear" "unknown" “unknown” "unknown" "anger" “unknown" 
[46] "unknown" "unknown" ‘"“anger" “unknown" "unknown" "unknown" "unknown" ‘"joy" "joy" 
[55] "joy" “anger" *unknown" ‘“unknown" "unknown" "unknown" "unknown" "unknown" “unknown" 
[64] "unknown" "fear" *unknown" ‘“unknown" ‘"joy" "joy" "joy" “unknown" "unknown" 
[73] "joy" "unknown" "joy" "joy" "unknown" "unknown" "unknown" "unknown" "joy" 
[82] "joy" "unknown" 
>| 


On fait de même avec les polarités en utilisant la fonction classify_polarity( ): 


[2] 
[10] 
[19] 
[28] 
[37] 
[46] 


"positive" 
"positive" 
"positive" 
"positive" 
"negative" 
"neutral" 

"positive" 
"positive" 
"negative" 
"positive" 


R RGui (64-bit) - [R Console] 
R File Edit View Misc Packages Windows Help 


"negative" 
"negative" 
"positive" 
"neutral” 

“positive” 
"neutral" 

"negative" 
"negative" 
"positive" 
"positive" 


On rassemble le tout: 


"negative" 
"positive" 
"positive" 
"positive" 
"neutral" 

"negative" 
"negative" 
"positive" 
"negative" 


"negative" 
"positive" 
"positive" 
"positive" 
"neutral” 

"neutral” 

"negative" 
"positive" 
"negative" 


"neutral" 

"neutral" 

"positive" 
"positive" 
"negative" 
"positive" 
"negative" 
"negative" 
"positive" 


"negative" 
"negative" 
"neutral" 

"negative" 
"negative" 
"positive" 
"positive" 
"negative" 
"neutral" 


> #on tente de classier les messages par polarité (négatif, positif, neutre) 
> class pol = classify polarity(textdata, algorithm="bayes") 
> #on prend que la partie polarité qui est dans la colonne 4 
> polarity = class pol{[,4];polarity 


"negative" 
"positive" 
"positive" 
"negative" 
"positive" 
"negative" 
"positive" 
"negative" 
"negative" 


"positive" 
"negative" 
"positive" 
“positive” 
“"neutral” 

"positive" 
"positive" 
"positive" 
"positive" 


"positive" 
"positive" 
"negative" 
"negative" 
"positive" 
"positive" 
"positive" 
"positive" 
"positive" 
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R RGuiï (64-bit) 
KR File Edit View Misc Packages Windows Help 


- [R Console] 


X 


ñ 
> sent _df = data.frame(emotion=emotion, polarity=polarity) 
> sent _df 

emotion polarity 
L unknown positive 
2 unknown negative 
3 anger negative 
4 unknown negative 
5 unknown neutral 
6 unknown negative 
td joy negative 
8 joy positive 
9 joy positive 
10 joy positive 
11 unknown negative 
12 unknown positive 
13 unknown positive 
14 unknown neutral 
15 unknown negative 
16 unknown positive 
17 sadness negative 
18 joy positive 
19 unknown positive 
20 unknown positive 
21 joy positive 
22 unknown positive 
23 unknown positive 
24 unknown neutral 
25 unknown positive 
26 unknown positive 

v 
On fait un premier plot des sentiments: 
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R r Console 


> library (RColorBrewer) 
library(ggplot2) 
ggplot(sent_df, aes(x=emotion))+geom bar(aes(y=..count.., fill=emotion))+ 
scale fill brewer (palette="Dark2") + 

labs (x="emotion categories", 


Ÿ 


V++v 


50- 


40- 


30- 


EL BE — 


Et idem pour la polarité: 


ge) 


joy 


emotion categories 


Figure 342 Graph à barres d'analyse de sentiments 
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> ggplot (sent _df, aes(x=polarity))+geom bar(aes(y=..count.., fill=polarity))+ 
+ scale fill brewer (palette="RdGy") + 
+ labs(x="polarity categories", y="") 


> 


Et enfin le nuage: 
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> library (wordcloud) 

> library(tm) 

> library(SnowballC) 

> emos = levels(factor(sent_df$emotion)) 

| > nemo = length(emos) 

> emo.docs = rep{("", nemo) 

> for (i in 1:nemo) 

Li ! 

+ tmp = textdata{emotion == emos{i]] 

+ emo.docs{i] = paste(tmp, collapse=" ") O 
EE 

> emo.docs = removeWords(emo.docs, stopwords("english")) 

> corpus = Corpus (VectorSource (emo.docs)) 

> tdm = TermDocumentMatrix(corpus) 

> tdm = as.matrix(tdm) 

> colnames(tdm) = emos 

> comparison.cloud(tdm, colors = brewer.pal(nemo, "Dark2"),scale = c(3,0.5), random.order = FALSE,title.size = 1.5) 
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Exemple 439.: Bag-of- Words (package qdap) 
R 3.2.1. x86 


Le Bag-Of-Words est beaucoup utilisé dans le Data Mining que ce soit en finance ou dans 
l'analyse des échanges sur les réseaux sociaux. 


Voyons quelques exemples avec le package qdap et attention il faut la version 32bits car 
utilise rJava!! 


D'abord voyons la fonction bag_o_words() qui nous intéresse ici particulièrement et qui 
renvoie un vecteur de mots (il devient alors aisé d'en faire toutes sortes de statistiques): 


l FR Fichier Edition Voir Misc Packages Fenêtres Aide 


> library(qdap) 

> text<-bag o words("l'm going home!", apostrophe.remove 
> text 

+ nr "going" "home" 

> 


Ou sur un data frame directement: 


RQ 
: _ . RO 

R RG 62-bi - R Cons NN 

R Fichier Edition Voir Misc Packages Fenêtres Aide 

|. DATA 
person sex adult state code 

1 sam m 0 Computer is fun. Not too fun. K1 
2 greg m [e) No it's not, it's dumb. K2 
3 teacher m L What should we do? K3 
4 sam m 0 You liar, it stinks! Ka 
5 greg m [e) I am telling the truth! KS5 
6 sally £ [e) How can we be certain? K6 
7 greg m 0 There is no way. K7 
8 sam m 0 I distrust you. K8 
9 sally £ 0 What are you talking about? K9 
10 researcher £ L Shall we move on? Good then. K10 
pi greg m O0 I'm hungry. Let's eat. You already? K11 
> bag o words (DATA$state) 

[1] "computer" "is" "fun" "not" “too” "fun" 

[7] “no” "it'a” "not" vit's" "dumb" "what" 
[13] "should" "we" "do" "you" "l1iar® "Le" 
[19] "stinks" "1 "am" "telling" "the" "truth" 
[25] "how" "can" mye" "be" "certain" "there" 
[31] “is” "no" "way" ur "distrust" "you" 
[37] "what" “are” "you" "talking" "about" "shall" 
[43] “we” "move" "on" "good" "then" ee 

"hungry" "let's" eat" "you" "already" 


Ensuite nous pouvons faire un regroupement par variable en utilisant la méthode by: 


R Statistical Software 2794/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


6 RGui (32-bit} - [R Console] 
R Fichier Edition Voir Misc Packages Fenêtres Aide 


> by (DATA$state, DATA$person, bag o words) 
DATASperson: greg 
pee SU La "not" "1r 97 "dumb" 
"telling" "the" "truth" "there" 
"way" "i'm “hungry" "let's" 
"already" 


DATAS$Sperson: researcher 
[1] “shall” "ye” 


DATAS$Sperson: sally 
[1] "how" 
[7] "are" 


DATASperson: sam 

[1] "computer" "is" 

[7] "you" "Linr” i 1 "distrust" 
[13] "you" 


DATASperson: teacher 
[1] "what" "should" "we" 
>| 


Ou faire encore plus subtil en prenant en compte la polarité (méthode empirique d'attribution 
de négativité ou de positivité de phrase si ces dernières sont en anglais): 
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FR RGui (G2-bit - [R Cons @ — 
FR Fichier Edition Voir Misc Packages Fenêtres Aide 


ÉSOISOSINIE 


> poldat <- with(DATA.SPLIT, polarity(state, person)) 
> poldat 

person total.sentences total.words ave.polarity sd.polarity stan.mean.polarity 
1 greg 6 20 -0.075 0.183 -0.408 
2 researcher 6 0.354 0.500 0.707 
3 sally 10 0.000 0.000 NaN 
4 
5 
> à 


sam 13 -0.394 0.678 0.582 
teacher 4 0.000 NA NA 
counts (poldat) 
person wc polarity pos.words neg.words text.var 
sam 3 0.577 fun - Computer is fun. 
sam -0.577 _- Not too fun. 
greg -0.447 dumb No it's not, it's dumb. 
teacher 0.000 - What should we do? 
sam -1.000 liar, stinks You liar, it stinks! 
greg 0.000 - I am telling the cruth! 
sally 0.000 _ How can we be certain? 
greg 0.000 - There is no way. 
sam -0.577 distrust I distrust you. 
10 sally 0.009 What are you talking about? 
11 researcher 0.000 Shall we move on? 
12 researcher 0.707 Good then. 
3 greg 0.000 I'm hungry. 
greg 0.000 Let's eat. 
greg 0.000 You already? 


1 
2 
3 
4 
1 5 
6 
7 
8 
9 


ND ND 9 NO 4 On CG 4 On On 4 de On Gi 
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Exemple 440.: Clustering d'un matrice numérique catégorielle 
R 4.1 


L'exemple qui suit est repris de: 


https://www.datanovia.com/en/blog/cluster-analysis-in-r-simplified-and-enhanced/ 


Considérons le jeu de donnés suivant que nous normalisons: 


° RGui (64-bit) - [R Console] — O 


R File Edit View Misc Packages Windows Help _ 


> data ("USArrests") 
> head (USArrests) 
Murder Assault UrbanPop Rape 


Alabama 13,2 236 58 21.2 
Alaska 10.0 263 48 44.5 
Arizona 8.1 294 80 31.0 
Arkansas 8.8 190 50 19.5 
California 9.0 276 91 40.6 
Colorado 7.9 204 78 38.7 
> d£f <- scale (USArrests) 
> head({(df) 

Murder Assault UrbanPop Rape 
Alabama 1.24256408 0.7828393 -0.5209066 -0.003416473 
Alaska 0.50786248 1.1068225 -1.2117642 2.484202941 
Arizona 0.07163341 1.4788032 0O.9989801 1.042878388 
Arkansas 0.23234938 0.2308680 -1.0735927 -0.184916602 
California 0.27826823 1.2628144 1.7589234 2.067820292 
Colorado 0.02571456 0.3988593 O0.8608085 1.864967207 


> | 


Nous souhaiterions regrouper les villes les plus semblables entre elles entre utilisant un 
groupement en 4 clusters (vu qu'il y a 4 types facteurs). 


Faisons d'abord une analyse de la corrélation via la métrique de Pearson en utilisant les 
fonctions get_dist( ) et fviz_dist( ) de factoextra: 
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— - —— _ - 
MR Console 
> library("factoextra") 
> #création de la matrice des distances 
> res.dist <- factoextra::get dist(df, method = "pearson") 
> head(round(as.matrix(res.dist), 2))[, 1:6] 
Alabama Alaska Arizona Arkansas California Colorado 
Alabama 0.00 0,71 1.45 0.09 1.87 1.69 
Alaska 0.71 0.00 0.83 0.37 0.81 0.52 
Arizona 1.45 0.83 0.00 1.18 0.29 0.60 
Arkansas 0.09 0.37 1.18 0.00 1.59 L:97 
California 1.87 0.81 0.29 1.59 0.00 0.11 
Colorado 1.69 0.52 0.60 1.37 0.11 0.00 
> MM is lab size = 8) 
> 


. Indiana- - 
Minnesota- - 
lowa- - 
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Wisconsin- - 
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Connecticut- - 
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OK c'est sympa cela nous donne une première idée de quelle vielle ressemble à laquelle. Mais 
on peut faire mieux! 


Faisons un clustering ascendant hiérarchique: 
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> res.dist <- dist(df, method = "euclidean") 

> res.hc <- hclust(res.dist, method = "ward.D2") 
> plot(res.hc, cex = 0.5) 

>| 


Cluster Dendrogram 


hclust (*, "ward.D2") 


Et un clustering par la méthode des K-means: 
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> res.km <- factoextra::eclust(df, "“kmeans", nstart = 10) 
Clustering k = 1,2,..., K.max (= 10): .. done 
Bootstrapping, b = 1,2,..., B (= 100) [one "." per sample]: 


KMEANS Clustering 


: : awaii 
California New Jeags ni 
frere 


| Gone ut 
ashington 
+ 


Ohio | | 
à Pennsy Minnés@ta onsin 
+ 


F£honkans 
thdiana+ Nebraska 
L 


ss 
ze 
S 


Dim2 (24.7%) 


1 
_ 
1 


est Virginiermont 


Dim (62%) 


On peut vérifier le nombre de cluster optimaux avec la fonction fviz_gap_stat( ): 
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> factoextra::fviz gap stat(res. km$gap_ stat) 
>| 


0.25 


= 
= 
LL 
= 
no 
= 
© 
S 
on 
o 
ru] 
QO 


5 6 
Number of clusters k 


On peut observer aussi le contenu de l'objet de clustering par la méthode des k-means: 
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R File Edit View Misc Packages Windows Help |5|x 


> res.km 
K-means clustering with 4 clusters of sizes 13, 8, 13, 16 


Cluster means: 
Murder Assault UrbanPop Rape 
—-0.9615407 -1.1066010 -0.9301069 -0.96676331 
1.4118898 0.8743346 -0.8145211 0.01927104 
0.6950701 1.0394414 0.7226370 1.27693964 
-0.4894375 -0.3826001 0.5758298 -0.26165379 


Æ & N 


Clustering vector: 


Alabama Alaska Arizona Arkansas California 

2 3 3 2 3 

Colorado Connecticut Delaware Florida Georgia 

3 4 4 3 2 

Hawaii Idano Illinois Indiana Iowa 

4 1 3 4 1 

Kansas Kentucky Louisiana Maine Maryland 

4 L 2 1 3 
Massachusetts Michigan Minnesota Mississippi Missouri 
4 3 L 2 3 

Montana Nebraska Nevada New Hampshire New Jersey 

1 L 3 1 4 

New Mexico New York North Carolina North Dakota Ohio 

3 3 2 1 4 

Oklanoma Oregon Pennsylvania Rhode Island South Carolina 

4 4 4 4 2 

South Dakota Tennessee Texas Utah Vermont 
L 2 3 4 1 

Virginia Washington West Virginia Wisconsin Wyoming 

4 4 L 1 4 


Within cluster sum of squares by cluster: 
[1] 11.952463 8.316061 19.922437 16.212213 
(between SS / total 55 = 71.2 %) N 


Available components: 


[1] "cluster" "centers" "totss" "withinss" "tot.withinss" 
[6] "betweenss" "size" viter” "ifault" "clust _plot" 
[11] "silinfo" "nbclust" "data" "gap_stat" 
>| 


On peut faire un clustering ascendant hiérarchique en utilisant les fonctions native de 
factoextra dont fviz_dendi ) et eclust( ): 
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> factoextra::fviz dend(factoextra::eclust(df, "hclust"), rect = TRUE) 
Clustering k = 1,2,..., K.max (= 10): .. done 
Bootstrapping, b = 1,2,..., B (= 100) {one "." per sample]: 
s'érela tee ia aie eee dei do aie etoiles d'éoineaiéiers le midi atenes 159 
SERRE ROSES SES MSN CNE dresse tersnver 108 
Warning message: 
The ‘<scale>' argument of ‘quides()' cannot be ‘FALSE‘. Use "none" instead as of 
ggpilot2 3.3.4. 
[] The deprecated feature was likely used in the factoextra package. 

Please report the issue at <https://github.com/kassambara/factoextra/issues>. 
This warning is displayed once every 8 hours. 
*} à ‘lifecycle::last lifecycle warnings()' to see where this warning was generated. 
> 
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Exemple 441.: Clustering et ACP de multiples PDFs 
R4.1 


Sciences.ch 


Nous allons voir ici comment lire un dossier de PDFs multiples, analyser la fréquences des 
termes dans chaque PDF, afficher sous forme arbre hiérarchique la similarité entre les PDESs 
et enfin faire de même en utilisant une Analyse en Composantes Principales (ACP). 


Exploration des données 


Pour cela nous allons d'abord préparer un dossier de PDFs comme par exemple: 


Home Share 


mil E % New item + E open DA Select all 
À Easy acces: - BR eait 


mn Select none 
Pinto Quick Copy Paste 


access 
Clipboard 


e > + + D: misrc 


Quick access 


4 Desktop 


Delete Rename New Properties 
+ Fr History 


folder 


tmp > pdfs 


M aime 


B Brownian_Excursion.pdf 


He Invert selection 


Date modified 


B Cosine_Similarity.pdf 
B Ergosphere.pdf 
B Genetical_Theory_of_Natural_Selection.pdf 


Ë Documents 
Downloads 


FA Pictures : = 
B Homosexuality_heritable_component.pdf 


# |, £ _ = 
si] Videos B Magnetic Monopoles_in_unified_gauge _theories.pdf 


Music B Newton_Cooling_Equation_from_Heat_Equation.pdf 

Dropbox B Pressure Effect_on_the Curie Temperatures_of_Transition Metals_and_Alloys.pdf 
OneDrive - ThinkT 
OS (C:) 


æ 
æ DATA (D:) 
S 

] 


B Tolman_Oppenheimer_Volkov_Stars.pdf 


Fake_Network_Drive (Z:) 
Google Drive (G:) 


| Desktop 


Et un fichier texte dans un autre dossier avec les mots que nous voudrons ignorer lors de notre 
analyse (mots séparés par des espaces): 
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View 


V Cut pr IE Cu l M New item » Mopen- Select all 
£. E F LL 
CLÉ 
EL 


ES Copy path ä Easy ss Beat elect none 
e 0 Copy Delete Rename New 
to to Le folder F5 History 


Invert selection 


Organize 


+ 4 D: ThisPC >» OS(C:) > tmp 


Œ lame 


Quick access 
| *mots_a_eliminer.txt - Notepad 
B Documents 
Downloads 
FA Pictures 


Videos 


File Edit Format View Help 
the differ doi isbn conflicts finance| 


Music 


4 % % % % % % % % 


Google Drive (G:) 


Desktop 


Ln 1, Col 38 100% Windows (CRLF) UTF-8 


ÊË mots_a_eliminerxt 


NI 


Ensuite, nous utilisons le package tm et sa fonction VCorpus( ) pour lire tous les PDEFSs et 
leurs contenus: 
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 RGui (64-bit) - [R Console] 


AR File Edit View Misc Packages Windows Help || x 


OSEO 


> library("tm") 
Loading required package: NLP 
rm(list = 1s()) 


fon lit le dossier avec les PDFs 

directory <- "c:/tmp/pafs" 

my.corpus <- VCorpus (DirSource (directory, pattern = ".pdf"), 
readerControl = list (reader = readPDF)) 


#on stock à part les noms des fichiers pour les graphiques plus tard 
(file.names <- meta(my.corpus,tag="'id')) 

$Br ownian Excursion.pdf 

[1] "Brownian Excursion.pdf" 


VVNNVNENNVNV V 


$Cosine Similarity.pdf 
[1] "Cosine Similarity.pdf" 


$Ergosphere.pdf 
[1] "Ergosphere.pdf" 


$Genetical Theory of Natural Selection -pdf 
[1] "Genetical Theory of Natural Selection.pdf" 


$SHomosexuality heritable component -pdf 
[1] "Homosexuality heritable component.pdf" 


$Magnetic Monopoles in unified gauge theories -pdf 
[1] "Magnetic Monopoles in unified gauge theories.pdf" 


SNewt on Cooling Equation from Heat Equation.pdf 
[1] "Newton Cooling Equation from Heat Equation.pdf" 


$Pressure Effect on the Curie Temperatures of Transition Metals and Alloys Das 
[1] "Pressure Effect on the Curie Temperatures of Transition Metals and Alloys.pdf" 


$Tolman Oppenhe imer Volkov Stars.pdf 
[1] "Tolman Oppenheimer Volkov Stars.pdf" 


> | 


Nous avons également montré comme vous pouvez récupérer les noms des fichiers au cas où 
dans les graphiques plus tard vous souhaiteriez les utiliser comme légendes (mais c'est pas 
une bonne idée vu la longueur des noms de fichiers). 


Voyons maintenant comment préparer le corpus! 
Préparation du corpus 


Encore une fois, nous utilisons le package tm pour cela et sa fonction tm_map( ) mais aussi le 
package SnowballC pour changer toutes les variantes de mots dans la même mot racine: 
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UR File Edit View Misc Packages Windows Help AUE: 


@Il#| 


> my.corpus 

<<VCorpus>> 

Metadata: corpus specific: 0, document level (indexed): © 
Content: documents: 9 


> fon nettoie le corpus 

> my.COrpus <- tm map(my.COrpus, removePunctuation) 

> my.COrpus <- tm map(my.COrpus, Content _ transformer (tolower)) 

> my.COrpus <-tm map(my.COrpus, removePunctuation) 

> my.Corpus <-tm map(my.Corpus, removeNumbers) 

> my.Ccorpus <-tm map(my.corpus, stripWnitespace) 

> my.COrpus <= tm map(my.Corpus, removeWords, stopwords("english")}) 
fstopwords() permet de voir tous les mots enlevés pour les curieux 


> 
> fon enlève nos propres mots 

> my.stops <- c{"history","clio®, "programming", "the","f£for") 
> my.Corpus <- tm map(my.Corpus, removeWords, my.stops) 

> 


> fou on enlève des mots en utilisant un fichier externe avec les mots séparés par des espaces 
> my.list <- unlist(read.table("c:/tmp/mots a eliminer.cxtc", stringsAsFacrors=False)) 
Error: object "False' not found 
In addition: Warning message: 
In read.table("c:/tmp/mots_a_eliminer.txt", stringsAsFactors = False) : 
incomplete final line found by readTableHeader on ‘"c:/tmp/mots a _eliminer.txt! 
> my.stops <- c(my.list) 
Error: object 'my.list' not found 
> my.Corpus <- tm map(my.Corpus, removeWords, my.stops) 


> 
> fon change toutes les variantes de mots dans le même mot racine 
> library("SnowballC"}) 

> my.COrpus <= tm map(my.COrpus, stemDocument} 

> my.corpus 

<<VCorpus>> G 
Metadata: corpus specific: 0, document level (indexed): © 


Content: documents: 9 
> 


Nous transformons le corpus en matrice de termes documentaires et observons ce qu'elle 
contient en termes de fréquence de termes à l'aide de TermDocumentMatrix( ) et inspect( ): 
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File Edit View Misc Packages Windows Help - 5x 


> #on inspecte un peu le corpus 

> my.tdm <- TermDocumentMatrix(my.corpus) 

> inspect (my.tdm) 

<<TermDocumentMatrix (terms: 8276, documents: 9)>> 
Non-/sparse entries: 11222/63262 


85% 
55 
term frequency (tf) 


Sparsity 

Maximal term length 
Weighting 

Sample 


Docs 
Terms Brownian Excursion.pdf Cosine Similarity.pdf Ergosphere.pdf Genetical Theory of Natural Selection.pdf 
differ [e) 20 1 415 
effect 3 306 
may 419 
mutat 362 
natur 310 
number 308 
one 276 
select 666 
valu 254 
will 604 


0000000000 
I0-1N00un 
nmHOMmOOOOUn 


12 

Docs 

Terms Homosexuality heritable component.pdf Magnetic Monopoles in unified gauge theories.pdf 
differ 15 
effect 
may 
mutat 
natur 
number 
one 
select 
valu 
will 


w 
HJ30MWMO000%0O00 


ee 
ü © &w © © N h @ 
H 


Docs 

Terms Newton Cooling Equation from Heat Equation.pdf 
differ 11 
effect 1 
may 
mutat 
natur 
number 
one 
select 
valu 28 
will 20 

Docs 

Terms Pressure Effect _on the Curie Temperatures of Transition Metals and Alloys.pdf 
differ 12 
effect 27 
may 2 
mutat 0 
natur 0 
number 4 
one 20 
select (e] 
valu 23 
will 6 


Ou en utilisant le TfIdf pondéré: 
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ile Edit View Misc Packages Windows Help 5 x 
ÉROISESIEIE 
La] 
> #autre vue possible du corpus 
> my.dtm <- DocumentTermMatrix(my.corpus, control = list(weighting = weightTfldf, stopwords = TRUE)) 
> inspect (my.dtm) 
<<DocumentTermMatrix (documents: 9, terms: 8271)>> 
Non-/sparse entries: 11214/63225 
Sparsity : 85% 
Maximal term length: 55 
Weighting : term frequency - inverse document frequency (normalized) (tf-idf) 
Sample : 
Terms 
Docs access annal 
Brownian Excursion.pdf 0.1320802084 0.2641604 
Cosine Similarity.pdf 0.0027035608 0.0000000 
Ergosphere.pdf 0.0000000000 0.0000000 
Genetical Theory of Natural Selection.pdf 0.0001170362 0.0000000 
Homosexuality heritable component .pdf 0.0000000000 0.0000000 
Magnetic Monopoles_ in unified gauge theories.pdf 0.0000000000 0.0000000 
Newton Cooling Equation from Heat Equation.pdf 0.0000000000 0.0000000 
Pressure Effect _ on the Curie Temperatures of Transition Metals and Alloys.pdf 0.0000000000 O.0000000 
Tolman Oppenheimer Volkov Stars.pdf 0.0000000000 0.0000000 
Terms 
Docs collabor digit 
Brownian Excursion.pdf 0.180827083 0.2641604 
Cosine Similarity.pdf 0.001850682 0.0000000 
Ergosphere.pdf 0.000000000 0.0000000 
Genetical Theory of Natural Selection.pdf 0.000000000 0.0000000 
Homosexuality _heritable component .pdf 0.000000000 0.0000000 
Magnetic Monopoles_ in unified gauge theories.pdf 0.000000000 0.0000000 
Newton Cooling Equation from Heat _ Equation.pdf 0.000000000 0.0000000 
Pressure Effect _on the Curie Temperatures of Transition Metals and Alloys.pdf 0.000000000 0.0000000 
Tolman Oppenheimer Volkov Stars.pdf 0.000000000 0.0000000 
Terms 
Docs institut jstor 
Brownian Excursion.pdf 0.0974937501 0.18082708 
Cosine Similarity.pdf 0.0004989019 0.00000000 
Ergosphere.pd£f 0.0000000000 0.00000000 
Genetical Theory of Natural Selection.pdf 0.0001943756 0.00000000 
Homosexuality _heritable component .pdf 0.0000000000 0.01192266 
Magnetic Monopoles_ in unified gauge theories.pdf 0.0019147709 0.00000000 
Newton Cooling Equation from Heat _ Equation.pdf 0.0000000000 0.00000000 
Pressure Effect _on the Curie Temperatures of Transition Metals and Alloys.pdf 0.0000000000 0.00000000 
Tolman Oppenheimer _Volkov Stars.pdf 0.0000000000 0.00000000 
Terms 
Docs preserv simx 
Brownian Excursion.pdf 0.1808270835 0.00000000 
Cosine Similarity.pdf 0.0000000000 0.08651394 
Ergosphere.pdf 0.0000000000 0.00000000 
Genetical Theory of Natural Selection.pdf 0.0003204615 0.00000000 
Homosexuality heritable component .pdf 0.0000000000 0.00000000 
Magnetic Monopoles_ in unified gauge theories.pdf 0.0000000000 0.00000000 
Newton Cooling Equation from Heat _ Equation.pdf 0.0000000000 0.00000000 
Pressure Effect on the Curie Temperatures of Transition Metals and Alloys -pdf 0.0000000000 G.00000000 
LA 


Nous pouvons lister les 100 termes les plus fréquents avec findFreqTerms( ): 
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° RGui (64-bit) - [R Cons 
GR File Edit View Misc Packages Windows Help -|wix 


> $on trouve les termes qui apparaissent au moins 100 fois 
> findFreqgTerms (my.tdm, 100) 


[1] "advantag" "age" "also" "among" "appear" "averag" "can" 

[8] "case" "caus" "certain" "chang" "charact" "civil" "class" 
[15] "condit" "consequ" "consid" "determin" "develop" "differ" "direct" 
[22] "domin" effect" "equal" "equat" "even" "evid'" "evolut" 
[29] "evolutionari”" "exist" "fact" "factor" "famili" "favour" "£ertil” 
[36] "fig" VELrSE" "form" "found" "frequenc" "gene" "general" 
[43] "generat" "genet" "give" "great" "group" "howev" "human" 
[50] "import" “"increas" "individu" "influenc" “inherit" "larg" "least" 
[57] "less" "man" "mani" "may" "mean" "measur" "might" 
[64] "much" "must" "mutant" "mutat" "natur" "now" "number" 
[71] "observ" "obtain" *occur” "one" “organ" "parent" "part" 
[78] "point" "popul" "possibl" "present" "pressur" "probabl" "produc" 
[85] "progress" "rate" "ratio" "reason" “relat” "repres" "reproduct" 
[921 "respect" "result" "seen" "select" vsex” "sexual" "show" 
[99] "similar" "sinc" "small" "social" "societi" "speci" "state" 

[106] "temperatur" "theori" "therefor" "thus" "time" "tion" "two" 
[113] "type" "upon" "use" "valu" "varianc" "variat" "ill" 


>| 


B 


Nous préparons maintenant spécifiquement les données pour l'analyse en composantes 
principales et pour le clustering hiérarchique: 
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R i (64-bit) - [R Console] — 
ŒR File Edit View Misc Packages Windows Help - # x 
> #on prépare tout ce qu'il faut pour l'ACP et le HClut des documents 
> 
> #on prépare la matrice des termes par documents 
> my.tdm.matrix <- t(as.matrix(my.tdm)) 
> dim(t(my.tdm.matrix)) 
| [11 8276 a 
|> #voyons ce qu'elle contient just pour les 5 premières colonnes 
|> my.tdm.matrix{,1:5] 
Terms 
Docs \017ep \0228r \023ni -ba -Ak 
Brownian Excursion.pdf [e] (e] (e] [e) [e) 
Cosine Similarity.pdf (e] Le] (e) [e] (e] 
Ergosphere.pdf [e) Le] [e] 1 [e] 
Genetical Theory of Natural Selection.pdf [e] (e] (e] [e] [e] 
Homosexuality heritable component.pdf (e] [e] [e) (e] Le] 
Magnetic Monopoles in unified gauge theories.pdf [e) Le] (e] [e) Le) 
Newton Cooling Equation from Heat _Equation.pdf (e] o (e) 0 L 
Pressure Effect _on the Curie Temperatures of Transition Metals and Alloys.pdf [e] Le) [e] [e) [e) 
Tolman Oppenheimer _Volkov Stars.pdf L L 2 [e) (e] 
> 
|> #on garde que les mots qui se répètent les plus souvent globalement 
|> frequency <- colSums(my.tdm.matrix) 
|> frequency <- sort(frequency, decreasing=TRUE) 
> #on choisit arbitrairement une limite de 100 
|> (mots<-frequency[frequency>100]) 
| select will differ may mutat effect one valu 
669 659 477 452 363 346 344 322 
| number natur speci must gene case can advantag 
| 317 314 307 306 303 297 296 295 
| increas reproduct social two factor individu Class fertil 
| 293 269 259 257 255 245 244 231 
| rate sexual chang organ theori upon condit less 
230 222 215 214 208 207 200 200 
| popul use generat import relat caus group equal 
| 198 192 188 183 183 173 171 170 
form direct fact possibl seem time civil averag 
170 169 169 165 165 165 163 158 
| even howev equat observ frequenc tion great appear 
| 158 157 156 156 155 155 153 152 
certain show domin genet societi variat human general 
| 151 151 149 148 147 147 145 143 
varianc produc exist also similar among determin famili 
139 138 137 135 4135 134 133 133 
| man measur sinc temperatur therefor develop inherit larg 
133 133 132 129 129 128 128 128 
mean consequ type sex evid point first much 
127 126 126 125 124 124 122 121 
pressur respect consid favour least obtain evolut occur 
| 121 121 115 114 114 114 113 113 
| probabl age present progress evolutionari fig mutant influenc 
112 110 110 110 109 109 108 107 
now Charact result mani parent small give might 
107 106 106 105 104 104 103 103 
found part ratio reason repres thus 
102 102 102 102 102 101 
> 
>| 


On prépare la matrice avec une structure particulière adaptée à l'ACP et au HClust à l'aide 
d'une boucle: 
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 RGui (64-bit) - [R Console] = {a X 
R File Edit View Misc Packages Windows Help 5 x 
> #on prend la première ligne de la matrice avec les seuls 100 premiers mots ci-dessus 
> #afin d'avoir quelque chose pour commencer la concaténation de la boucle ci-dessous 
> s<-my.tdm.matrix{l,which(colnames (my.tdm.matrix) $in$ names (mots))] 
> for(i in 2:nrow(my.tdm.matrix)) 
+ s<-chind(s,my.tdm.matrix{i,which(colnames (my.tdm.matrix) $in$ names (mots))]) 
> s 
s 
advantag 0 00293 1 O0 O© 1 0 
age 0 OO107 2 © O© 1 0 
also 0 152 94 S 2 6 10 1 
among 0 OO131 1 1 0 1 © 
appear O0 3 0 144 O0 O0 1 4 0 
averag 0 3 0 134 O0 O 20 1 0O© 
can 0 33 8 177 4 16 23 28 7 
case 0 32268 0 3 3 16 2 
caus 0 01172 O0 © O© 0 0© 
certain 0 2 0 145 1 2 0 1 © 
chang 0 1 0 200 O0 1 4 7 2 
charact 0 00106 O0 O0 0O 0 © 
civil 0 00163 O0 O0 0O 0 © 
class O0 10 240 O0 1 0O 0 2 
condit O0 10 152 19 10 15 se. 
consequ 0 OO125 O0 1 © 0 © 
consid 0 52 97 O0 4 4 0 3 
determin 0 00113 O0 O0 3 16 1 
develop 0 10122 3 O0 O© 2 0 
differ O 20 1 415 15 O0 11 12 3 
direct 0 11 7 139 O0 7 O© 4 1 
domin 0 OO149 O0 O0 0 0 © 
effect 0 35 306 3 O0 1 27 1 
equal 0 OO164 O 1 1 2 2 
equat 0 118 38 O0 8 45 2 44 
even 0 44138 0 3 2 7 © 
evid 0 00120 2 2 0 0 © 
evolut 0 OO113 O0 O 0O 0 © 
evolutionari O O O0 106 3 O O0 0 © 
exist 0 S 1 119 0 2 1 8 1 
fact 0 01160 O0 2 2 0 4 
factor 0 OO251 O0 O0 0O O0 4 
famili 0 10123 9 O0 0O 0 © 


C'est pas mal mais le titre des colonnes est catastrophique (inexistant), nous remédions à cela: 
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UR File Edit View Misc 


VVYVV NV 


advantag 
age 
also 
among 
appear 
averag 
can 
case 
caus 
certain 
Chang 
Charact 
civil 
class 
condit 
consequ 
consid 
determin 
develop 
differ 
direct 
domin 
effect 
equal 
equat 
even 
evid 
evolut 
evolutionari 
exist 
fact 
factor 
famili 
favour 
fertil 
fig 
first 
form 
found 
frequenc 
gene 
general 
generat 
genet 
give 
great 
group 
howev 
human 
import 


(e] 


0000000 000000000000000000000000000000000000000000 


Packages Windows Help 


ww 


k NN 


kHOWOOMkHOONOOMmHNHOOMOOMOOO0OBHOWOMOMmMOMOMmMHOOHN O W © Ww 


(e) 


O00O0MmOO0NO0O©0O©O0O0NO0O0NO0O0O0O0O0MmMmMmO0O006MOMOJMm O0O0ONO0O0O0O00O0O0O0HN © © © ON © 


293 
107 

94 
131 
144 
134 
127 
268 
172 
145 
200 
106 
163 
240 
152 
125 

97 
113 
122 
415 
139 
149 
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164 

38 
138 
120 
113 
106 
219 
160 
251 
123 
114 
230 

56 

92 
148 

88 
152 
295 
118 
186 
144 

73 
150 
157 
136 
140 
174 


1 


M 
WO00VbLOOCOOOMmOOHBOOMUWN 


Vel 
tn 


Um OOMBENOMmOMmNOMmOVLOOOWONOOO0WOO 


(e) 


+ 


H 
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#on donne des noms aux vecteurs ci-dessus autres que les noms de documents qui sont trop longs 
ftitles <- file.names 
titles <- c("Brownian","Cosine","Ergosphere","Genetical","Homosexuality","Magnetic","Newton","Pressure","Tolman") 
colnames(s) <- titles 
s 


Brownian Cosine Ergosphere Genetical Homosexuality Magnetic Newton Pressure Tolman 


Om WWbBMOOOB BH OOOOBNMm Om DOM WOMNOONOONJOCOMHOO 


1 


LE 


&#OmOOoNO©Oo 


Maintenant que notre jeu de données est prêt, nous allons pouvoir passer à l'ACP et au 


clustering hiérarchique. 
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ACP et Clustering Hiérarchique 
La suite va être rapide grâce au package FactoMinerR et sa fonction PCA ): 


C° RGui (64-bit) - [R Console] — 0 


R File Edit View Misc Packages Windows Help = 


> library("FactoMineR") 

> PCA(s) 

**Results for the Principal Component Analysis (PCA):* 

The analysis was performed on 118 individuals, described by 9 variables 
«The results are available in the following objects: 


name description 
1 "$eig” "eigenvalues" 
2 "Svar" "results for the variables" 
3 "S$varS$coord" "coord. for the variables" 
4 "$var$cor" "correlations variables - dimensions" 
5 "S$var$cos2" "cos2 for the variables" 
6 "$var$contrib" "contributions of the variables" 
7 "$Sind'" "results for the individuals" 
8 "Sind$coord" "coord. for the individuals" 
g "Sind$cos2" "cos2 for the individuals" 
10 "$ind$contrib" "contributions of the individuals" 
11 "S$call" "summary statistics" 
12 "$call$centre" "mean Of the variables" 
13 "$call$ecart.type" "standard error of the variables" 
14 "S$Scall$row.w" "weights for the individuals" 
"weights for the variables" 
r 


Ce qui donne sur les deux axes les plus explicatifs: 


R Statistical Software 2814/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


L (oc /|n (ei (Se 
PCA graph of individuals 
S | 
=. 
= | F : 
n select sexual ; as 
£ L] . : one 
5 3 : 
| +" fer 
can 
' use ° 
| L] 
à Sen CSS ER PRE SES 
‘equat 
3 
. 
| ic femperatur 
6 
0 4 8 
Dim 1 (28.50%) 


Et nous avons pour les vecteurs propres: 
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PCA graph of variables 


pe 
o 
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D 
£ 
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Et comme nous le savons, plusieurs méthodes ne donnent pas toujours les mêmes résultats, 
faisons une analyse par clustering hiérarchique. Ce qui va nous donner avec la fonction 
hclust( ) native de R: 
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R R Console 
> #on fait un clustering des documents 
> h <- hclust(dist(t(s)), method = "ward.D") 


> ploti(h, labels = titles, sub = "") 
> 


Cluster Dendrogram 


ru 
Le] 
£ 
ro) 
= 
D 
(@) 


Pressure 
Magnetic 
Brownian 


Homosexuality 
Ergosphere 


dist(t(s)) 


Voici le code complet de tout ce que nous avons vu ci-dessus: 


library ("tm") 
rm(list = 1ls()) 


#on lit le dossier avec les PDFSs 

directory <- "c:/tmp/pafs" 

my.corpus <- VCorpus (DirSource(directory, pattern = ".pdf") 
readerControl = list (reader 


LA 


readPDF)) 
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#on stock à part les noms des 
(file.names <- meta (my.corpus 


my.corpus 
#on nettoie le corpus 

my.corpus <- tm map (my.corpus 
my.corpus <-— tm map (my.corpus 
my.corpus <-tm map(my.corpus, 
my.corpus <-tm map(my.corpus, 
my.corpus <-tm map(my.corpus, 


fichiers pour les graphiques plus tard 
stag="'id"')) 


removePunctuation) 

content transformer (tolower)) 
removePunctuation) 
removeNumbers) 
stripWhitespace) 


LA 


LA 


my.corpus <- tm map(my.corpus, removeWords, stopwords ("english")) 
#stopwords() permet de voir tous les mots enlevés pour les curieux 


#on enlève nos propres mots 
my.stops <- c("history","clio", "programming", "the","for") 
my.corpus <- tm map(my.corpus, removeWords, my.stops) 


#ou on enlève des mots en utilisant un fichier externe avec les mots 
séparés par des espaces 

my.list <- unlist(read.table("c:/tmp/mots a eliminer.txt", 
stringsAsFactors-False)) 
my.stops <- c(my.list) 
my.corpus <- tm map(my.corpus, removeWords, my.stops) 
#on change toutes les varia 
library ("SnowballC") 
my.corpus <- tm map(my.corp 


my.corpus 


ntes de mots dans le même mot racine 
N 


Ÿ 


2 
us, stemDocument) 


#on inspecte un peu le corpus 
my.tdm <- TermDocumentMatrix(my.corpus) 
inspect (my.tdm) 


#autre vue possible du corpus 

my.dtm <- DocumentTermMatrix(my.corpus, 
weightTfIdf, stopwords = TRUE)) 

inspect (my.dtm) 


control list (weighting 


#on trouve les termes qui apparaissent au moins 100 fois 


findFreqTerms (my.tdm, 100) 


#on prépare tout ce qu'il faut pour l'ACP et le HClut des documents 


#on prépare la matrice des termes par documents 

my.tdm.matrix <- t(as.matrix(my.tdm)) 

dim(t(my.tdm.matrix)) 

#voyons ce qu'elle contient just pour les 5 premières colonnes 
my.tdm.matrix[,1:5] 


#on garde que les mots qui se répètent les plus souvent globalement 
frequency <- colSums(my.tdm.matrix) 

frequency <- sort (frequency, decreasing=TRU 
#on choisit arbitrairement une limite de 100 


1 


) 
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(mots<-frequency[frequency>100]) 


#on prend la première ligne de la matrice avec les seuls 100 

premiers mots ci-dessus 

#afin d'avoir quelque chose pour commencer la concaténation de la 

boucle ci-dessous 

s<-my.tdm.matrix{1l,which(colnames(my.tdm.matrix) %in% names (mots))] 

for(i in 2:nrow(my.tdm.matrix)) 
s<-chind(s,my.tdm.matrix[i,which(colnames(my.tdm.matrix) $in% 

names (mots))]) 

S 

#on donne des noms aux vecteurs ci-dessus autres que les noms de 

documents qui sont trop longs 

#titles <- file.names 


c("Brownian","Cosine","Ergosphere","Genetical","Homosexuality","Magn 
etic","Newton",'""Pressure","Tolman) 
colnames(s) <- titles 


library("FactoMineR") 
PCA (s) 


#on fait un clustering des documents 
h <- hclust(dist(t(s)), method = "ward.D'") 
plot(h, labels = titles, sub = "") 
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Exemple 442.: Clustering de corpus de textes 
R 4.1 


Nous allons regrouper un ensemble de données de tweets du News Health. L'objectif n'est pas 
d'exécuter une technique de pointe pour regrouper des ensembles de données de texte court. 
Nous allons faire des raccourcis de programmation et d'exécution pour ne pas compliquer ce 
tutoriel. 


Quels que soient les résultats, ce tutoriel vous donnera une bonne idée de la façon de faire de 
la science des données de base en R et, espérons-le, vous donnera l'envie d'aller plus loin ! 


L'exemple qui suit est totalement inspiré du tutorial disponible ici (Tanguy Lucci, 2018): 


https://medium.com/@SAPCAT/text-clustering-with-r-an-introduction-for-data-scientists- 
c406e7454e76 


Et merci à Shivam P. pour avoir comblé les trous manquants du tutorial! 


Exploration des données 


Nous allons charger le zip directement à partir de la source, décompresser, créer notre bloc de 
données et supprimer les fichiers temporaires. 


Le fichier zip contient: 


Downloads > Health-News-Tweets.zip 


BB ame 


M _MACOSX 
M Health-Tweets 


Plus exactement: 
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Health-Newr eets.zip Health-Tweets 


Z 
1 
De | 
2 
m 


Ll Date modified Type 


bbchealth.txt 5-04-09 02:39 Text Document 
chchealth.txt -04-09 Text Document 
cnnhealth.txt 5-04-09 1 Text Document 
everydayhealth.txt 2015-04-09 17:58 Text Document 
foxnewshealth.txt 35-04-09 02:44 Text Document 


gdnhealthcare.txt -04-09 02:47 Text Document 


goodhealth.txt 5-04-09 17:54 Text Document 


KaiserHealthNews.txt 5-04-09 17:2 Text Document 
latimeshealth.txt 5-04-09 D Text Document 
msnhealthnews.txt 3 Text Document 
NBChealth.txt 2 0 17:37 Text Document 
nprhealth.txt 201 18: Text Document 
nytimeshealth.txt 2015-04-09 1 Text Document 
reuters_health.txt 2015-04-09 É Text Document 
usnewshealth.txt -04-09 1 Text Document 


wsjhealth.txt 


-09 Text Document 


Qui contiennent typiquement: 


bbchealth.txt - Notepad 


File Edit Format View Help 


585978391360221184|Thu Apr 09 01:31:50 +0008 2815|Breast cancer risk test devised http://bbc.in/1CimpJF A 
585947808772960257|Wed Apr 068 23:30:18 +0000 2015|GP workload harming care - BMA poll http://bbc.in/1ChTBRv 
585947807816650752|Wed Apr 68 23:30:18 +000 2015|Short people's ‘heart risk greater’ http://bbc.in/1ChTANp 
|585866060991078401|Wed Apr 08 18:05:28 +0000 2015|New approach against HIV ‘promising' http://bbc.in/1E6jAjt 
585794106170839841|Wed Apr @8 13:19:33 +9008 2015|Coalition ‘undermined NHS' - doctors http://bbc.in/1Cnlwk7 
1585733482413891584|Wed Apr 08 09:18:39 +0000 2015|Review of case against NHS manager http://bbc.in/1Ffj6ci 
585733481608646657|Wed Apr @8 09:18:39 +0000 2015|VIDEO: ‘All day is empty, what am I going to do?" http://bbc.in/I1N7wSsSz 
1585701601131765761|Wed Apr 08 07:11:58 +0000 2015|VIDEO: ‘Overhaul needed' for end-of-life care http://bbc.in/1CmrRu3 
585620828110397440|Wed Apr 08 61:51:00 +0008 2015|Care for dying ‘needs overhaul' http://bbc.in/1FdSGrl 
1585437294120677376|Tue Apr @7 13:41:42 +0006 2015|VIDEO: NHS: Labour and Tory key policies http://bbc.in/1Ci5eqD 
1585437293399252992|Tue Apr @7 13:41:42 +0000 2815|Have GP services got worse? http://bbc.in/1Ci5c22 
585376127931129857|Tue Apr 07 09:38:39 +0000 2015|A&amp;E waiting hits new worst level http://bbc.in/1Fa4Xgz 
585283574888206336|Tue Apr 07 03:30:52 +008 2015|Parties row over GP opening hours http://bbc.in/1CfcVOb 
585231549819330560|Tue Apr @7 00:84:09 +0088 2015|Why strenuous runs may not be so bad after all http://bbc.in/1Ceq@Y7 
|584985578074050560|Mon Apr 06 07:46:44 +0000 2015|VIDEO: Health surcharge for non-EU patients http://bbc.in/1C5MIbk 
1584985576962592768|Mon Apr @6 07:46:44 +0000 2815|VIDEO: Skin cancer spike ‘from 68s holidays" http://bbc.in/1C9Gy30 
|584981557218480129 | Mon Apr @6 82:12:52 +0000 2015|80,008 ‘might die' in future outbreak http://bbc.in/1F3nif2 
|584893680747585537|Mon Apr @6 @1:41:34 +0000 2815|Skin cancer ‘linked to holiday boom’ http://bbc.in/1Pb4Xjb 
584140478720811008|Fri Apr @3 23:48:37 +0000 2015|Public ‘back tax rises to fund NHS' http://bbc.in/1ETauYE 
584140477718339584|Fri Apr @3 23:48:37 +0000 2015|VIDEO: Welcome to the designer asylum http://bbc.in/1CD3Dip 
583959459589824513|Fri Apr @3 11:49:19 +000 2015|VIDEO: Why are we having less sex? http://bbc.in/19RKqiY 
|583837541373059073|Fri Apr 03 03:44:51 +0000 2015|Five ideas to transform the NHS http://bbc.in/1BTQU7k 
1583784740064337920|Fri Apr 03 00:15:02 +000 2915|Personal cancer vaccines ‘exciting' http://bbc.in/1ENwsMD 
583770728090112000| Thu Apr @2 23:19:22 +0008 2815|Child heart surgery deaths ‘halved' http://bbc.in/1BT4s2U 
583745704021008384|Thu Apr @2 21:39:55 +0000 2815|VIDEO: Miliband: Cameron ‘failed’ the NHS http://bbc.in/1BSKo@T 
|583659491310219264 Thu Apr 02 15:57:21 +0008 2015|Unsafe food ‘growing global threat' http://bbc.in/1BREQDJI 
1583616089340280832|Thu Apr @2 13:04:53 +0000 2015|Health highlights http://bbc.in/1EK1FCK 

583550348352212992|Thu Apr @2 08:43:39 +008 2015|Ambulance progress ‘not fast enough" http://bbc.in/1P1AJyX 
[583406140337164288|Wed Apr @1 23:10:37 +0000 2015|Children’s hospital builds sleep app http://bbc.in/1B09j1Z 
583406139561250816|Wed Apr 01 23:10:37 +00006 2015|Drug giant ‘blocks' eye treatment http://bbc.in/1P@rpv2 
583398284166733824|Wed Apr @1 22:39:24 +0008 2015|Blood test for Down's syndrome hailed http://bbc.in/1B03eWQ 
583398283441119232|Wed Apr @1 22:39:24 +0000 2815|VIDEO: ‘We must plan for future of NHS' http://bbc.in/1BRNoeJ 
583054276848582656|Tue Mar 31 23:52:26 +0008 2015|Paracetamol ‘no good for back pain' http://bbc.in/1MvP@00 
583054275237978113|Tue Mar 31 23:52:26 +000 2015|Care system ‘gets biggest shake-up' http://bbc.in/19Ad4vy 
583054274554245120|Tue Mar 31 23:52:26 +0000 2015|VIDEO: Could existing drugs offer MS hope? http://bbc.in/1OWZzSPT 
582968831796207616|Tue Mar 31 18:12:55 +0000 2015|MS drug ‘may already be out there’ http://bbc.in/1BIUAZx 
1582824135799140352|Tue Mar 31 08:37:56 +0000 2015|VIDEO: Nursing code of conduct launched http://bbc.in/1BLrny7 
582807922549256193|Tue Mar 31 07:33:31 +0000 2015/VIDEO: Disability village ‘under threat' http://bbc.in/1BL1j8L 
582729504533049344|Tue Mar 31 @2:21:55 +006 2015|Uganda circumcision truck fights HIV http://bbc.in/1BKT2iJ 
582687699485622272|Mon Mar 30 23:35:48 +0008 2015|More veterans seek mental health aid http://bbc.in/1DhbCnf 
582687698772623361|Mon Mar 30 23:35:47 +0000 2015|E-cigarette use ‘high among teens' http://bbc.in/1DhbCn6 
1582554028736843777|Mon Mar 30 14:44:38 +0000 2015|Medieval eye remedy ‘kills MRSA' http://bbc.in/1ysI93N 
582323221908709378|Sun Mar 29 23:27:29 +000 2015|Parents rarely spot child obesity http://bbc.in/1G@6J4Ag 
582167316806287360|Sun Mar 29 13:07:59 +008 2015|VIDEO: Vaccine to protect from meningitis B http://bbc.in/1MjhH8r 
581988293006344194|Sun Mar 29 01:16:36 +006 2615|Chikungunya revives herbal remedies in Antigua http://bbc.in/1BGLzBf 
581988292343635968| Sun Mar 29 01:16:36 +0008 2015|The Bolivian women who knit parts for hearts http://bbc.in/1BGLzBc 
|1581988291639021568|Sun Mar 29 01:16:36 +0000 2815|Meningitis B vaccine deal agreed http://bbc.in/1BGLzB7 
581977670692388864|Sun Mar 29 00:34:23 +0008 2015|VIDEO: Life-saving knitters http://bbc.in/1EimW31I 


Corn712€2017nA7104 Cm Mn 0 ARaNN: IA ANA AMIE lFuinns dnrlannr Ehals 'amonmanmeer bétons //bhe 30 /10%-f10 


En 1, Col1 20% Windows (CRLF) UTF-8 
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File Edit Format View 


548579045269852161 [Fri 
548444679529041920 | Fri 
548311901227474944|Fri 
548305625449787392|Fri 
548283182853160960 |Fri 
548278414504108033 | Fri 
548176399299649536 | Thu 
http://bit.ly/1zicflj 

547949409288609792 | Thu 
547904193961656321 [Wed 
547904193001185280 |Wed 
547872136304394242 |Wed 
547870756592300034|Wed 
547870381160140800 | ed 
547802935141232642 Wed 
http://nyti.ms/1B5P09Q 
547765704829964289 | Wed 


547624914531127296 |Wed 
547599936452583427 | Wed 
547599935517241344|Wed 
547595227197087745 | Wed 
547595226215632896 |Wed 
547576403836035072 |wed 
547562964153536512 |Wed 
547561821373075456 |Wwed 
547559173974921218 | Wed 
547515883518980096 | Tue 
547501217086062592 | Tue 
547500871689711616 | Tue 
547460287289634822 | Tue 
547459549360574466 | Tue 
547440575545614336 | Tue 
547410904414167040 | Tue 
547232205605707776 | Tue 
547227742849470464 | Tue 
547227741960278016 | Tue 
547223894130978817 | Tue 
547184000411127808 | Tue 
547179177829756929 |Mon 
547144384672976896 | Mon 
547140214125506560 | Mon 
547130056959860736 | Mon 
547129518683475968 | Mon 


Help 


Dec 
Dec 
Dec 
Dec 
Dec 
Dec 
Dec 


Dec 
Dec 
Dec 
Dec 
Dec 
Dec 
Dec 


Dec 


Dec 
Dec 
Dec 
Dec 
Dec 
Dec 
Dec 
Dec 
Dec 
Dec 
Dec 
Dec 
Dec 
Dec 
Dec 
Dec 
Dec 
Dec 
Dec 
Dec 
Dec 
Dec 
Dec 
Dec 
Dec 
Dec 


24 


24 
24 
24 
24 


20:40:11 
11:46:15 
02:58:39 
02:33:42 
01:84:32 
00:45:35 
18:00:12 


02:58:14 
23:58:34 
23:58:33 
21:51:18 
21:45:41 
21:44:12 
17:16:12 


14:48:15 


05:28:48 
03:49:33 
03:49:33 
03:30:50 
03:30:50 
02:16:02 
01:22:38 
01:18:06 
01:07:34 
22:15:33 
21:17:16 
21:15:54 
18:34:38 
18:31:42 
17:16:18 
15:18:24 
63:28:19 
63:18:35 
03:10:35 
02:55:17 
00:16:46 
23:57:36 
21:39:21 
21:22:47 
20:42:25 
20:40:17 


548662191348421120|Sat Dec 27 02:10:34 +0000 2014|Risks in Using Social Media to Spot Signs of Mental Distress http://nyti.ms/1rqi911 CS 
548579831169163265|Fri Dec 26 20:43:18 +000@ 2014|RT (ipaula_span: The most effective nationwide diabetes prevention program you've probably never heard of: 
http://newoldage.blogs.nytimes.com/2014/12/26/diabetes-prevention-that-works/ 


http://wmw.nytimes.com/2014/12/24/science/mysterious-virus-that-killed-a-farmer-in-kansas-is-identified.html?smid=nytcore-iphone-share&smprod=nytcore-iphone 


+0008 
+000 
+0000 


2814|The New Old Age Blog: Diabetes Prevention That Works http://nyti.ms/1xm7fTi 

20614|Well: Comfort Casseroles for Winter Dinners http://nyti.ms/1xTNo08 

2814|High-Level Knowledge Before Veterans Affairs Scandal http://nyti.ms/13yCpvS 

2014|Your Money: Affordable Care Act’s Tax Effects Now Loom for Filers http://nyti.ms/13yAtUf 

20614|Well: Christmas in the Hospital http://nyti.ms/1vtPNcm 

2014|The Texas Tribune: For Members of Health Ministries in Texas, Caring Means Sharing the Bills http://nyti.ms/lwLtAen 
20614|A q&amp;a with Laura Hillenbrand, author of "Unbroken," who suffers from chronic fatigue syndrome. 


2014|Race to Deliver Nicotine’s Punch, With Less Risk http://nyti.ms/1xNzyg4 

20614|The New Health Care: People Are Shopping for Health Insurance, Surprisingly http://nyti.ms/1vpligE 
2614|Machine Learning: Bedtime Technology for a Better Night’s Sleep http://nyti.ms/16RCgpE 

20614|Breaking: Lab Error May Have Exposed U.S. Technician to Ebola Virus http://nyti.ms/1ziIVf6 

2014|C.D.C. Ebola Error in Lab May Have Exposed Technician to Virus http://nyti.ms/1CDkLqc 

2014|RT @nytimes: Breaking News: Lab Error May Have Exposed U.S. Technician to Ebola Virus http://nyti.ms/1B2ThGD 
2014|A qéamp;a with Laura Hillenbrand, author of "Unbroken," who suffers from chronic fatigue syndrome. 


2614/RT @icsinyt: Virus That Killed a Kansas Farmer is identified @CDCgov fnytDeniseGrady 


2014|Well: Exercise to Lose Weight? Stay Warm http://nyti.ms/1Hz7Pj2 

2014|Business Briefing: Diabetes Drug Gains Approval for Treatment of Obesity http://nyti.ms/1ta9nPw 

2614|So Far, 6.4 Million Obtain Health Care Coverage for 2015 in Federal Marketplace http://nyti.ms/lvaJlad 

2014|DealBook: Inquiry Into Foreign Bribes at Biomet Hangs Over $13 Billion Merger http://nyti.ms/1vaHQYn 

2014|Firing of V.A. Clinic Chief Is Upheld Over Gifts, Not Wait Lists http://nyti.ms/1ta9nPu 

20614|World Briefing: Ireland: Doctors Seek to Remove Pregnant Woman From Life Support http://nyti.ms/13uMfPo 

2014|Plastic Surgery Tourism Brings Chinese to South Korea http://nyti.ms/1wDB6Yq 

2814|Looking for a better night's sleep? Put down that e-book and read a paperback instead. http://nyti.ms/1whtwhd 

2814|Mysterious Virus That Killed a Farmer in Kansas Is Identified http://nyti.ms/1AZ@qaL 

2014|Well: Pain Relievers Tied to Reduced Skin Cancer Risk http://nyti.ms/13ukGpr 

20614|The best gift? The humble gift card. http://nyti.ms/1A1pDmz 

2614|what do most people say they want for a gift? http://pbs.twimg.com/media/B5kdIQXCQAAtcgA. jpg 

2014|F.D.A. Lifting Ban on Gay Ellood Donors http://nyti.ms/16NAVjH 

2014/F.D.A. to Lift Lifetime Ban on Blood Donation by Gay Men http://nyti.ms/1A12TTG 

2014|We11: Think You Found the Perfect Gift? Think Again http://nyti.ms/13B6Amt 

2014|RT @nytDeniseGrady: C.D.C. Head Says Fight on Ebola Will Be Long http://nyti.ms/1vhYN4g 

2614|Gunman May Have Used Garner and Brown Cases to Justify Police Killings, Experts Say http://nyti.ms/1ATCmOm 

2614|U.S. Court Strikes Down North Carolina Ultrasound Abortion Law http://nyti.ms/1xcoPMu 

2014|Group Sues Aetna, Claiming Discrimination Against H.I.V. Patients http://nyti.ms/1ATxh0j 

2614|Obama Administration to Investigate Insurers for Bias Against Costly Conditions http://nyti.ms/1xcnYeX 

2014|C.D.C. Head Says Fight on Ebola Will Be Long http://nyti.ms/1CxIFR9 

20614|0p-Ed Contributors: Sugar Season. It’s Everywhere, and Addictive http://nyti.ms/16KEwPg 

2014|Letters: Flavors From the Past http://nyti.ms/1HruX2S 

2014|Global Health: For Heroïn Users, Less May Be Worse for H.I.V. http://nyti.ms/1AA1JB2 

2014|Q8amp;A: The Danger of Going Off Course http://nyti.ms/13Wclvs 

2014|Video: Is farmed fish better than no fish at all? #askwell http://nyti.ms/lweXRwR Ÿ 
Ln 30, Col 78 20% Windows (CRLF) UTF-8 


Ensuite, nous initialisons la structure du dataframe dans la mémoire qui accueillera les 


données: 


Œ RGui (64-bit) - [R Co 


R File Edit View Misc Packages Windows Help 


> #on crée d'abord le modèle de data frame 
> dataframe <- data.frame(ID=character(), 


+ datetime=character(), 
+ content=character(), 
+ label=factor()) 

> dataframe 

[1] ID datetime content label 

. rows> (or 0-length row.names) 

> 


Nous dézippons le fichier: 
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C RGui (64-bit) - 


AR File Edit View Misc Packages Windows Help || x 


> #on charge et décompresse le fichier Zip 
> target.directory <- "c:/tmp/clustering-r" 
> unzip("c:/tmp/Health-News-Tweets.zip", exdir = target.directory) 


>| 
R 


Nous bouclons sur chacun des fichiers: 


C RGui (64-bit) - 


UR File Edit View Misc Packages Windows Help - sx 


ÉOS ASIE) 


> #on lit les fichiers 
> target.directory <- paste(target.directory, "Health-Tweets', sep = '/') 
> files <- list.files(path = target.directory, pattern='.txt$') 
> #on remplit le dataframe avec le contenu des fichiers textes 
> for (£ in files) { 
+ news.filename = paste(target.directory , f, sep ='/!) 
+ news.label <- substr(f, 0, nchar(f) - 4) #on supprime le ".txt" 
+ news.data <- read.csv(news.filename, 
+ encoding = "UTF-8", 
+ header = FALSE, 
+ quote = *", 
& sep = "|", 
+ col.names = c("ID", "datetime", "content")) 
+ #on élimine les lignes vides 
+ news.data <- news.data[news.data$content != "", ] N 
+ news.data['label'] = news.label # on ajoute le label à chaque tweet 
+ dataframe <- rbind(dataframe, news.data) #on concaténe les lignes 
+} 
> 
> head(dataframe) 
ID datetime content 
1 585978391360221184 Thu Apr 09 01:31:50 +0000 2015 Breast cancer risk test devised http://bbc.in/lCimpJF 
2 585947808772960256 Wed Apr 08 23:30:18 +0000 2015 GP workload harming care - BMA poll http://bbc.in/1ChTBRv 
3 585947807816650752 Wed Apr 08 23:30:18 +0000 2015 Short people's ‘heart risk greater' http://bbc.in/1ChTANp 
4 585866060991078400 Wed Apr 08 18:05:28 +0000 2015 New approach against HIV "promising' http://bbc.in/1E6jAjt 
5 585794106170839040 Wed Apr 08 13:19:33 +0000 2015 Coalition 'undermined NHS' - doctors http://bbc.in/1lCnLwK7 
6 585733482413891584 Wed Apr 08 09:18:39 +0000 2015 Review of case against NHS manager http://bbc.in/l1Ffj6ci 
label 
1 bbchealth 
2 bbchealth 
3 bbchealth 
4 bbchealth 
5 bbchealth 
6 bbchealth 
> nrow(dataframe) 
[1] 126652 
>| 


Et donc une fois tous les textes mis dans la mémoire via le dataframe nous pouvons supprimer 
les fichiers extraits: 
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C RGui (64-bit) - [R Console] 


R File Edit View Misc Packages Windows Help 


1] 


> #on supprime le dossiers avec les *.txt décompressés 
> unlink(target.directory, recursive = TRUE) | 


Vient maintenant le temps de nettoyer nos phrases. Après un rapide temps d'observation, nous 


pouvons remarquer que nos tweets sont tous terminés par une URL raccourcie renvoyant vers 
l'article d'actualité. 


Ce type d'informations est en fait une poubelle d'un point de vue NLP, malgré le fait qu'il 


pourrait rendre les classes facilement distinguables si un raccourcisseur spécifique est utilisé 
par l'un des comptes Twitter. 


Pour se débarrasser de ces URL, utilisons des substitutions de regex : 


 RGui (64-bit) - [R Console] 


R File Edit View Misc Packages Windows Help 


> library("stringr") 


> sentences<-str replace all(dataframe$content,"https?://["\\s]+", "") 
> head(sentences) 

[1] "Breast cancer risk test devised " 

[3] "Short people's 'heart risk greater! " 
Ÿ "Coalition ‘undermined NHS' 
> 


"GP workload harming care - BMA poll " 
"New approach against HIV 'promising' " 
— doctors " "Review of case against NHS manager " 


Pour la partie restante des tâches de prétraitement régulières, nous utiliserons encore un 
package dédié. La manipulation de texte est coûteuse en termes de codage ou d'exécution ou 


les deux. Lorsque les données sont autres que des entités numériques, R peut devenir pénible 
pour les débutants. 


Préparation du corpus 


Le package qui nous sauvera la vie est tm (pour text mining). À partir de nos phrases 
résultantes, nous allons créer un objet Corpus, nous permettant d'appeler des méthodes sur 


celui-ci pour effectuer le nettoyage des mots vides, le stemming, le découpage des espaces 
blancs, 
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Œ RGui (64-bit) - [R Console] 


R File Edit View Misc Packages Windows Help 5x 


> library("tm") 

> corpus <- tm::Corpus (tm::VectorSource (sentences)) 

> corpus 

<<SimpleCorpus>> 

Metadata: corpus specific: 1, document level (indexed): © 

Content: documents: 63326 

> #nettoyages classiques 

> #suppression des stop-words anglophones 

> corpus.cleaned <- tm::tm map(corpus, tm::removeWords, tm::stopwords('english')) 

Warning message: 

In tm map.SimpleCorpus (corpus, tm::removeWords, tm::stopwords("english")) 
transformation drops documents 

> #stemming des mots 

> corpus.cleaned <- tm::tm map(corpus, tm::stemDocument, language = "english") 

Warning message: 

In tm map.SimpleCorpus (corpus, tm::stemDocument, language = "english") 
transformation drops documents 

> #suppression des espaces inutiles 

> corpus.cleaned <- tm::tm map(corpus.cleaned, tm::stripWhitespace) 

Warning message: 

In tm map.SimpleCorpus (corpus.cleaned, tm::stripWhitespace) : W 
transformation drops documents 

> corpus.cleaned 

<<SimpleCorpus>> 

Metadata: corpus specific: 1, document level (indexed): 0 

SE documents: 63326 

> 


D 


Maintenant que nous avons tout un ensemble & phrases nettoyées, nous devons les 
représenter numériquement. Le moyen le plus efficace parmi les plus faciles est le TF-IDF (de 
l'anglais term frequency-inverse document frequency) pondéré“f. Ainsi, chaque phrase est un 
vecteur dont la longueur est la taille du vocabulaire restant ; et ses composantes sont 
valorisées en fonction de la fréquence du mot dans la phrase et de sa signification dans le 
COrpus: 


#6 Rappelons que c'est une mesure totalement empirique (parmi d'autres) et très discutable. 
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C RGui (64-bit) - [R Console] 


R File Edit View Misc Packages Windows Help |5|x 


> tdm <- tm::DocumentTermMatrix(corpus.cleaned) 

> tdm 

<<DocumentTermMatrix (documents: 63326, terms: 53259)>> 
Non-/sparse entries: 593384/3372086050 


Sparsity : 100% 
Maximal term length: 39 
Weighting : term frequency (tf) 


> tdtdm.tfidf <- tm::weightT£fIdf (tdm) 

Warning message: 

In tm::weightTfIidf ((tdm) : empty document(s): 19582 

> tdtdm.tfidf 

<<DocumentTermMatrix (documents: 63326, terms: 53259)>> 
Non-/sparse entries: 593384/3372086050 


Sparsity : 100% 

Maximal term length: 39 

Weighting : term frequency - inverse document frequency (normalized) (tf-idf) 
>| 


Nous pouvons explorer un peu le corpus pour le fun: 


HR RGui (64-bit) - [R Console CL] 
| ŒR File Edit View Misc Packages Windows Help = x) 


| 
| 
> tdm2 <- as.matrix(tdm) | 
> frequency <- colSums (tdm2) | 
|> #voir les mots avec leurs fréquences 

> head(frequency,20) 


breast cancer devis risk test bma care harm poll workload greater 
125 523 3 407 324 2 418 45 14 2 22 | 
heart peopl short against approach hiv new promis coalit | 
277 334 24 133 35 88 1064 72 3 
|> #nous trions les mots dans l'ordre décroissant des fréquences 
|> frequency <- sort (frequency, decreasing=TRUE) 
|> #affichons les 20 premiers mots 
> head(frequency,20) | 
the for and ebola you your with health are new how may more from 
4933 3116 2018 1920 1917 1757 1606 1301 1109 1064 949 891 887 872 
can say that what get have | 
| 871 865 835 817 808 789 


|> #on garde que les mots avec plus de 1000 occurrences 
> mots<-frequency[frequency>700 ] | 
> #on les affiche 


|> mots 

| the for and ebola you your with health are new how may more from 
4933 3116 2018 1920 1917 1757 1606 1301 1109 1064 949 891 887 872 
can say that what get have this about 
871 865 835 817 808 789 724 705 


>| | 


Maintenant que nos phrases sont représentées numériquement, nous sommes capables de 
calculer une distance entre elles. Dans notre situation, nous devons appliquer une coupe 
supplémentaire dans les fonctionnalités à des fins de calcul : la parcimonie n'étant pas bien 
gérée globalement dans R, nous devons supprimer les colonnes qui sont clairsemées parmi les 
documents. De cette façon, nous réduisons le nombre de fonctionnalités, puis la taille de la 
matrice de données. 
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C RGui (64-bit) - [ 


File Edit View Misc Packages Windows Help -|#|x 


[e] 


> tdm.tfidf <- tm::removeSparseTerms(tdtdm.tfidf, sparse=0.998) 
> tdm.tfidf 

<<DocumentTermMatrix (documents: 63326, terms: 1315)>> 
Non-/sparse entries: 396579/82877111 


Sparsity : 100% 
Maximal term length: 24 
Weighting : term frequency - inverse document frequency (normalized) (tf-idf) 


> tfidf.matrix <- as.matrix(tdm.tfidf) 
> #voyons les 10 premières lignes et colonnes 
> tfidf.matrix{0:10,0:10] 


Terms 
Docs breast cancer risk test care harm poll greater heart peopl 
1 1.380132 1.031219 1.083436 1.214799 0.0000000 0.000000 0.000000 0.000000 0.000000 0.000000 
2 0.000000 0.000000 0.000000 0.000000 1.0978062 1.716838 1.981223 0.000000 0.000000 0.000000 
3 0.000000 0.000000 1.083436 0.000000 0.0000000 0.000000 0.000000 1.911639 1.177963 1.177423 
4 0.000000 0.000000 0.000000 0.000000 0.0000000 0.000000 0.000000 0.000000 0.000000 0.000000 
5 0.000000 0.000000 0.000000 0.000000 0.0000000 0.000000 0.000000 0.000000 0.000000 0.000000 
6 0.000000 0.000000 0.000000 0.000000 0.0000000 0.000000 0.000000 0.000000 0.000000 0.000000 
7 0.000000 0.000000 0.000000 0.000000 0.0000000 0.000000 0.000000 0.000000 0.000000 0.000000 
8 0.000000 0.000000 0.000000 0.000000 0.9148385 0.000000 0.000000 0.000000 0.000000 0.000000 
9 0.000000 0.000000 0.000000 0.000000 1.0978062 0.000000 0.000000 0.000000 0.000000 0.000000 
10 0.000000 0.000000 0.000000 0.000000 0.0000000 0.000000 0.000000 0.000000 0.000000 0.000000 


> #calcul de la distance cosine 
> library("proxy") 
> dist.matrix <- proxy::dist(tfidf.matrix, method = "cosine") F 
Error in do.call{(".Call", c(list (method), list(x), list(y), pairwise, . 
negative length vectors are not allowed 
> dist.matrix(0:10,0:10] 
“Ein object 'dist.matrix' not found 
> 


Le message d'erreur ci-dessus signale que nous naurions pas assez de mémoire sur 
l'ordinateur sur lequel le script est exécuté (et pôurtant nous avons 64GB de RAM... mais 
pour 40% du jeu de données il faut 21GB de RAM pour info...). Donc reprenons notre script 
depuis le tout début et limitons un peu le nombre de tweets en rajoutant la ligne ci-dessous 
mise en évidence dans la boucle du début: 
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C RGui (64-bit) - [R Console] 


R File Edit View Misc Packages Windows Help - x 


| 


#on crée d'abord le modèle de data frame 

dataframe <- data.frame(ID=character(), 
datetime=character(), 
content=character(), 
label=factor()) 


#on charge et décompresse le fichier Zip 
target.directory <- "c:/tmp/clustering-r" 
unzip("c:/tmp/Health-News-Tweets.zip", exdir = target.directory) 


#on lit les fichiers 
target.directory <- paste(target.directory, '"Health-Tweets', sep = '/') 
files <- list.files(path = target.directory, pattern='.txt$') 
fon remplit le dataframe avec le contenu des fichiers textes 
for (£ in files) { 
news.filename = paste(target.directory , f, sep ='/") 
news.label <- substr(f, O0, nchar(f) - 4) #on supprime le ".txt" 
news.data <- read.csv(news.filename, 
encoding = "UTF-8", 
header = FALSE, 
quote = "", 
sepe "1"; 
col.names = c("ID", "datetime", "content")) 
#on élimine les lignes vides 
news.data <- news.data[news.data$content != "", ] 
news.data news.label # on ajoute le label à chaque tweet 


#on supprime le dossiers avec les *.txt décompressés 
unlink(target.directory, recursive = TRUE) 


VVVVOV EH OO OO REV OV VV VV VV VV HE VV 


head(dataframe) 

ID datetime content 
585978391360221184 Thu Apr 09 01:31:50 +0000 2015 Breast cancer risk test devised http://bbc.in/1CimpJF 
585947808772960256 Wed Apr 08 23:30:18 +0000 2015 GP workload harming care - BMA poll http://bbc.in/1ChTBRv 
585947807816650752 Wed Apr 08 23:30:18 +0000 2015 Short people's "heart risk greater' http://bbc.in/1ChTANp 
585866060991078400 Wed Apr 08 18:05:28 +0000 2015 New approach against HIV 'promising' http://bbc.in/1E6jAjt 
585794106170839040 Wed Apr 08 13:19:33 +0000 2015 Coalition ‘'undermined NHS' - doctors http://bbc.in/1CnLwK7 


O1 4 & NN be 


Q® 


Après 2 heures et 45 minutes sur un Alienware Area 51M avec 64GB de RAM et un 
processeur 8 cœurs à 4.6 GHz (Windows 10, 64bits) nous avons: 


AR File Edit View Misc Packages Windows Help 5x 


> #calcul de la distance cosine 
> library("proxy") 
> #on démarre le chrono de l'étape qui prend du temps 
> ptm <- proc.time() 
> dist.matrix <- proxy::dist(tfidf.matrix, method = "cosine") 
> #on arrête le chrono NS 
> proc.time() - ptm 
user system elapsed 
10381.99 2.33 10393.19 


> str(dist.matrix) 
"dist' Named num [1:501066996] 1 0.853 1 1 1 ... 
- attr(*, "Size")= int 31657 
- attr(*, "“Labels'")= chr [1:31657] "1" "29 "3" "an ... 
- attr(*, "Diag")= logi FALSE 
- attr(*, "Upper")= logi FALSE 
- attr(*, "method")}= chr "cosine" 
— attr(*, "call")= language proxy::dist(x = tfidf.matrix, method = "cosine") 


OK nous y sommes! La partie survivante du jeu de données est interprétable par nos 
algorithmes de clustering ! Mais comment allons-nous regrouper tout cela ? 
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Clustering K-Means, Hiérarchique et HDBScan 


Nous allons exécuter la plupart des différentes techniques dans les précédents exemple de ce 
livre : une de partition (K-Means), une hiérarchique (Bottom-up avec fusion) et une basée sur 
la densité (HDBScan). À l'exception du dernier, les fonctions natives de R peuvent être 
utilisés pour exécuter les algorithmes respectifs: 


© RGui (64-bit) - [R Console] 


UR File Edit View Misc Packages Windows Help 
[@| 


library ("“dbscan") 
>» truth.K <-— 16 
> clustering.kmeans <- kmeans(tfidf.matrix, truth.K) 
» str(clustering.kmeans) 
List of 9 
£ cluster : Named int [1:31657] 10 10 10 10 8 8 1 1 10 1 ... 
ss attr(t; “’names®})= Chr (1:31657] "197 22% 237 An. 
$ centers : num [1:16, 1:1368] 0.0057 O O O O ... 
..— attr(*, "dimames")=List of 2 
se suxBls CE LESLE) TI PDP ER uen 
«. .+.$ : chr [1:1368] "“breast" "cancer" "risk" 
totss num 124139 
withinss num [1:16] 2138 159 252 225 594 
tot.withinss: num 121247 
betweenss num 2893 
size int [1:16] 422 43 57 47 108 345 428 292 291 24235 ... 
iter int 3 
ifauit int © 
attr(*, "class")= chr "kmeans" 
> clustering.hierarchical <- hclust(dist.matrix, method = “ward.D2") 
» str(clustering.hierarchical}) 
List of 7 
merge int [1:31656, 1:2] -27 -20116 -20585 -20588 -21517 -21669 -22058 -22338 -22484 -2S 
height num {[1:31656] O0 O0 O O0 O0 O9 O O0 O O ... 
order : int [1:31657] 31526 29761 29550 28206 26782 26554 26450 26363 26146 25953 ... 
labels s chr [1:31657] "1" "2" "3" nan 
method : Chr "“ward.D2" 
call language hclust(d = dist.matrix, method = "ward.D2") 
dist.method: chr "“cosine" 
- attr(*, "class'")= chr "hclust" 
> clustering.dbscan <- dbscan::hdbscan(dist.matrix, minPts = 10) 
» str(clustering.dbscan) 
List of 7 
£ cluster nus [1:21657],:5 5 S 5:5:0 5 Si'S:5 ;:% 
$ minPts : num 10 
$ coredist : Named num [1:31657] 0.41 0.464 0.586 0.583 0.394 ... 
e— attr(*, “names")= Chr [(1:31657] "1" "2" "3" #4n ,.. 
cluster _ scores : Named num [1:5] NaN 1.35e+17 3.76e+01 3.78e+01 5.14e+02 
..— attr(*, "names")= chr [1:5] "1" "29 F3" "ar .., 
membership prob: num [1:31657] 0.3358 0.2491 0.0505 0.0558 0.3617 ... 
outlier scores : num [1:31657] 0.243 1 1 1 1 ... 
hc ‘List of 7 
merge : int [1:31656, 1:2] -5870 -5872 -6113 -6225 -6232 -6245 -6829 -6890 -7030 -7089$ 
height : num [1:31656] -2.22e-16 -2.22e-16 -2.22e-16 -2.22e-16 -2.22e-16 ... 
order : int [1:31657] 31526 29761 29550 28206 26782 26554 26450 26363 26146 25953 ... 
labels : NULL 


4 A 


nn 


e 
; 
e 
* 
e 
5 
€ 
* 
« 
: 
e 
; 
$ 


. 


4 Ur UN A UN NN 


method chr “robust single" 

dist.method: chr "“mutual reachability" 

call : language dbscan::hdbscan(x = dist.matrix, minPts = 10) 
..— attr(*, "class")= chr "“hclust” 

attr(*, "“class")= chr "hdbscan" 

attr(*, “hdbscan")=List of 141 

..$ 140:List of 6 

..$ contains int [1:49] 30673 31262 31060 30585 30524 30218 30143 31053 30623 30490 ... 
..$ eps num [1:49] 0.172 0.171 0.171 0.17 0.17 ... 

..$ eps birtn num 0.177 

..$ eps_ death num 0.0613 
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Analyse des mots appartenant aux clusters 


Avec 30% du jeu total de données nous avons pour voir quels mots appartiennent à quels 


clusters de la méthodes des K-means: 


Gui (64-bit) - 


R File Edit View Misc Packages Windows Help 


# Assuming 


‘clustering.kmeans' is our clustering result 


library("Rtsne") 


# Assuming 'clustering.kmeans' 
# 'centers' attribute contains the cluster centroids 
cluster _centers <- clustering.kmeans$centers 


# Extracting the centroid of the cluster 
centroid <- cluster _ centers[cluster index, ] 


# Sorting the words based on their TF-IDF values 
sorted words <- order (centroid, decreasing = TRUE) 


# Extracting the top X words (adjust X as needed) 
top_words <- colnames(tdm.tfidf) [sorted words[1:10]] 


> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
- 
+ 
+ 
= 
+ 
_ 
+ 
+ 
+ 
+ return(top_ words) 

+ }) 

> 

> head(top_ words per _cluster,3) 
[111] 


Et pour la méthode des dbscan: 


is your K-Means clustering result 


# Find the top words for each cluster based on the highest TF-IDF values in the centroid 
top_words per cluster <- lapply(l:truth.K, function(cluster index) { 


[1] "your" "you" “these” "way" "can" "the" "what" "that" "with" "get" 
[121] 
[1] "suffer" "chronic" "fatigu" "from" “"diseas" "with" "may" A EX À “the” "pain" 
[131] 
[1] “£ix" "weight-loss" "medicar" "pay" "how" "£or" "the" 
[8] "worst" u-s.7 "hous" 
> 
> # Printing or saving the top words for each cluster 
> for (i in l:length(top words per cluster)) { 
+ cat("Cluster", i, ": ", paste(top words per cluster{{[i]], collapse = ", "), "\n") 
+ } 
Cluster 1 : your, you, these, way, can, the, what, that, with, get 
Cluster 2 : suffer, chronic, fatigu, from, diseas, with, may, ill, the, pain 
Cluster 3 : fix, weight-loss, medicar, pay, how, for, the, worst, u.s., hous 
Cluster 4 most, the, are, american, common, for, don't, but, assist, like 
Cluster 5 : e-cigarett, ban, regul, use, teen, fda, tobacco, find, regular, rule 
Cluster 6 over, sue, recal, concern, ebola, health, the, death, fear, drug 
Cluster 7 : video:, nhs, ebola, asamp:e, health, mental, for, care, the, warn 
Cluster 8 : the, ebola, for, and, with, new, may, say, from, drug 
Cluster 9 : babi, born, vote, allow, mom, parent, after, first, help, are 
Cluster 10 : case, ebola, confirm, mers, first, measl, report, new, sierra, leon 
Cluster 11 : brief, nation, world, breast, cancer, risk, test, care, harm, greater 
Cluster 12 suicid, obesiti, assist, rate, prevent, among, rise, risk, cost, law 
Cluster 13 health, care, law, mental, worker, the, for, ebola, new, insur 
Cluster 14 measur, special, trust, practic, put, into, nhs, breast, cancer, risk 
Cluster 15 : cancer, breast, drug, for, lung, prostat, risk, may, patient, treatment 
 — 16 hospit, patient, ebola, u.s., for, the, with, worker, from, medicar 
> 


5 XX 


# Adjust 10 to your desired number of top words 
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R RGui (64-bit) - [R Console] LL 


ŒR File Edit View Misc Packages Windows Help - BF x 


> + Assuming 'clustering.dbscan' is your DBSCAN clustering result 
> # 'cluster' attribute contains the cluster assignments 


# Extracting the top words for each cluster 

top_ words per dbscan cluster <- lapply(unique (clustering.dbscan$cluster), function(cluster_ index) { 
# Subsetting the data for each cluster 
cluster_subset <- tfidf.matrix{clustering.dbscan$cluster == cluster_index, ] 


# Calculating the mean TF-IDF values for each term in the cluster 
mean_tfidf <- colMeans (cluster _subset) 


# Sorting the terms based on mean TF-IDF values 
sorted words <- order (mean tfidf, decreasing = TRUE) 


# Extracting the top X words (adjust X as needed) 
top_words <- colnames(tdm.tfidf) [sorted words[1:10]] # Adjust 10 to your desired number of top words 


return(top_ words) 


VO OO OV OV OV 
e 


> head(top words per _dbscan cluster,3) 
[111] 


|. El “the” "for" "ebola" "and" "your" "you" "health" "with" "new" "may" 
| CE211 
[11] “breast”" ‘“cancer*" “risk” “test” “care” “harm" "greater" "heart" “"peopl" "short" 
|> 
[> # Printing or saving the top words for each DBSCAN cluster 
|> for (i in l:length(top words per dbscan cluster)) { 
| + cat ("DBSCAN Cluster", i, ": ", paste(top words per dbscan cluster[[i]], collapse = ", "), "\n") 
+ 1 
| DBSCAN Cluster 1 : the, for, ebola, and, your, you, health, with, new, may 
| DBSCAN Cluster 2 : breast, cancer, risk, test, care, harm, greater, heart, peopl, short 
>] 


Et pour la méthode hiérarchique: 
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 RGui (64-bit) - [R C 


View Misc Packages Windows Help - 5x 


# Assuming 'clustering.hierarchical' is your hierarchical clustering result 
# You may need to cut the dendrogram into clusters using 'cutree’ 


Cutting the dendrogram into clusters 
ierarchical clusters <- cutree(clustering.hierarchical, k = truth.K) 


LE 


# Extracting the top words for each hierarchical cluster 

top_words per hierarchical cluster <- lapply(unique(hierarchical clusters), function(cluster index) { 
# Subsetting the data for each cluster 
cluster _subset <- tfidf.matrix{hierarchical clusters == cluster _ index, ] 


# Calculating the mean TF-IDF values for each term in the cluster 
mean_tfidf <- colMeans (cluster _subset) 


# Sorting the terms based on mean TF-IDF values 
sorted words <- order (mean tfidf, decreasing = TRUE) 


# Extracting the top X words (adjust X as needed) 
top_ words <- colnames(tdm.tfidf) [sorted words[1:10]] # Adjust 10 to your desired number of top words 


return(top_words) 


A HV OV OV OV OV OV VV 


> 
> head(top words per _hierarchical cluster,3) 
[11]] 


[1] "cancer" ‘"fda" "approv" "drug" "“breast" "prostat" "lung" "win" "for" "novarti" 


[121] 


[1] "the" Loc” "and" “ebola” "may" "with" "health" "say" "studi”" "video:" 


[1311 


[1] "your" "you" "the" "these" "for" "way" "and" "with" "how" "food" 


> 
> # Printing or saving the top words for each hierarchical cluster 

> for (i in l:length(top words per hierarchical cluster)) { 

+ cat ("Hierarchical Cluster", i, ": ", paste(top words per hierarchical cluster{{[i]], collapse = ", "), "\n") 
+ } 

Hierarchical Cluster 
Hierarchical Cluster 
Hierarchical Cluster 
Hierarchical Cluster 
Hierarchical Cluster 
Hierarchical Cluster 
Hierarchical Cluster 
Hierarchical Cluster 
Hierarchical Cluster 
Hierarchical Cluster 10 
Hierarchical Cluster 11 
Hierarchical Cluster 12 
Hierarchical Cluster 13 
Hierarchical Cluster 14 
Hierarchical Cluster 15 
Hierarchical Cluster 16 


>| 


cancer, fda, approv, drug, breast, prostat, lung, win, for, novarti 
the, for, and, ebola, may, with, health, say, studi, video: 
your, you, the, these, for, way, and, with, how, food 
health, law, court, obamacar, medicaid, #obamacar, insuranc, million, suprem, abortion 
ebola, test, case, for, brief, worker, vaccin, patient, trial, u.s. 

leon, sierra, ebola, case, doctor, die, report, from, quarantin, down ù 

flu, outbreak, measl, bird, disneyland, vaccin, shot, season, farm, this 

#healthtalk, love, join, @everydayhealth, @eatsmartbd:, @rmichlermd:, chat, £&amp:, vegan, for 
cell, stem, research, therapi, scientist, eye, diseas, into, human, treat 

breast, cancer, risk, test, care, harm, greater, heart, peopl, short 

know, about, you, thing, what, fact, should, need, the, and 

new, old, york, blog:, age, the, citi, ebola, quarantin, patient 

@cynthiasass:, @goodhealth, &amp:, goal, you, …, weight, can, #talknutrit, set 

#healthtotalwel, weekend, @canyonranch!, healthtotalwel, exclusiv, aah-maz, code, detail, here:, offer 
@wagdotcom, furri, purchas, foods:, pet, gift, premium, friend, spend, when 

pharmalot.., #pharma, @pharmalot:, pharmalittle.., morning.., headlin, good, &amp;, weekend, coffe 


LD © -J om Un 4 W N bi 


Graphiques des clusters 


Avec ces 3 méthodes de clustering, nous pouvons même essayer une méthode d'empilement : 
fusionner les résultats avec une simple technique de vote dur. Considérant les K-Means 
comme un clustering maître, chacun de ses clusters sera affecté au cluster majeur représenté 
parmi leurs points dans le clustering esclave. Nous répétons cette opération à partir du cluster 
d'esclaves majeur résultant avec l'autre résultat de clustering (le deuxième esclave). 


Ce n'est pas la manière la plus efficace de faire du clustering par empilement car cela conduit, 
au mieux, à conserver des clusters et, au pire, à fusionner des clusters dans le clustering 
maître. Mais c'est simple à mettre en oeuvre : 
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 RGui (64-bit) - [R Console] 


R File Edit View Misc Packages Windows Help LUE: 


slave.dbscan <- clustering.dbscanS$Scluster 


stacked.clustering <- rep(NA, length(master.cluster)) 

names (stacked.clustering) <- l:length(master.cluster) 

for (cluster in unique (master.cluster)) { 
indexes = which(master.cluster == cluster, arr.ind = TRUE) D 
slavel.votes <- table(slave.hierarchical{[indexes]) 
slavel.maxcount <- names(slavel.votes)[which.max(slavel.votes)] 
slavel.indexes = which(slave.hierarchical == slavel.maxcount, arr.ind = TRUE) 
slave2.votes <- table (slave.dbscan{indexes]) 
slave2.maxcount <- names(slave2.votes) [which.max(slave2.votes)] 
stacked.clustering{indexes] <- slave2.maxcount 


HV VU UV 


v 
— 


Nos quatre clusters sont terminés ! Nous l'avons fait! Waouh ! Mais comment pouvons-nous 
voir les résultats? 


Nous devons définir une façon de voir nos phrases de grande dimension. Puisque nous avons 
une matrice de distance (utilisée pour le regroupement basé sur la densité), nous pouvons 
effectuer la technique de mise à l'échelle multidimensionnelle (multidimensional scaling) pour 
cartographier nos données dans un espace bidimensionnel en choisissant les axes les plus 
significatifs grâce à une analyse en composantes principales (ACP). 


Après cela, R est livré avec des fonctions natives.simples pour tracer ces résultats mais 
attention, nous vous conseillons de réduire la taille du jeu de données initial à 30% sinon le 
calcul prend environ 1 semaine sur un Alienware Area 51M avec 64 GB de RAM et un 
processeur 8 cœurs à 4.6 GHz (Windows 10, 64bits). Donc modifiez la ligne de la boucle du 
début comme-dessous: 


news.data <- head(news.data, floor (nrow(news.data) | 0.3)) 


Astraframes fn D vhinAlAstasframe narnre Aatal #nn rnnratèns 12e 


Ensuite, nous faisons l'ACP ce qui durera 5.38 heures comme le montre la capture d'écran ci- 
dessous sur l'ordinateur susmentionné: 
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-bit) - [R Console] 


#fon démarre le chrono de l'étape qui prend du temps 

ptm <-— proc.time() 

#PCA pour choisir les deux meilleures dimensions 

points <- cmdscale(dist.matrix, k = 2) 

#création d'une palette de couleurs 

palette <- colorspace::diverge hcl(truth.K) W 
previous.par <- par(mfrow=c(2,2), mar = rep(1l.5, 4)) 


fpartie graphique 

previous.par <- par(mfrow=c(2,2), mar = rep(l.5, 4)) 

plot (points, main = "K-Means clustering", col = as.factor (master.cluster), 
mai = c(0, 0, O0, O0), mar = c(0, 0, O0, O), 
xaxt = "n", yaxt = "n", xlab = "", ylab = "") 

plot (points, main = "Hierarchical clustering", col = as.factor(slave.hierarchical}), 
mai = c(0, O0, O0, 0), mar = c(0, 0, 0, O0), 
xaxt = “"n", vaxt = "n", xlab = *“*, ylab = **) 

plot (points, main = "Density-based clustering", col = as.factor(slave.dbscan), 
mai = c(0, 0, O0, 0), mar = c(0, 0, 0, O0), 
xaxt = "n", yaxt = "n", xlab = "", ylab = "") 

plot (points, main = "Stacked clustering", col = as.factor(stacked.clustering), 
mai = c(0, O0, O0, 0), mar = c(0, 0, 0, O0), 
xaxt = "n", yaxt = "n", xlab = "", ylab = "") 

fon arrête le chrono 


VV EEN EN RENNVNNVN NN NN NV 


proc.time() - ptm 
user system elapsed 
19370.42 6.00 19390.42 
> 
>| 
v 
Ç 
LS 


Et cela donne les graphiques suivants: 
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le] 


Ou avec seulement 5% du jeu de donnés initial: 
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_ 


Re R Graphics: Device 2 (ACTIVE 
K-Means clustering 


Résumé (code entier) 


Voici le code entier si jamais en une seul traite: 


#original code taken from: 


EEE 
Hierarchical clustering 


#https://medium.com/@SAPCAT/text-clustering-with-r-an-introduction-for- 


data-scientists-c406e7454e76 


library("tm") 
library("stringr') 


#we first create the dataframe structure in the memory 


dataframe <- data.frame(ID=-character(i), 
datetime=characteri), 
content=character(), 
label=factor()) 


#we load the data (zip file) 


and unzip them on the hardrive 
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source.url <- 'https://archive.ics.uci.edu/ml/machine-learning- 
databases/00438/Health-News-Tweets.zip' 

target.directory <- '/Etmp/clustering-r' 

temporary.file <- tempfile() 

download.file(source.url, temporary.file) 

unzip(temporary.file, exdir = target.directory) 


we read the files 

target.directory <- paste(target.directory, 'Health-Tweets', sep = '/) 
files <- list.files(path = target.directory, pattern='".txts") 

filling the dataframe by reading the text content 

for (f in files) { 


news.filename = paste(target.directory , f, sep ="'/") 
news.label <- substr(f, 0, nchar(f) - 4) #on supprime le ".txt" 
news.data <- read.csv(news.filename, 

encoding = "UTF-8", 

header = FALSE, 

quote =. "7, 

Sep = "1", 

col.names = c("ID", "datetime", "content")) 
we get rid of empty rows 
news.data <- news.datalnews.data$content != "", ] 
news.datal['label'] — news.label #we add a label to each tweet 


#if your computer is not powerful enough, decrease the percentag 

#from the initial dataset size 

percent of dataset <- 0.4 

news.data <- head(news.data, floor(nrow(news.data) * percent of dataset)) 
dataframe <- rbind(dataframe, news.data) #row appending 


deleting the temporary directory LC 
unlink(target.directory, recursive = (el 


CO] 
— 


just look at a part of the content 
head(dataframe) 


a little bit of cleaning to get rid of most URLs 


sentences<-str replace all(dataframe$content,"https?://[T\\s]+", "") 
we look at a part of the result 
head (sentences) 


part where we prepare the corpus 

corpus <-— tm::Corpus (tm::VectorSource(sentences)) 
corpus 
classical cleaning part 

suppression of english stop-words 

corpus.cleaned <- tm::tm map(corpus, tm::removelWords, 
tm::stopwords ("english")) 
stemming of words 
corpus.cleaned <- tm::tm map(corpus, tm::stemDocument, language = 
"english") 
suppression of blank spaces 
corpus.cleaned <- Em::tm map(corpus.cleaned, Em::stripWhitespace) 
we look to the content of the resulting object 

corpus.cleaned 


tdm <- tm::DocumentTermMatrix (corpus.cleaned) 

we look a the tdm structure 

tam 

dim(tdm) #its dimension to have an idea of the number of words involved 
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we compute the TfIdf Weight 
tdtdm.tfidf <- tm::weightTfIdf(tdm) 
tdtdm.tfidf 


tdm.tfidf <- tm::removeSparseTerms(tdtdm.tfidf, sparse=0.999) 
tdm.tfidf 

tfidf.matrix <- as.matrix(tdm.tfidf) 

we take a look to the content of the first 10 rows and 10 columns 
tfidf.matrix(0:10,0:10] 


we will now compute the cosine distance 


we start a timer because it's interesting to see how long it take 
depending on the initial percentage of the dataset 

100% takes 2 days of computation 

ptm <- proc.time() 


dist.matrix <- proxy::dist(tfidf.matrix, method = "cosine") 
we stop the timer 
proc.time() - ptm 


str(dist.matrix) 


#now we run the clustering part 
library("dbscan") 

truth.kK <- 16 #because why not... 
clustering.kmeans <- kmeans(tfidf.matrix, truth.K) 
str(clustering.kmeans) #just to see the result structure 


clustering.hierarchical <- hclust(dist.matrix, method = "ward.D2") 
str(clustering.hierarchical) #just to see the result structure 
clustering.dbscan <- dbscan::hdbscan(dist.matrix, minPts = 10) 


str(clustering.dbscan) #just to see the result structure 

© 
#now comes the part where we want to LD which of the top X most frequent 
AE AE AE HE HE HE HE HE HE HE EE EE EE AE APE APE PE HE HE SE SE EE EE AE ASE ASE PE SE SE SEE EEE 


AE AE AE HE HE HE HE HE HE HE EE EE EE AE ASE APE PE HE HE SE SE EE EE AE AE ASE PE SE SE ES EEE 
# Assuming 'clustering.kmeans' is our clustering result 


library('"Rtsne") 


Assuming 'clustering.kmeans' is your K-Means clustering result 
'centers' attribute contains the cluster centroids 
cluster centers <- clustering.kmeans$centers 


Find the top words for each cluster based on the highest TF-IDF values in 
the centroid 

top words per cluster <- lapply(l:truth.kK, function(cluster index) { 
Extracting the centroid of the cluster 

centroid <- cluster centers[cluster index, ] 


Sorting the words based on their TF-IDF values 
sorted words <- order(centroid, decreasing = TRU 


(ea 
— 


Extracting the top X words (adjust X as needed) 
top words <- colnames (tdm.tfidf) [sorted words[1:10]] # Adjust 10 to your 
desired number of top words 


return(top words) 


}) 


head(top words per cluster,3) 
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# Printing or saving the top words for each cluster 


for (i in l:length(top words per cluster)) { 
cat "Cluster", 1, ": ", paste(top words per cluster[[i]], collapse = ", 
LATE An) 


} 


AE AE AE EE HE PE HE HE HE HE HE SE EE EE EE APE ASE APE HE HE HE HE SE EE EE EF AE AS SRE 

AE AE EE EH HE APE HE HE HE HE HE EE EE EE EE APE APE APE SE SE HE SE SE EE EE EE EE AS EE 
Assuming 'clustering.dbscan' is your DBSCAN clustering result 
"cluster' attribute contains the cluster assignments 


Extracting the top words for each cluster 

top words per dbscan cluster <- lapply(unique (clustering.dbscan$cluster), 
function(cluster index) { 

Subsetting the data for each cluster 

cluster subset <- tfidf.matrix[clustering.dbscan$cluster == 

cluster index, ] 


Calculating the mean TF-IDF values for each term in the cluster 
mean tfidf <- colMeans (cluster subset) 


Sorting the terms based on mean TF-IDF values 
sorted words <- order(mean tfidf, decreasing = TRU 


C] 
— 


Extracting the top X words (adjust X as needed) 
top words <- colnames (tdm.tfidf) [sorted words[1:10]] # Adjust 10 to your 
desired number of top words 


return(top words) 
}) XL 
Ÿ 
# Printing or saving the top words for each DBSCAN cluster 
for (i in l:length(top words per dbscan cluster)) { 

cat ("DBSCAN Cluster", i, ": ", paste(top words per dbscan cluster[l[i]], 
collapse = ", "), "\n") 


} 


AE AE PE EE A PER 
AE AE PE EE EE A PER 


Assuming "'clustering.hierarchical' is your hierarchical clustering result 
You may need to cut the dendrogram into clusters using 'cutree' 


Cutting the dendrogram into clusters 
hierarchical clusters <- cutree(clustering.hierarchical, k = truth.K) 


Extracting the top words for each hierarchical cluster 

top words per hierarchical cluster <- lapply(unique(hierarchical clusters), 
function(cluster index) { 

Subsetting the data for each cluster 

cluster subset <- tfidf.matrix[hierarchical clusters == cluster index, ] 


Calculating the mean TF-IDF values for each term in the cluster 
mean tfidf <- colMeans (cluster subset) 


Sorting the terms based on mean TF-IDF values 
sorted words <- order(mean tfidf, decreasing = TRUI 


(Egl 
— 
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# Extracting the top X words (adjust X as needed) 
top words <- colnames (tdm.tfidf) [sorted words[1:10]] # Adjust 10 to your 
desired number of top words 


return(top words) 


}) 


# Printing or saving the top words for each hierarchical cluster 


for (i in l:length(top words per hierarchical cluster)) { 
cat ("Hrerarchical Clustér",;. 2, Ms 
paste (top words per hierarchical cluster[[i]], collapse = ", ")}, "\n") 


} 


AE AE AE EE HE APE HE HE HE HE HE SE EE EE EE AE APE APE HE HE HE SE SE EE EE EE EE AS SEE 
AE AE EE EE HE APE HE HE HE HE HE SEE EE EE AE APE ASE APE PE HE HE SE SE EE EE EE AE AS SRE 
partie graphiques 


with 30% of the dataset it takes 5 hours and 20 minutes 
ptm <- proc.time() 
points <- cmdscale(dist.matrix, Kk = 2) 
we stop the timer 
proc.time() - ptm 


master.cluster <- clustering.kmeans$cluster 

slave.hierarchical <- cutree(clustering.hierarchical, k = truth.K) 
slave.dbscan <- clustering.dbscan$cluster 
stacked.clustering <- rep(NA, length(master.cluster)) 
names (stacked.clustering) <- 1:length(master.cluster) 


for (cluster in unique(master.cluster)) { 
indexes = which(master.cluster == cluster, arr.ind = TRUE) 
slavel.votes <- table (slave.hierarchicall[indexes]) 
slavel.maxcount <- names (slavel.vot [which.max(slavel.votes)] 
slavel.indexes = which(slave.hierarchical == slavel.maxcount, arr.ind = 
TRUE) 


slave2.votes <- table(slave.dbscanfindexes]) 
slave2.maxcount <- names(slave2.votes) [which.max(slave2.votes)] 
stacked.clusteringlindexes] <- slave2.maxcount 


} 


palette <- colorspace::diverge hcl(truth.K) # Creating a color palette 


previous.par <- par(mfrow=c(2,2), mar = rep(1l.5, 4)) 
plot (points, main = "'K-Means clustering', col = as.factor(master.cluster), 

mai = c(0, 0, 0, 0), mar = c(0, 0, 0, O), 

xaxt = 'n', yaxt = 'n', xlab = '', ylab = ') 
plot (points, main = "'Hierarchical clustering', col = 
as.factor(slave.hierarchical), 

mai = c(0, 0, 0, 0), mar = c(0, 0, 0, O), 

xaxt = 'n', yaxt = 'n', xlab = '', ylab = ') 
plot (points, main = "'Density-based clustering', col = 
as.factor(slave.dbscan), 

mai = c(0, 0, 0, 0), mar = c(0, 0, O0, O), 

xaxt = 'n', yaxt = 'n', xlab = '', ylab = ') 
plot (points, main = 'Stacked clustering', col = 
as.factor(stacked.clustering), 

mai = c(0, 0, 0, 0), mar = c(0, 0, O0, O), 

xaxt = 'n', yaxt = 'n', xlab = '', ylab = ') 


par (previous.par) # recovering the original plot space parameters 
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32. Bioinformatique/Biostatistiques 


La bioinformatique (dont nous retrouvons aussi des Toolbox dans MATLAB) est aussi 
excellent exemple d'application pratique des outils statistiques et de machine learning. 


Exceptionnellement un petit rappel de culture générale s'impose. 


La technologie des microarray utilise les propriétés de l'hybridation des acides nucléiques et 
utilise des molécules complémentaires attachées à une surface solide, nommées "probes" dans 
le domaine, pour mesurer la quantité d'une acide nucléique spécifique (ou d'une chaîne 
particulière) présent dans un échantillon souvent nommé "cible". 


Les molécules se retrouvant dans les "probes" sont par la suite labélisées à l'aide de scanners 
spécialisés et la quantité d'acides nucléiques dans chaque probe est donnée en termes 
"d'intensité" (fluorescence de l'activité chimique) ce qui se traduit souvent sur les ordinateurs 
en une image où chaque "probe" est un pixel ou ensemble constant de pixels ayant une 
couleur donnée avec un certaine intensité (souvent du noir — rien - au blanc pour le maximum 
d'intensité). La matrice (grille) de couleurs obtenues se lit parfois en ligne pour un type de 
gène donné et en colonne des conditions d'analyse du gène d'intérêt. 


Les industriels*? proposent une large palette de plateformes d'analyses différentes dont le 
critère majeur est souvent le bruit de mesure (et en deuxième le type de cible d'intérêt: 
génome humain, rat ou autre parfois sur mesure...) qui dans la pratique nécessitent des 
répétitions d'analyses et manipulations statistiques des données extraites avant de pouvoir 
conclure sur quoi que ce soit de manière un peuXcientifique (donc pour un même échantillon 
on obtient des résultats sensiblement différents à cause du bruit, du protocole expérimental et 
de l'opérateur). Ces manipulations sont souvent nommées "preprocessing" (prétraitement) 
dans le domaine. 


Nous allons pour survoler ce sujet d'abord installer le package bioconductor 
(http://bioconductor.org/). L'installation est un peu spéciale car en réalité nous appelons des 
fonctions plutôt que des les installer: 


47 En ce début de 21°" siècle Affymetrix serait le leader du marché des microarray. 
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ne, RGui (64-bit} - [RC 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> sourcel"http://hioconductor.org/hiocLite.R") 

Bioconductor version 2.14 (BioclInstaller 1.14.2), ?biocLite for 
help 

> biocLitel) 

BioC mirror: http://bioconductor.org 

Using Bioconductor version 2.14 (BiocInstaller 1.14.2), R version 
3.1.0. 

Message d'avis 

installed directory not writable, cannot update packages 'class', 
lo ‘Matrix', 'mgcv!' NS 

» 


Nous avons aussi besoin du package seqinr pour obtenir les séquences ADN et extraire des 
informations des bases de données de protéines en lignes et aussi pour leur analyse 
élémentaire: 


=. RGui (64-bit} - [RC 
R Fichier Edition Voir Misc Packages Fenêtres Aide 


EC) 


> install.packages("seqinr") 

Installing package into ‘C:/Users/Ilsoz Vincent/Documents/R/win-library/3.1” 
{as ‘lib’ is unspecified) 

essai de l'URL 'http://cran.rstudio.com/bin/windows/contrib/3.1/seqinr 3.0-$ 
Content type 'application/zip' length 4784671 bytes (4.6 Mb) 

URL ouverte 

downloaded 4.6 M 


le package ‘seqinr’ a été décompressé et les sommes MD5 ont été vérifiées af 


Les packages binaires téléchargés sont dans 
C:\Users\lsoz Vincent\AäppDataiLocal\Temp\RtmpASqiEk\ downloaded pack$ 
> libraryiseqinr) 
Message d'avis : 
le package ‘seqinr’ a été compilé avec la version R 3.1.1 
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Exemple 443.: Modèle SIR de propagation des épidémies 
R 3.63 


Il existe plusieurs packages pour modéliser le fameux modèle SIR: 
e Le package EpiDynamics 
e Le package shinySIR 


e Le package desolve 


Cependant nous préférons montrer le code explicite de comment modéliser ce modèle car 
c'est très instructif et plutôt court. 


Donc voyons un exemple de code pris sur: 


https://fabiandablander.com/r/Nonlinear-Infection.html 


ET onsole : | 
| R File Edit View Misc Packages Windows Help -_ sx 


EsB) … 


solve SIR <- function(S0, I0, beta = 1, gamma = 1, delta t = 0.01, times = 8000) { 
res <- matrix(NA, nrow = times, ncol = 3, dimnames = list (NULL, c('S', 'I', 'R'))) 
res{1, ] <-— c(s0, I0, 1 - S0 - I0) 


dS <- function(S, I) -beta * I *S 
di <- function(S, I) beta * I * S - gamma * I 


VV RER RENNN EEE RER ER HR + + + + + + V 


for (i in seq(2, times)) { 
S <- res[i-1, 1] 
I <- res[i-1, 2] 


res{i, 1] <- resfi-1, 1] + delta t * dS(S, 1) 
res{i, 2] <- res{i-1, 2] + delta t * dI(S, I) 
} 


resf, 3] <- 1 - resf, 1] - res, 2] 
res 


2 


library("RColorBrewer") 


plot_SIR <- function(res, main = ''}) { 

cols <- brewer.pal(3, 'Setl') 

matplot ( 
res, type = 'l', col = cols, axes = FALSE, lty = 1, lwd = 2, 
ylab = 'Subpopulations(t)', xlab = "Time t', xlim = c(0, 4000), 
ylim = c(0, 1), main = main, cex.main = 1.75, cex.lab = 1.5, 
font.main = 1, xaxs = 'i', yaxs = 'i' 

) 

axis(il, cex.axis = 1.25) 

axis(2, las = 2, cex.axis = 1.25) 

legend ( 


3000, 0.65, col = cols, legend = c('s', 'I', 'R'}), 
lty = 1, lwd = 2, bty = 'n', cex = 1.5 


2 


> plot_SIR(solve SIR(S0=0.95,10=0.05,gamma=i/8)) 

> plot SIR(solve SIR(S0=0.95,10=0.05,beta=3/86,gamma=1/8)) 
> DER PE Eee 
> 
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Ce qui donne les trois graphiques suivants: 


Subpopulations(t) 
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Time t 
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Exemple 444.: Lire un fichier *.DICOM (Digital Imaging and 


Communications in Medicine) 
R 3.2.1 


Dans le cours Photoshop nous avons vu les nombreuses possibilités d'ouvrir et d'éditer un 
fichier DICOM. 


Voyons ce que nous pouvons tirer de R à l'aide du package oro.dicom et la fonction 
readDICOMEÆFile( ): 


library("oro.dicom") 

> brain <- readDICOMFile ("C:/tmp/CerveauDICOM.dcem") 

> image(t (brain $img), col=grey(0:64/64), axes=FALSE, 
Xlab="", ylab="" main="Cerveau") 


R R Graphics: Device 2 (ACTIVE) 


Cerveau 


ToDo: Trouver comment choisir le calque (couche) à la lire. 
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Exemple 445.: Obtenir des séquençages sur les BDD en ligne 
R 3.1.0 


Le Centre national d'information sur la biotechnologie (NCBLE www.ncbi.nlm.nih.gov) aux 
Etats-Unis maintient une vaste base de données de toutes les données de séquence d'ADN et 
de protéines qui ont été recueillis jusqu'à aujourd'hui. 


Il y a aussi une base de données similaire en Europe, le European Molecular Biology 
Laboratory (EMBL; www.eb1.ac.uk/embl), et également une base de données similaire au 
Japon, la DNA Data Bank of Jaban (DDBJ; www.ddbj.nig.ac.jp). 


Ces trois échangent des données des bases de données chaque nuit, donc en un point 
quelconque dans le temps, elles contiennent des données presque identiques. 


Chaque séquence dans la base de données NCBI séquence est mémorisée dans un registre 
séparé, et se voit attribuer un identifiant unique qui peut être utilisé pour se référer à cet 
enregistrement de la séquence. L'identifiant est connu comme une adhésion, et consiste en une 
combinaison de chiffres et de lettres. 


Par exemple, le virus de la dengue (grippe tropicale) provoque de la fièvre de la dengue, qui 
est classée comme une maladie tropicale et désignée par l'un de quatre types de virus de la 
dengue: DEN-1, DEN-2, DEN-3 et DEN-4. Les adhésions NCBI pour les séquences d'ADN 
de la DEN-1, DEN-2, DEN-3 et DEN-4 sont respectivement NC_001477, NC_001474, 
NC_001475 et NC_002640. 


Virus de la dengue au microscope électronique 


Note that because the NCBI Sequence Database, the EMBL Sequence Database, and DDBJ 
exchange data every night, the DEN-I (and DEN-2, DEN-3, DEN-4) Dengue virus sequence 
will be present in all three databases, but it will have different accessions in each database, as 
they each use their own numbering systems for referring to 


Notez que parce que la base de données de séquences NCBI, EMBL et DDBJ synchronises 
leurs tous les soirs, les séquences du virus DEN-1 (et DEN-2, DEN-3, DEN-4) sera présent 
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dans les trois bases de données, mais il aura différentes accessions dans chaque base de 
données, car ils utilisent chacun leurs propres systèmes de numérotation pour faire référence à 
leurs propres enregistrements de séquence. 


Nous allons voir maintenant comment extraire la séquence NC_001477 du NCBI par 
exemple. Pour cela nous allons sur le site Internet du NCBI et nous tapons le séquence qui 
nous intéresse dans le champ de recherche: 


nebe. nm nih.gov À (FE Rechercher ave 


AllDatabases + [NC_001477 


National Center for 
Biotechnology Information L 


NCBI Home Welcome to NCBI Popular Resources 
Resource List (A-Z) 


The National Center for Biotechnology Information advances science PubMed 
All Resources and health by providing access to biomedical and genomic information. Bookshelf 


PubMed Central 
PubMed Health 
BLAST 

Get Started Nucleotide 


Genorme 


Chemicals & Bioassays About the NCBI | Mission | Organization | Research | NCBI News 


Data & Software 
DNA & RNA 


Domains & Structures 

« Tools: Analyze data using NCEI software 
+ Downloads: Get NCBI data or software SNP 
+ How Tos: Learn how to accomplish specific tasks at NCBI Gene 
Genomes & Maps «+ Submissions: Submit data to GenBank or other NCEI 


databases 
Homology PubChem 


Genes & Expression 
Genetics & Medicine 


Protein 


Literature 


D + @ AGkcharge.. 
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Il y aura de nombreux résultats quand vous cliquerez sur Search: 


© Web | www.nchi.nim.nih.gov/gquery 


2 NCBI Resources M How To M 


Search NCBI databases 


NC_001477 


About 18 search results for "NC_001477" 


Literature Genes 


Books books and reports expressed sequence tag 


sequences 


EST 
ontology used for PubMed 


MeSH ; ; 
indexing 


collected information about gene 


Gene Î ibel 


books, journals and more in the 


EME MaIog NLM Collections à DataSets 0 functional genomics studies 


scientific & medical abstracts/ GEO DataSets Search Page gene expression and molecular 
citations 


PubMed 


abundance profiles 


PubMed ÿ : : homologous gene sets for 
a fulltext journal articles HomoloGene . 
Central selected organisms 


— | _— r sequence sets from phylogenetic_1r 
OO æ ©@ http//wwwnchinimnih.goy/gds/Æterm=NC_001477 Mise à jour disponible 2 = ——————————— 


Il faut descendre dans la page jusqu'à trouver: 


(per ] Ex 


2 NC_001477 - GQuery: G... x [Rs - 
< - D G @ Web | www.nchi.nim.nih.gov/gquery ) dl + Rechercher avec Google 2 © 
abvar Ü - 
studies # 
ao Read aa 
Epigenomics 0 epigenomic studies and display 
tools 
Gencme 1 genome sequencing projects by 
organism 
GSS 0 genome survey sequences 


Nuclrp tide L DNA and RNA sequences 


sequence-based probes and 


Prot : 
primers 
SNP 0 short genetic variations 
SRA 0 high-throughput DNA and RNA = 
sequence read archive 
taxonomic classification and 
Taxonomy 0 
nomenclature catalog 
Chemicals 
BioSystems 0 molecular pathways with links to 
genes, proteins and chemicals 
PubChem an hiosctivits Scrmaninn dudiaé w 
OO æ © http//wwwnchinimnih.goy/nuccore/term=NC_001477 Mise à jour disponible 2 == ——————————— 
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Vous cliquez dessus pour arriver sur: 


chinim.nih.gow/nuccore/NC_00 À (EH + Rechercher avec Goac 2 (e) 


= NCBI Resources M) How To M 


Nucleotide Nucleotide + | 
Limits Advanced 


Display Settings: (M) GenBank 


Dengue virus 1, complete genome 
NCEI Reference Sequence: NC_001477.1 


FASTA Graphics 
Goto M 


LOCUS NC_001477 10735 bp ss-RNA linear VRL 17-NO0V-2011 
DEFINITION Dengue virus 1, complete gename. 
ACCESSION NC_001477 
VERSION NC_001477.1 GI1:9626685 
DBLINK BioProject: PRI1215306 
KEYWORDS Refseq. 
SOURCE Dengue virus 1 
ORGANISM Dengue virus 1 
Viruses; ssRNA positive-strand viruses, no DNA stage; Flaviviridae; 
Flavivirus; Dengue virus group. 
REFERENCE 1 (bases 1 to 10735) 
AUTHORS Puri,B., Melson,W.M,, Henchal,E.A., Hoke,C.H., Eckels,K.H., NS 
Dubois ,D.R., Porter,K.R. and Hayes,C.G. 
TITLE Molecular analysis of dengue virus attenuation after serial passage 
in primary dog kidney cells 
JOURNAL  J. Gen. Virol. 78 (PT 9), 2287-2291 (1997) 
ni 


Mise a jour disporuble + 
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Cliquez sur le Send qui est en haut à droite et choisissez les options suivantes: 


e 
< Dengue virus L compl.… x 


< > D 0  OWeb www.nchi.nlm,nih.gov/nuccore/NC_001477 % || - Rechercher avec Google RE 2 © 


2 NCBI Resources M) How To M 


Nucleotide Nucleotide + y 


Limits Advanced 


Display Settings: M) GenBank Send M) ss 


© Complete Record 


Dengue virus 1, complete genome © Coding Sequences 


© Gene Features 
NCEI Reference Sequence: NC_001477.1 
Choose Destination 
© File © Clipboard 
© Collections » Analysis Tool 


NC_001477 10735 bp ss-RNA linear  VRL . 
DEFINITION Dengue virus 1, complete gename., Download 1 items. 
ACCESSION NC_001477 Format 
VERSION NC_001477.1 GI:9626685 À Ÿ 
DBLIHK BioProject: PRIN215306 
KEYHORDS  RefSeq. 
SOURCE Dengue virus 1 
ORGANISM Dengue virus 1 
Viruses; ssRIA positive-strand viruses, no DNA stage; Flaviviridae; 
Flavivirus; Dengue virus group. 
REFERENCE 1 (bases 1 to 10735) 
AUTHORS  Puri,B., Melson,W.M., Henchal,E.A., Hoke,C.H., Eckels,K.H., 
Dubois,D.R., Porter,K.R. and Hayes,C.G. 
TITLE Molecular analysis of dengue virus attenuation after serial passage 
in primary dog kidney cells 
JOURNAL  J. Gen. Virol. 78 (PT 9), 2287-2291 (1997) 
1 Ti | 


D e< @& 


——————————————————————— 


Cliquez sur Create File, pour que ce fichier texte à l'extension *.FASTA se télécharge sur 
votre ordinateur. Vous aurez alors: 


Fichier Edition Format Affichage 2 


> gl9626685|refNC_001477.1| Dengue virus 1, complete genomeAGTTGTTÉGTCTÉCOTOGÉCCGACAAGAACAC à 
TAGGCA ACAGÉGACTTCGTOGÉ ÉGGACTOTCLGGAGCTÉCOTOGGTOGÉTOTOGTACTOGAGCATOGAAGT" | | 
À AGGGAGTA ACCCAGA ÉTOGGAGATTGATA ACAGCCA ACCCCATAGTCECTGACÉA À AGÉ À À 4 BCCAGTC 
GTCAGCTOCCATCA À GGATAGCLS À 4 GCAGTCCATOCTGACATOGGGTACTOGATAGÉ 4 ÉGTGÀ 4 À GA AC 
CTATGATACTGTCAATTGTATCTCTCTTCCCTTTATOCCTOTCCACGACTTCTCAAZAAACAACATOGCTTC 
À AGTGGTACCTACGTCAGTOCCATÉAGCTCA AGCTA 4 AGCATCACS À GA À GGGCCTCTACCAGAGATTGAGC 
TGCTCCTTGACAACATA A ACACACCAGA AGGGATTATCCCAGCCCTCTTTGAGCCOGAGAGAGÉ À 4 AGAG 
GGCA A ATATTTCCCTGACAGCTATTOCA 4 ACC2EGGCAGCTÉTÉTTGATOGGACTTGA CE À GGGATGGCCA 4 
AGTCCTCTCCGÉ ACCCA ACTATÉGÉ À GA AGGÉ AGE ACOTTÉCOTOTTCTÉA 4 A GATOGTOGA ACCATOGGCT( 
Gé AGCCCTTOGTTTCATOGA ATGA AGATCECTOGTTCAGCAGÉGAGÉ ATTCECTCAGTOGAGTOGÉ À GGÉ Ga 
GGÉTOGAGGÉCA ÉGACTCATOTOTCCAGTTGGGA ÉGACOTTCCATACCTAGGÉ À 4 4 AGGGÉ AGATCA ATGI 


PA TE 
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Exemple 446.: Lire et traiter un fichier *.FASTA 
R 3.1.0 


Nous allons voir maintenant comment faire quelques petites traitement et analyses 
élémentaires du fichier FASTA que nous avons téléchargé. 


D'abord regardons un peu le contenu en utilisant la commande read.fasta( ) : 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> library(seqinr) 

> dengue<-read.fasta("sequence.fasta") 

> dengue[[1]] 

[1] rar ro Le AU LS ALU Li Lol Le ALU LS AL ra" rr 

[19] rar rer" rc" rar ra" rc rar rar" LL 
[37] er Lil ra!" fra" LS PLU rer" Lie La tr (Bd ra" 
[55] rar "cr mor LS ALU rar Lie ji Le ALU LS PL 
[73] LA AL ro rt" "ra" ro" LS Lu "ra" Front 
[21] LS ALU rer" LA LU Le id ra!" LE LU Gr id ra" 
[109] Le Fal ra" ra" rar ra" ra!" rar ra" 
[127] Lie Li mor rc" LS AL ro Le Lu rer" ra!" 
[145] ra" "cr" Ar Lil rc" eg rc" ir (il ra" L 
[163] "a" rt" rc ra" ra" rc" Le AL "ag" 
[181] LT ra" rc" ur Li ra!" fra" Lu Mid ra!" L14 
[199] ra" rar rer ra" LE PLUS Le ALU dr La "cr" 
[217] ra" ro mor "rar "er cr "cr ral 
[235] LT ra!" rt" LT LU Qu r Li rc" CS ALU LE PLUS 
[253] rc" rer Le ALU rar rar rar rar LS PL 
[271] rar rer rer CA PLU rer rc" rar rar" 
[289] rt" rte rte ro ro rc" LS ALU ra!" L14 
[307] rar rt" Le AU "cr rar ra! aie rar 
[325] Le ral Le LU rc" ra! fra" "rar Dur LH 
[343] rt" LE PLU rt" rc" ra!" ra" ro ra!" 


[Il 


On extrait quelques petites informations élémentaires autres: 
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__ Fichier Edition Voir Misc Packages Fenêtres Aide 


EROIBCEÈIDIE 


> length(dengue[[1]]) 
[1] 10735 
> seq_ Dengue<-dengue[[1]] 
> table(seq Dengue) 
segq_ Dengue 
a ô g t 
3426 2240 2770 2299 
> count (seq Dengue,1) 


a œ q nd 
3426 2240 2770 2299 
> count (seq_ Dengue,2) 


aa ac ag at ca ce co ct qa ge ga gt ta ar 
1108 720 890 708 901 523 261 976 500 787 440 497 
tq tt 
832 529 
> count (seq Dengue,3) 


aan aac aag aat aca acc 
368 237 280 203 294 176 
cag cat cca cec ccg cct 
227 203 236 106 60 121 
gcc gcg get gya ggc 
129 56 144 354 132 
tot tga tgc tgg tat 
134 218 133 321 160 


ou aussi: 
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R Fichier Edition Voir Misc Packages Fenêtres Aide 


> count (seq Dengue,1) 


a [a g t 
3426 2240 2770 2299 
> seq_Table<-count (seq Dengue,1) 
> seq_ Table[[3]] 


[1] 2770 
> seq_ Table 


a c g t 
3426 2240 2770 2299 
> seq_ Table[["g"]] 
[1] 2770 
> | 


Ou un petit graphique vite fait mal fait: 


FR R Console 


> pieitable(seg Dengue)) 
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Comme les G et les C impliquant des triples liaisons et donc des propriétés physico-chimiques 
parfois intéressantes: 


*4_P'THA_ = Adenine 
Thymine / EE 4 \ “deoxyribose 


"_/# Guanine 


\ 
Cytosine © + ann hese 
<= 


il peut être utile de connaître la proportion de leur présence: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> GC(seq Dengue]) 

[1] 0.4666977 

> #soit calculé à la main: 
> table(seg Dengue) 


seq_Dengue 
a (a q t 
3426 2240 2770 2299 
> (2240+2770) *100/sumitable(segq Dengue)) 
[1] 46.669777 
> | 
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Exemple 447.: Afficher l'image d'un microarray 
R 3.1.0 


Voici à quoi ressemble un microarray Affymetrix: 


APFYMETIUX, 
LL 


Genechip" 


Mouse 430 20 


Î : 1 6 e n e C h i F Mo us e 43 0 2 É 


01 ess PT 


NO 
Ÿ 
Shining a laser light at GeneChip® array causes 
TS gs = “4 


Mittions of DNA strands 
built up in each location 


6.5 million locations on 
each GeneChip® array Actual strand = 
25 base pairs 


Micro Array Features Detection 


Normalement les colonnes représentent des familles d'organes ou de fonctionnalités 
biologiques et les lignes des gènes: 
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TSCC normal 
<_O0OoMæ<xQ <OO0m< © 
Où D «+ OM CNP CN LL) ef O0 «— 00 10) ef + 
0 CO CN © 9 2e 0e O7 Pen Pan 09 CN © Poe 00 ef 09 . 
hhhbbbbhbbbbhhhhoo 1 00 
0.00 
1.00 
LE Tir 2.00 
3.0 
Et | E LA | 
hsa-miR-424 


hsa-miR-542-3p 
hsa-miR-455-3p 
hsa-miR-21 
hsa-miR-15b 
hsa-miR-7-1* 
hsa-miR-146b-5f 
hsa-miR-26b 
hsa-miR-454 
hsa-miR-192 
hsa-miR-28-5p 
hsa-miR-135b 
hsa-miR-148a 
hsa-let-7f 
hsa-miR-98 
hsa-miR-374a 
hsa-miR-96 
hsa-miR-183 
hsa-miR-7 
hsa-miR-34b 
hsa-miR-221* 
hsa-miR-494 
hsa-miR-486-5p 
hsa-miR-490-5p 
hsa-miR-375 


Ce rappel étant fait, passons maintenant à la pratique: 


FR R Console += 0-|55 
l. source {"http://bioconductor.org/hiocLite.R") 

Bioconductor version 3.0 (Bioclinstaller 1.16.2), ?bhiocLite for help 
> libraryi"affy") #installé avec la commande bioclite("affy") 
library("ALLMLL"i #installé avec la commande bioclite("ALLML") 
#ALLMLL pour: cute Lymphoblastic leukemia 

data(MLL.E) 

#on prend 6 microarray 

Data<-MLL.B[,c(1:6,13:14)] 

#on leur assigne des lettres 

sampleNames (Data) <-letters[1:6] 


> 
> 
-2 
> 
> 
> 
> 
> | 
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R k Console CRC ES 


> palette.gray<-c(rep(gray(0:10/10),time=seg(1,41,by=4))) 

> #image du microrray numéro 1 en échelle linéaire 

> image (Datal,1],transfo=function(x) x, col=palette.gray) 

> #image du microrray numéro en échelle logarithmique (par défaut) 
> windows {) 

> image (Datal,1],col=palette.gray) 


— 


R R Graphics: Device 2 (inactive) s | © | 
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Nous regardons les distributions d'intensité de nos 8 microarray pour voir s'il y en a qui sont 
significativement différents: 


R R Console 


#fexemple d'utilisation de la fonction boxplot du package affy 
library("RColorBrewer") 

cols<-brevwver.pal(8,"Set1") 

boxplot {(Data,col=cols) 


Il se semble qu'il y ait a priori une anomalie avec le microarray h. Nous pouvons investiguer 
cela un peu mieux avec un histogramme: 
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> hist (Data,col=cols,lty=1,xlab="Log (base 2) intensité") 
> legendi(12,1i,letters[1:8],lty=1,col=cols) 
> 


TQ D QT 


(=) 
<— 
co 
(en) 
ee 
(=) 
Eu 
(en) 
La 
(en) 
o 
o 


Log (base 2) intensité 


On voit qu'un des microarray a une distribution bimodale ce qui est souvent le signe d'un 
défaut de conception. 
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Lire et traiter un fichier Affymetrix *.CEL 


Nous allons charger un des fichiers *.CEL de génome humain (homo sapiens). Pour cela le 
fichier suivante de 1GB: 


L_} GSE2034 RAW_Homo_Sapiens.tar 


Qui après décompression contient: 


Nom 


L) GSM36777.CEL.gz 
L) GSM36778.CEL.gz 
L) GSM36779.CEL.gz 
L) GSM36780.CEL.gz 


TCONANCION PEL 


S1 nous décompressons un de ces fichiers, nous avons alors à chaque fois un fichier d'environ 
1MB: 


à GSM36777.CEL 


qui contient une fois ouvert avec NotePad++: 


LIT Ctmp\GSM36777.CEL - Notepad + [Administret] M nnn 


File Edit Search View Encoding Language Settings Macro Run Plugins Window 


METEO CEE ET 
EN GsM36777.cEL E 


[ICEL] 
2 Version=3 


4 [HEADER] 

5 Cols=712 

6 Rows=712 

7 TotalxX=712 

=, Totalÿ=712 

9 OffsetX=0 

10 OffsetY=0 

11 GridCornerUL=231 232 

12 GridCornerUR=4495 248 

13 GridCornerLR=4482 4518 

14 GridCornerLLl=217 4502 

15 Axis-invertX=0 

16 AxisIinvertY=0 

17 swapXY=0 

15 DatHeader=[0..42746] Wang4812 JA 277:CLS$=4733 RWS=4733 XIN=3 Y 
19 Algorithm=Percentile 
20 AlgorithmParameters=Percentile:75;CellMargin:2;OutlierHigh:1.500!; 


22  [INTENSITY] 
25 NumberCells=506944 

4 CellHeader=Xx Y MEAN STDY NPIXELS 
25 () 0 170.0 31.5 16 
6 


2 1 0 11867.8 1929.0 16 
27 2 0 171.8 36.6 16 
28 3 0 12064.0 2186.4 16 
29 4 0 108.5 19.4 16 
an € nacre an € 4€ 
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Ensuite, nous utilisons la fonction ReadAffy( ) : 


fi 
R & Console ES EE 


… 


> library(affy) 

> mydata <- Readiffyi) 
> image (mydata) 
> 


2 R Gragfsics: Device 2 (ACTIVE) 


a 


GSM36777.CEL 


S1 il y a un seul fichier *.CEL dans le dossier nous avons: 


2 R Console 


> library(affy) 

> mydata<-Readiffyi) 

> mydata 

iffyBatch object 

size of arrays=712x712 features (17 Kb) 
cdf=HG-U13321 (22283 affyids) 

number of genes=22283 
annotation=hgqu1i33a 

notes= 

> | 
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Mais si nous avons 3 fichiers *.CEL alors: 


> library(affy) 

> mydata<-Readiffy() 

> mydata 

iffyBatch object 

size of arrays=712x712 features (17 kb) 
cdf=HG-U133 (22283 affyids) 


mumber of samples=3 


number of genes=22283 
annotation=hqu133a 
notes= 
> sampleNames (mydata 
"GSM36777.CEL" "GSMH36778.CEL" "GSM36779.CEL" 


Comme ces fichier *.CEL correspondent respectivement à un unique microarray chacun nous 
pouvons faire aussi un histogramme de la fluorescence (nous le faisons brut de coffre): 


> hist (mydata) 


log intensity 
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et comme d'habitude nous pouvons faire un boxplot: 


KR & Console ER ES 


> boxplot (mydata,col=ci{ "Green", [fe lue” ,'"Red")) 


ER R Graphics: Device 2 (ACTIVE) 


GSM36777.CEL GSM36778.CEL GSM36779.CEL 


Nous pouvons avoir un petit résumé simplifié de notre jeu de fichier *.CEL: 


: 
FR R Console [s|e] Ex 


> e=exprs (mydata) 

> dimi(e) 

[1] 506944 3 

> #Ce qui correspond bien à 3 fois 712*712 probes 
> 712712 

[1] 506944 

> | 


Nous pouvons avoir le nom des gènes avec la commande geneNames( ): 
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> head(geneNames (mydata) ) 
[1] "1007 _ s at" "1053 at" 
| [CS] “1255 g at" "1294 at" 


"117 at" "121 at" 
> | 
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Exemple 448.: Lire des fichiers *.PDB (Protein Databank) 
R 3.2.1 


Voyons comment lire des fichiers *.PDB pour différents usages 


Représentation 3D d'une protéine avec choix des orbitales (ORTEP) 


Nous allons pour représenter cela“ simplement utiliser les fonctions read.pdb( ) et 
visualize() du package Rpdb: 


Le 


R R Console He (x) 


> library(Rpdb) : 
> x <- read.pdb("C:/tmp/PCBM ODCB.pdb") 
> visualize(x, mode = NULL) 
> 


Figure 343 Graph ORTEP (Oak Ridge Thermal Ellipsoid Plot Program) squelette 


Ou sous une forme légèrement différente avec le choix des orbitales (s,p,l,d,.….): 


#8 ORTEP est un acronyme qui signifie Oak Ridge Thermal Ellipsoid Plot 
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R R Console = te & 
> visualize(x, type = "s", radii = "rcov", mode = NULL) R | 
> 


Figure 344 Graph ORTEP (Oak Ridge Thermal Ellipsoid Plot Program) avec orbitales choisies 
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Diagramme de Ramachandran 
Suite à la demande d'une élève (le résultat peut être considérablement amélioré). 


D'abord on charge les packages Rpdb et bio3d nécessaires pour faire le tout (et MASS pour 
la partie statistique) et à l'aide de la fonction torsion.pdb() on extrait les angles: 


RR Console 


library (Rpdb) 

library(bio3d) 

library (MASS) 

pdb <- read.pdb( "c:/tmp/1ldm.pdb" ) 

HEADER OXIDOREDUCTASE (CHOH (D) -NAD (A) } 25-NOV-87 1LDM 

tor <- torsion.pdb{(pdb) 

head(tor$tbl) 

phi psi chi1 chi4 chis 

[1,] NZ -31852 NA NZ NZ NZ NZ 
E2;1 93011 . 59872 51051 Na NA Na Na 
E3,1 86952 95588 52729 -163.21317 NZ Na Na 
E£,1 62781 28400 72965 -139.98539 -153.8801 171.98798 NZ 
[5,] 29308 59464 31437 -13.53205 Na Na Na 
[6,] -80475 .04824 -26972 175.81591 162.1303 66.26194 Na 
| 


Une fois ceci fait nous combinons un ensemble de techniques variées utilisant la fonction 
smoothScatter() pour les couleurs de fonds, la fonction scatter.smooth( ) pour la régression 
LOESS et enfin kde2d( ) et contour() du package MASS pour les courbes de niveau: 


R R Console bsr)pon)(ne"] 


smoothScatter(na.omit(tor$phi), na.omit(tor$psi),xlab="phi",ylab="psi",pch = 1,bandwidth = 30, 
colramp = colorRampPalette(c{("white", "orange", "red")),main="Ramachandran plot") 

par (new=T) 

scatter.smooth(na.omit(tor$phi), na.omit(tor$psi),xlab="",ylab="") 

par (new=T) 

edl<-kde2d(na.omit (tor$phi), na.omit (tor$psi),n=100) 

contour (edl,main="Ramachandran plot", lwd=2) 


VYNVNNVYNVNN + NV 


“ 


Ce qui donne (voir page suivante): 
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Ramachandran plot 


Figure 345 Graph de Ramachandran 
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33. Traitement du Signal 


Le but de ce chapitre va être d'introduire les packages signal et rwave de R dans le domaine 
du traitement du signal en substitut de MATLAB, Octave ou autre. 
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Exemple 449.: Génération de signaux périodiques 
R 3.63 


Commençons par générer deux signaux périodiques simples: 


GR R Console [six] 
> xs <—- seq(-2*pi,2*pi,pi/100) 
> wave.l <- sin(3*xs) 
> wave.2 <- sin(10*xs) 
> par(mfrow = c(1, 2)) 
> plot(xs,wave.1l,type="l",ylim=-c(-1,1)); abline(h=0,1ty=3) 
> plot(xs,wave.2,type="l",ylim=c(-1,1)); abline(h=0,1ty=3) 
> 
| ne, st 
M R Graphics: Device 2 (ACTIVE se |x] 


wave. 
0.0 
wave.2 


6 4 2 0 2 4 6 


XS XS 


qui peut être combinée linéairement en une onde un peu plus complexe: 
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E N 


R' Æelx) 


> wave.3 <- 0.5 * wave.1 + 0.25 * wave.2 

> plot(xs,wave.3,type="l"); title("Eg complex wave"); abline(h=0,1lty=3) 
> 

Fr M 


M R Graphics: Device 2 (ACTIVE ee lEæ) 


Eg complex wave 


wave.3 


XS 


Joseph Fourier a montré que toute onde périodique peut être représentée par une somme 
d'ondes sinusoïdales simples. Cette somme est appelée la série de Fourier comme nous le 
savons. La série Fourier ne tient que lorsque le système est linéaire. S'il y a, par exemple, un 
certain effet de débordement (un seuil où la sortie reste la même quelle que soit la quantité 
d'entrée donnée), un effet non linéaire entre dans l'image, brisant l'onde sinusoïdale et le 
principe de superposition: 
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E 


R K Console EE 
> wave.4 <-—- wave.3 

> wave.4[wave.3>0.5] <-— 0.5 

> plot(xs,wave.4,type="l",ylim-c(-1.25,1.25)) 

> title ("overflowed, non-linear complex wave") 

> “RL 

> 


overflowed, non-linear complex wave 


o 
T— 
Lu 
o 
Ts 
2 o 
5 © 
EA 
1 
o 
Ol 
o 
L oi 
! 


On peut aussi s'amuser à construire un signal typique d'une somme de Fourier: 
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M A Console 


> repeat.xs<-segq(-2*pi,0,pi/100) 

> wave.3.repeat<-0.S#sin(3*repeat.xs) + 0.254sin(i0*repeat.xs) 
> plot(xs,wave.3,type="1l"); 

> title ("Repeating pattern") 

> points (repeat.xs,wave.3.repeat,type="l",col="red"); 

> abline(h=0,v=c(-2*pi,0),lty=3) 
> 
R 


R Graphics Device 2 (ACTIVE) 


Repeating pattern 
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Exemple 450.: Convolution discrète 
R 342 


Nous commençons avec une convolution discrète linéaire simple histoire de reproduire celle 
étudiée dans le cours théorique en utilisant la fonction conv() du package signal: 


rE 

> library("signal") 

> E<-Et3,2,;1) 

> g<-c(2,1,3) 

> convi(f,g) 

[1], 6 7 13 7 3 

> plot(conv(f,g),col = "blue", pch = 16) 
> par (new=TRUE) 

> plot((convi(f,qg), type="h") 

> grid) 


On retombe bien sur le résultat du cours théorique! 
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Il y a bien évidemment à traiter dans les grands classiques, la convolution discrète de deux 
gaussiennes en utilisant toujours la fonction conv() du package signal: 


e 


R [= oO | x 
> library("signal") 

> x<-seq(-100,+100,by=0.1) 

> Ni<- dnorm(x,mean=5, sd=20) 

> N2<- dnorm(x,mean=10, sd=3) 

> plot(x,Ni,col = "blue", pch = 16,xlim=c(-200,200),ylim=c(0,0.25),ylab="'") 

> par (new=TRUE) 

> plot(x,N2,col = "green", pch = 16,xlim=c(-200,200),ylim=c(0,0.25),ylab="'"}) 

> par (new=TRUE) 

> x<-seq(-200,+200,by=0.1) 

> plot(x,conv(Ni,N2),col = "red", pch = 16,xlim=c(-200,200),ylim=c(0,0.25),ylab="'") 
> grid({() 

> | 

< > 


o 

[NI 

o 

e 

o 

o 

o 

o T T T T T 
-200 -100 0 100 200 

X 


Figure 346 Graph convolution de signaux 
Donc là encore, on tombe sur le résultat attendu en conformité avec le cours théorique! 


Une autre approche beaucoup plus courte consiste à utiliser les fonctions convpow() et d() 
du package distr: 
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R R Concole | C) 23 
> library(distr) 
> N <-— Norm(mean=5, sd=20) 
> L <-— Norm(mean=10, sd=3) 
> conv <- convpow(L+N,1) 
> £.Z <- d(conv) 
> z <— seq(-200,200,0.01) 
> plot(z,f.Z(z),lty=2,col="red") 
Si 
R : mu - os | Q | à 
[= 
ri 
oO 
o 
[re] 
= 
o 
— © 
© S 
SN 
[re] 
[=] 
o 
o 
Oo 
O 
Le) 
o 
-200 -100 0 100 200 
Z 


Ou mon approche préférée car elle met en évidence l'intégrale de convolution et n'utilise 
aucun package: 
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R RGui (64-bit) - [R Console] — 


ŒR File Edit View Misc Packages Windows Help IE: 


ESOSCE 


VVNVVVVNVVVNVNNVNNNVNNVNNNVNYV 


#On fait la convolution sous forme d'intégrale numérique 

£.X <- function(x) dnorm(x,5,20) 

£.Y <- function(y) dnorm(y,10,3) 

# intégrale de convolution explicite 

£.Z <- function(z) integrate(function(x,z) f£f.Y(z-x)*f.X(x),-Inf,Inf,z) Svalue 
£.Z <- Vectorize(f£f.2Z) 


#On le fait sous forme probabiliste 
X <- rnorm(1000,5,20) 

Y <-—- rnorm(1000,10,3) 

8 <= X+7Y 


#On compare les méthodes 

hist(Z, freq=F,breaks=50, xlim=c(-200,200)) 
z <- seq(-200,200,0.01) 
lines(z,f.Z(z),1ty=2,col="red") 


Ce qui donne: 


MR Graphics: Device 2 (ACTIVE) 


Histogram of Z 
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Enfin le dernier cas d'application majeur est la convolution utilisée comme fenêtre de filtrage 
en finance. Considérons 


Ne 
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Exemple 451.: Spectrogrammes 
R 3.5.1 


Nous allons voici ici comment afficher différents spectrogrammes d'un signal provenant 
(exemple particulier!) d'un fichier son. 


Pour cela, nous utiliser le package tuneR et sa fonction read Wave( ) pour extraire quelques 
informations du fichier wave importé: 


R File Edit View Misc Packages Windows Help 


library("tuneR") 

data<-readWave ("c:/tmp/Music JamesBond.wav") 
# extraction du signal 

snd<-data@left 


# déterminer durée 

dur<- length (snd) /data@samp.rate 
dur # secondes 

1] 32.50012 


VV VV VV NN NV 


> # déterminer fréquence d'échantillonage 
> fs <- data@samp.rate 


> fs + Hz 
[1] 8000 
> 


Avant de voir les spectrogrammes, regardons à quoi ressemblent les 32 secondes du canal 
gauche simplement dans un premier temps: 
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L 
R S|g|x 


V 


#premier plot 
plot(snd, type = 'l', xlab = "Samples', ylab = "'Amplitude') 


V 


R a | Or & 


Amplitude 
0 10000 20000 
L L 1 


-10000 
L 


-20000 
L 


T T T T T T 
0 50000 100000 150000 200000 250000 


Samples 


Maintenant commençons par un premier spectrogramme avec la fonction spectrogram( ) du 


package phonTools: ‘ S 
à So |Q' | x ] 
> library("phonTools") 
> spectrogram(snd) 
R Ss | ox | 


5000 


Frequency (Hz) 
3000 4000 


2000 


1000 


0 


2000 4000 6000 8000 10000 


Time (ms) 


Figure 347 Graph spectrogramme de signal 1/3 
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Voyons maintenant un autre spectrogramme avec la fonction spectro() du package seewave: 


RE Console 


> library("seewave") 
> spectro(data) 


QU R Graphics: Device 2 (ACTIVE) CELLES 


Amplitude 
(dB) 
0 
listés } 
3 
-5 
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& 
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Figure 348 Graph spectrogramme de signal 2/3 


et un troisième spectrogramme avec le package ggplot2 et sa fonction ggspectro( ) : 
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f 


MR Console EEE 


> library("ggplot2") 

> v <- ggspectro(data, ovlp = 50) 

> v + geom tile(aes(fill = amplitude)) + 

+ scale fill gradientn(name="Amplitude\n(dB)\n", limits=c(-75,0), 
+ na.value="transparent", colours = spectro.colors(30)) 

Scale for '"fill' is already present. Adding another scale for 
“fill', which will replace the existing scale. 


MF Graphics: Device 2 (ACTIVE) EIRE] 


Frequency (KHz) 
LS] 


Bd mnt Là bus te dc dead ‘rt 


Time (s) 


Figure 349 Graph spectrogragfme de signal 3/3 (geplot) 
Ÿ 
et un quatrième spectrogramme avec la fonction specgram( ) du package signal: 


MR Console EE 
> library("signal") 1 
> specgram(snd) 
> 
MR R Graphics: Device 2 (ACTIVE) EEE 
ÈË DTA 
AA 
à héhé! 
| 4 U 
œ 
® Ms 
D 
P, 
+ © 
S Leur poid Ne Cet 
Re pen MSN ! 
AE AE EE TE 
o 
0 20000 40000 60000 80000 100000 120000 
time 
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Et voyons maintenant un dernier spectrogramme avec la fonction FTGramlmage() du 
package hht: 


R RGuï (64-bit) - [R Console O 


R File Edit View Misc Packages Windows Help - 8x 


SFUFECeE | 


> library("hht") 

> dt <- mean(diff(snd)) 

> 

> ft <- list() 

> ftSnfft <- 4096 

> ft$ns <- 30 

> ft$nov <- 29 

> 

> time.span <- c(0, 30) 

> freq.span <- c(0, 30) 

> amp.span <- c(0, max(snd)) 

> FTGramimage(snd, dt, ft, time.span = time.span, freq.span = freq.span, 
+ amp.span = amp.span, pretty = TRUE, img.x.format = "%.1£", 
+ img.y.format = "$.0f", 

+ main = "James Bond - Fourier Spectrogram") 


Adjusting Time and Frequency limits to nice looking numbers (the "pretty" option is currently set to TRUE) 
Warning message: 
In FTGramimage (snd, dt, ft, time.span = time.span, freq.span = freq.span, 
nina maximum frequency is higher than the Nyquist frequency. 
> 


Ce qui donne: 


James Bond - Fourier Spectrogram eo 
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Figure 350 Graph spectrogramme de Fourier 
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34. Équations différentielles ordinaires ou partielles 


Il peut paraître curieux qu'un logiciel initialement dédié aux statistiques pures fasse de la 
résolution d'ODE et PDE mais bon... comme avec un langage de script 1l est possible de faire 
beaucoup de chose alors pourquoi pas (cela vaut probablement mieux que de le faire dans un 
tableur). 


Nous allons ici présenter la syntaxe pour résoudre et représenter les équations différentielles 
que nous avons démontrées dans le cours théorique. À chaque équation différentielle sera 
dédiée un exercice. 


Exemple: Équations de Lotka-Volterra 
R 3.1.0 


À une variante de notation près au niveau des variables par rapport au cours théorique nous 
avons pour ce système d'ODE: 


R R Console FR | © (a) 
> library(deSolve) 

> 

> LotYmod <- function (Time, State, Pars) { 

+ with(as.list(c(State, Pars)), { 

+ dx = xfalpha - betafxfy 

+ dy = -yfganma + deltafyfx 

+ return(list(cidx, dy)j)) 

+ }) R 

F1 

> 

> Pars<-cialpha=2,beta=0.5,gamma=0.2,delta=0.6) 

> State<-c(x=10,y=10) 

> Time<-seqg(0,100,bvy=1) 

> 

> out<-as.data.frame (ode (func=LotVmod,y=State,parms=Pars,times=Time)) 

> 

> matplot(out[,-1] ,type="l",xlab="time",vlab="population") 

> legend{("topright",c{("Cute bunnies","Rabid foxes")j,lty=c(1,2),col=c(1,2) ,box.lwd=0) 
> 


Ce qui donne: 
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Exemple: Compétition des faucons et colombes 
R 3.4.1 


D'abord, nous allons devoir télécharger le package ici manuellement: 


http://faculty.umb.edu/liam.revell/programs/ 


Une fois ceci fait, nous le chargeons manuellement dans R: 


Fe RGui (64-bit) - [R Console] = Ü 
ŒR File Edit View Misc Packages Windows Help - 
| Load package... 
A NN | Set CRAN mirror... 
j | Select repositories.. 
Install package(s)... 
Update packages... 


Nous sélectionnons le fichier téléchargé: 
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| R Select files X 
€ *# GA « R > Exercices >» Bioinformatique v OU Search Bioinformatique P 
Organize + New folder EE: + [IN Q@ 
BF Videos # " Name L Date modified Type Sil 
& Dropbox [B GSE2034 RAW_Homo_Sapiens 2015-12-2205:43 … File folder 
L] Tdm.pdb 1995-06-12 18:40.  PDB File 
ne L] CerveauDICOM.dem 2002-11-20 15:02...  DCM File 
EM This PC _°] GSE2034_RAW_Homo_Sapiens.tar 2015-04-05 20:04 …  TAR File 
EMI Desktop [| GSM36777.CEL 2003-08-11 19:00.  CEL File 
5 [| PCBM_ODCB.pdb 2015-12-01 12:11...  PDB File 
|] popgen_O.2tar.gz 2016-11-1112:13…  GZ File 
+ Downloads . 
|] sequence.fasta 2014-08-17 14:35...  FASTA File 
À Music 
=! Pictures Ni FE 5 
File name: | popgen_0.2.tar.gz v| !Allfiles (*.*) ss 
| Open | | Cancel 


Ce qui donnera: 


| R RGui (64-bit) - [R Console] — X 
R File Edit View Misc 53 Windows Help EF x 


> utils:::menuInstallLocal() 

* installing *“source* package ‘'popgen' ... 
LE R 

** preparing package for lazy loading 

** help 

*** installing help indices 

** building package indices 

** testing if installed package can be loaded 
*** arch - i386 

*** arch - x64 

* D (popgen) 

> 


Nous définissons la matrice des gains: 
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R 
& File Edit View Misc Packages Windows Help . EF X 


ÉROISOSIOIE 


> library("popgen") 
> payoff<-matrix(c(0.6,2.0,0,1.0),2,2,byrow=T) 
> colnames (payoff) <-rownames (payoff) <-c("hawk","dove") 


> payoff 

hawk dove 
hawk 0.6 2 
ldove 0.0 1 


|> hawk.dove (M=payoff,time=50) 
Pay-off matrix: 
hawk dove 
hawk 0.6 2 
dove 0.0 1 


La matrice de gains ci-dessus peut être conceptualisée comme le résultat d'interactions 
concurrentielles pour les ressources (par exemple, dans un affrontement compétitif entre un 
faucon et une colombe, le faucon reçoit 2 unités de ressources et la colombe n'obtient rien). 


Chaque résultat est donné par un graphique à deux panneaux. Le panneau supérieur montre 
les changements dans les fréquences relatives dethaque stratégie dans le temps. Le panneau 
inférieur montre l'état de santé moyen de la population sur la même période. Ainsi, par 
exemple, voici le résultat en utilisant la matrice de paiement donnée ci-dessus pour 50 
générations avec une fréquence initiale de f(faucon) = 0,01 et f(colombe)= 0.99: 


Le 


R | |x 


frequency 


00 02 04 06 08 10 


time 


20 
L 


mean fitness 
1 


05 
1 


time 
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Le résultat ci-dessus peut être interprété comme suit: la stratégie des faucons est très efficace 
lorsqu'elle est rare. Cela converge vers une valeur statistique, ce qui suggère que la stratégie 
des faucons est évolutivement stable (un ESS). L'efficience de la stratégie est la plus élevée au 
début de la simulation, de même que l'efficience moyenne de chaque stratégie (c.-à-d., Les 
faucons sont plus forts quand ils sont rares); Cependant, la forme moyenne diminue dans le 
temps jusqu'à un niveau d'équilibre de 0.6. L'aptitude de la stratégie de la colombe approche 
zéro lorsque les colombes sont rares, ce qui suggère que la stratégie de la colombe n'est pas 
évolutivement stable dans ce paramétrage de modèle. 


Considérons maintenant la matrice de gains suivante: 


R 
| 8 File Edit View Misc Packages Windows Help 

à || À ”» 
> payoff<-matrix(c(0.6,1.5,0.5,1.0),2,2,byrow=T) 
|> colnames (payoff) <-rownames (payoff) <-c("hawk",'"dove") 
> payoff 

hawk dove 

hawk 0.6 1.5 
dove 0.5 1.0 


> hawk.dove (M=payoff,time=50) 
Pay-off matrix: 


hawk dove 
hawk 0.6 1.5 
dove 0.5 1.0 


Ici, les colombes reçoivent des gains même lors de rencontres avec des faucons (peut-être, par 
exemple, l'agression des faucons est échangée contre une capacité à trouver de la nourriture. 
Les colombes trouvent les ressources alimentaires de manière plus efficace et peuvent manger 
avant que les faucons arrivent.) Cette matrice de paiement modifiée protège-t-elle les 
colombes contre l'extinction”? 


Cela donne: 
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L 


R 


frequency 


00 0.2 04 06 08 10 


time 


15 
L 


10 


mean fitness 


0.5 


0.0 
# 


time 


La stratégie de la colombe va encore dans le sens d'une extinction, mais le temps d'extinction 
est beaucoup plus long. 


Essayons une matrice de gains dans laquelle les coûts de l'agression entre les faucons 
augmentent encore, disent à 60% de la valeur de la ressource (de sorte que l'aptitude physique 
d'un faucon dans une interaction faucon- faucon;sit de 0.4). Cela correspond à la matrice de 
paiement gain suivante: 


&@ File Edit View Misc Packages Windows Help = FX 


> payoff<-matrix(c(0.4,1.5,0.5,1.0),2,2,byrow=T) 
|> colnames (payoff) <-rownames (payoff)<-c("hawk","dove") 
> payoff 
hawk dove 
lhawk 0.4 1.5 
dove 0.5 1.0 
> hawk.dove (M=payoff,time=50) 
Pay-off matrix: 
hawk dove 
hawk 0.4 1.5 
dove 0.5 1.0 


Ce qui donne: 
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L 


R 


frequency 


00 02 04 06 08 10 


time 


15 
L 


10 


mean fitness 


0.5 


0.0 
# 


time 
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Exemple: Équations de Lorenz 
R 3.1.0 


À une variante de notation près au niveau des variables par rapport au cours théorique nous 
avons pour ce système d'ODE: 


library(desolve) 
chaos <- functioni(t, state, parameters) { 
vith(ias.list(c(istate)), { 
dx <- -8/3 * x + y * z 
dy <— -10 * (y -— 2) 
dz <- -x * y +28 * y - z 
lListicidx, dy, del) 
}) 
} 
yini <= cix = 1, v = 1, z = i) 
times <- segq(0, 100, 0.01) 
out <- ode(y = yini, times = times, func = chaos, parms = 0) 
plotiout[,"x"]l,out[,"v"],pch = ”.",main="Lorenz butterfly",xlab="x",vlab="v") 


> 
> 
+ 
+ 
+ 
+ 
h 
+ 
+ 
> 
> 
> 
> 
> 


Ce qui donne: 
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Lorenz butterfly 
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35. Scripting (fichiers *.R) 


D'abord un petit rappe concernant les raccourcis clavier: 


Ctrl+L efface le contenu du terminal 
Ctri+R exécute la ligne de script actif 
Ctrl+S sauvegarde le fichier de script actif 
F5 exécute tout le fichier de script actif 


Le raccourci clavier pour exécuter une ligne ou un bloc sélectionné est Ctri+R sinon pour 
appeler un fichier .R et l'exécuter on utilisera la commande source ) . 


Ensuite quelques rappels: 


Utilisez la nomenclature de Leszinsky-Reddick pour le nommage de vos variables 


Commentez massivement vos scripts! 


Utilisez tant que faire ce peut“ pck::Nom_ Fonction plutôt que juste Nom_Fonction 
(mais attention ce sera au détriment de la performance”°!) 


Écrivez avec une orientation la plus fonctionnelle possible afin de pouvoir faire des 


tests unitaires 
S 
Conservez vos scripts de tests (pour reproduction par des tiers) 


N'oubliez pas la fonction set.seed( ) pour faire des tests reproductibles 


Enfin, une proposition, pour la structure de dossiers et fichiers de vos projets, organisez-vous 
de la manière suivante: 


myProject 


Report 


CS 
FE Briefing.pdf 
requirements.pdf 


Docs 


5 : 


Data 


F — à 
rawData 


Raw 


= AN 


Plots 


Basic folder structure for typical analysis projects 
with Rstudio 


% Mais c'est un conseil personnel. Chacun ses habitudes et ses envies! 
#0 Effectivement le package étant appelé à chaque fois… 
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Exemple 452.: Créer/Éditer un fichier R en ligne de 


commande 
R 3.1.3 


Pour créer un fichier de script en ligne de commande dans le dossier de travail par défaut, on 
utilisera file.create( ) : 


R RGui (64-bit) - [R Console] — [ X 
KR File Edit View Misc Packages Windows Help 6x 


> file.create("monscript.R") | 


Ensuite pour l'éditer nous écrirons en ligne de commande la fonction edit( ) ou file.edit( ) : 


R RGui (64-bit) - [R Console] — O X 


R File Edit View Misc Packages Windows Help _|F|x 


> edit (“monscript.R" | 


Pour vérifier si un fichier existe on utilisera la commande file.exists( ) : 


R RGui (64-bit) - [R Console] — 0 X 


R File Edit View Misc Packages Windows Help 


> file.exists("monscript.R") 
[1] TRUE RW 
> | 
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Pour exécuter un script on utilisera la commande source( ): 


© RGui (64-bit) - [R Console] 


R File Edit View Misc Packages Windows Help 


ROSE SEIE 


> source ("c:/tmp/monscript .R")| 


W 
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Exemple 453.: Faire une expérience aléatoire binaire 
R 3.02 


Nous tirons à pile ou face et regardons s'il y égalité entre les piles et les faces: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> experience<-sample(c("P","F"),100,replace=T) 
> experience 
[1] ss Lu "Fr" Fr" "Fr" "rp" "Fr" pr" "Fr" "pr Fr" 

[19] pr" Fr" vp" Fr" "pr" pe Fr" Us Lu LS LU rrp" 
[37] Fr" "pr LS Le LS er" "pr Fr rp" LS 
[55] pr pe pr ep" Le "pr LS pr Fr" LS 
[73] Fr" ep" er" ep" rrp" ep" "rp" Ls LU wp" Fr" 
[91] LS Lu Fr" LS Fr" rp" er" Le Fr Le "pr" 

> ndp<-sum(experience=="p") 

> ndf<-sum(experience=="F") 

> resultat<-ifelse (ndp==ndf, TRUE, FALSE) 

> resultat 

C1] FALSE 

> | 


._. He ; : «C . ; 
Souvent il n'y aura pas égalité (logique) mais nqù savons cependant que la pièce n'est pas 
truquée. Alors bon combien de fois avons nous la non égalité si nous répétons souvent ce test? 


KR Fichier Edition Voir Misc Packages Fenêtres Aide 


bcpexp<-function(nexp=1000) { 
res<-logical(nexp) 

forii in l:nexp){ 
x<-sample(c(i"P","F"),100,replace=T) 
res[i]<-ifelse(sum(x=="P")==50,T,F) 


} 
return(sum(res)) 
} 

nok<-bcpexpi{) 
nok 


VOVOH HET + HV 


[1] 74 
> | 


Donc 74 fois sur 1'000 l'hypothèse nulle comme quoi la pièce est non truquée est juste, le 
reste du temps elle est fausse. Donc nous avons un risque de première espèce d'environ 
a = 93% de rejeter à tort l'hypothèse nulle. 
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Supposons que maintenant la pièce soit légèrement truquée: 


R Fichier Edition Voir Misc Packages Fenétres Aide 


bcpexp<-function(inexp=100,probaP=0.55)t{ 

res<-logicalinexp) 

for(i in i:nexp){ 

x<-sample(c("p","F") ,100,replace=T,prob=ci(probaP,1i-probaP)) 
res[i]<-ifelse(sum(x=="P")==50,T,F) 


} 

returnisum(res)) NS 
} 

nok<-bcpexpi) 

nok 

[1] 7 

> | 


> 
LT 
+ 
+ 
+ 
+ 
& 
pu 
> 
> 


Donc sur 1'000 expériences d'une pièce truquée, notre test à décidé 7 fois à tort que 
l'hypothèse nulle était vraie à tort et 993 fois qu'elle fausse à raison. Nous avons donc un 
risque de deuxième espèce de 8 = 0.007% 


K 
Ne) 
<Ÿ 
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Exemple 454.: Portée des variables 
R 3.0.2 


Dans tout langage de script ou de programmation la notion de portée des variables est 
importante à comprendre et dans certains cas très importante à utiliser. 


Considérons d'abord l'exemple classique ci-dessous le plus simple: 


FR R Console [= | © (ss 


X<—3 
y<-2 
superissignementDemo<-function(x){ 
X<—X+1 
print {y} 
} 

superissignement Demo (x) 
1] 2 


VV MN +++ VV V 


x 
1] 35 


àa7 


Nous remarquons que la fonction est capable de lire la variable y qui est à l'extérieur de son 
domaine de définition bien que cette même variable ne soit pas passée en tant qu'argument. 
Ensuite, nous remarquons aussi que la fonctiomh'est pas capable de modifier la variable x qui 
se trouve à l'extérieur de son domaine de définition puisqu'avant et après x vaut toujours 3. 


Il faut voir maintenant comment nous pouvons écraser la variable x au-delà de la fonction 


elle-même. Pour cela, la première méthode consiste à utiliser l'opérateur de superaffectation 
<<: 


R & Console Ss|g|Xx) 


X<=3 
superissignementDemo<-function(x){ 
X<<-x+1 

} 

superissignement Demo (x) 


11 #4 


VV +H+V V 


ou en utilisant la fonction assign( ) : 
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X<-3 
superissignementDemo<-function(x}){ 
assign("x",x+1,pos=.GlobalEnv) 

} 

superissignement Demo (x) 


> 
> 
+ 
+ 
> 
> 
[ 
> 


R 
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Exemple 455.: Comprendre les structures conditionnelles 
R 3.0.2 


Structure conditionnelle 7f...else 


La structure conditionne if... else. ne peut opérer que sur un unique attribut (donc pas 
applicable sur l'ensemble des attributs d'un vecteur). 


Un cas classique dans R consiste dans les scripts à vérifier si un package est installé ou non: 


Nous allons donc créer un nouveau script: 


R{Fichier) Edition Voir Misc Packages Fenêtres Aide [= | 
Sourcer du code R... | 
Nouveau script [ 
Od®rir un script... 
Afficher le(s) fichier(s).… 


Charger l'environnement de travail... 


Sauver l'environnement de travail... 


Charger l'historique des commandes. 


Sauver l'historique des commandes. 
Changer le répertoire courant... 


Imprimer... 


Sauver dans le fichier... 


Sortir 


Et nous écrivons: 


Gui (64-bit) - [CA 
R Fichier Edition Packages Fenétres Aide 


if(!'is.element {"quantmod",installed.packages()[,1])){ 
install.packages ("quantmod") 
}else{ 


print ("package quantmod déjà installé") 
#et on charge la libraire 
library(quantmodi) 


Ensuite, nous enregistrons notre fichier en tant que fichier script (pouvant contenir plus qu'une 
fonction): 
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Nom du fichier : 


Type: |Rfiles (*.R) 


* Parcourir les dossiers 


Une fois ceci fait nous pouvons charger et utiliser le script: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> source("C:/MyScripts.R") 
[i] "package quantmod déjà installé" 
> | 


Nous un premier exemple avec la structure conditionnelle ifelse( ) qui est très souvent utilisé 
pour opérer directement sur l'ensemble des attributs d'un vecteur: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> setwd{("C:/") 

> mydata<-read.csv("VentesClean.csv",header=T,sep=";:") 
> sumimydataf$PrixTotalivecRabais) 

[1] 2047515 


> #Remise de gros supplémentaire de 5% au delà de 20'000. 

> mydata$PrixTotalivecRabais<-ifelse (mydataf$PrixTotalivecRabais>-20000, 
+ mydata$PrixTotalivecRabais*0.95,mydata$PrixTotalivecRabais) 

> sumimydataf$PrixTotalivecRabais) 

[1] 1986663 

> | 


Et évidemment il est possible d'imbriquer des ifelse: 
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KR Fichier Edition Voir Misc Packages Fenêtres Aide 


> setwd("C:/") 
> mydata<-read.csv("VentesClean.csv",header=T,sep=":") 
|> sumimydata$PrixTotalivecRabais) 
[1] 2047515 
> #Remise de gros supplémentaire de 5% au delà de 20'000. 
mydatafPrixTotalivecRabais<-ifelse (mydataf$PrixTotalivecRabais>40000,mydata$PrixTotalivecRabais*O.90, 
ifelse (mydata$PrixTotalivecRabais>20000,mydata$PrixTotalävecRabais*0.95, 
mydata$PrixTotalivecRabais)) 
sumimydata$PrixTotalivecRabais) 
1] 1961668 


Le ifelse peut aussi être utilisé pour autre chose que de faire des calculs bien évidemment (par 
exemple renommer le contenu d'un vecteur-colonne) et ainsi de suite... 


Un autre exemple académique ultra connu et typique d'application des structures 
conditionnelles est de représenter graphiquement une marche aléatoire (mouvement 
brownien). Ce qui donne (il existe plusieurs manières d'écrire un tel script!): 


Lee ee EIRE 


R R Console Cat (ets 


plot (0:100,0:100,type="n",xlab="",vlab="") 
X<-y<-50 
points(50,50,pch=16,col="red",cex=1.5) 

for (il in 1: 10000) 4 
xi<-sample(c(1,0,-1),1) 
yi<-sampleic(1,0,-1),1) 
lines(c(ix,x+xi),c(v,y+vi)) 

X<-X+Xi 

y<-y+yi 

if(x>100 | x<0 |y>100 | y<0)j break 
} 


VHHRE+ERNVVY 


20 


( 20 40 60 80 100 


Attention! Certains professionnels de la programmation utilisent la technique de la "Guard 
Clause" qui permet de rendre le code beaucoup plus lisible plutôt que d'imbriquer des IF... 
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ELSE les uns dans les autres! La technique peut être illustrée par la figure suivante (qui n'est 
pas en R): 


Use guard clauses 


n doSomething() { doSomething() { 
($isUserActive) { F (!$isUserActive) { 
if ($isUserSubscribed) { new Error( 
($isPaidUser) { 
doSomething( ); 
{ Lf (!$isUserSubscribed) { 
w Error( ; new Error( 


{ 
Error( ; (!$isPaidUser) { 
ew Error( 
} 


w Error( 


doSomething( ); 


& 
K 
Ÿ 


Structure conditionnelle Switch  ° 


La structure conditionnelle est à peu près équivalente à la structure if à ce près que nous ne 
pouvons pas toujours faire de tests logiques complexes, que l'écriture est à résultat égal plus 
court qu'une structure if et que normalement à résultat égal le temps d'exécution d'une 
structure switch est toujours plus rapide en temps processus. 


Rappelons le principe: 
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Sciences.ch 


Switch 
expression 


—\ © —+ SE CES 


—#© —+ MEN 


Default 


pe a End switch 


statement 


| 


Voyons un petit cas classique qui consiste à faire un petit menu à choix exécutant certaines 


commandes en fonction du choix de l'utilisateur: 
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R Fichier Edition Voir Misc Packages Fenétres Aide 


> svitch(menu(ci"List letters", "List LETTERS")),letters, LETTERS) 


1: List letters 
2: List LETTERS 


Selection: | 


et si l'utilisateur fait un choix: 


RGui (64-bit) - [F 


R Fichier Edition Voir Misc Packages Fenêtres Aide 
= 
> svitch(menu(c{i"List letters", "List LETTERS"))j,letters, LETTERS) 


1: List letters 
2: List LETTERS 


Selection: 2 


[ 1] ra" rB rr LA es rr "D rr "rE rr "F rr mor v"H" rr HE rr "J rr "rx "L rr "Hd" Lg à Lu Qu e Lu "rl rr 
LL] For rR'" "sr PT y" La T y" rire eye ze 
> | 
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Exemple 456.: Comprendre les structures itératives 
R 3.0.2 


Les structures itératives ont elles aussi une place très importante dans R (comme dans tous les 
langages de toute façon!). 


Rappelosn le principe: 


Initialization 


| 
If condition is TRUE 
\4 


Body of loop 


If condition is FALSE 


Stop 


Considérons le cas où nous souhaiterions avec une identification rapide des lignes paires ou 
impaires d'un data frame: 


Nous allons donc créer un nouveau script: 
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R{Fichier) Edition Voir Misc Packages Fenêtres Aide 
\ Sourcer du code R... | 
Nouveau script l 
Od®rir un script... 
Afficher le(s) fichier(s).… 


Charger l'environnement de travail... 


Sauver l'environnement de travail. 


Charger l'historique des commandes. 


Sauver l'historique des commandes. 
Changer le répertoire courant... 


Imprimer... 


Sauver dans le fichier... 


Sortir 


Et nous écrivons notre premier exemple avec une boucle for( ) : 


R Fichier Edition Packages Fenétres Aide 


| 


setwd({"C:/") 
mydata<-read.csv{("VentesClean.csv",header=T,sep=";"] 
#il faut créer l'objet avant sinon cela me marche pas 
lignes<-NULL 
for(i in i:nrowimydata)){ 

lignes<-cilignes,i %% 2) 


} 
ligne sl 


Ensuite, nous enregistrons notre fichier en tant que fichier script (pouvant contenir plus qu'une 
fonction): 


Nom du fichier : 


Type: |Rfiles (*.R) 
#* Parcourir les dossiers 


Une fois ceci fait nous pouvons charger et utiliser le script: 
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RGui (64-bit) - [R 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


[> source("C:/MyScripts.R") 
> lignes 


Ou encore l'instruction while() qui permet d'identifier par exemple à partir de quel moment 
une certaine somme est atteinte: 


71 Fichier Edition Packages Fenêtres Aide 


setwud("C:/") 
mydata<-read.csv{("VentesClean.csv",header=T,sep=";")] 
TotalCumule<-0 
i=i 
while (TotalCumule<=100000) { 
TotalCumule<-TotalCumule-mydata[i,9] 
i=i+i 


#pour ne pas faire planter si on arrive à la fin du data frame 
ifii==nrouw(mydata) ){ 

TotalCumule<-0 

break 


} 
} 
#on force l'affichage du total atteint 
#fet le nombre de lignes qu'on a du parcourir pour l'atteindre 
print (TotalCumule) :print(i)| 


et quand on exécute le script, nous obtenons: 
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RGui {64-bit} - [F 


R Fichier Edition Voir Misc Packages Fenétres Aide 


> source("C:/MyScripts.R") 
[1] 100403.2 

[ai ii 

> | 


IRIETE 
R Fichier Edition Packages Fenêtres Aide 


Sn OS | 


betwat"c:/") 
mydata<-read.csv("VentesClean.csv",header=T,sep=";:"] 
chercheTotal<-function(maxCherche){ 
TotalCumule<-0 
i=i 
while (TotalCumule<=maxCherche){ 
TotalCumule<-TotalCumule-mydatal[i,9] 
i=i+i 
#pour ne pas faire planter si on arrive à la fin du data frame 
ifii==nrowimydata) ){ 
TotalCumule<-0 
break 
} 
} 
#on affiche le total atteint 
#et le nombre de lignes qu'on a du parcourir pour l'atteindre 
print (TotalCumule) ;:print{i) 
} 


Ce qui donnera: 
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FR Fichier Edition Voir Misc Packages Fenêtres Aide 


> source("C:/MyScripts.R") 
> chercheTotal(10) 

[1] 19503 

LET 

> chercheTotali100) 

[1] 19503 

CET à 

> chercheTotal(1000) 
[1] 19503 

[1] 2 

> chercheTotal (10000) 
[1] 19503 

[1] 2 

> chercheTotal(100000) 
[1] 100403.2 

[1] 11 

> chercheTotal (1000000) 
[1] 1003156 

[1] 59 

> chercheTotal(i10000000) 
[1] © 

[1] 109 

> 


C4 


Ve) 
<Ÿ 
R se base principalement sur la manipulation de vecteurs et matrices donc plutôt que de faire 
des boucles parfois inutilement pensez vectoriel!!! Un exemple typique consistant à calculer 
la somme des carrés des erreurs d'un vecteur: 


R Statistical Software 2911/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


RGui (64-bit) - [RC 
R Fichier Edition Voir Misc Packages Fenêtres Aide 


ESIEIE 


> #inutilement compliqué avec une boucle 

> set.seedi{(1) 

> x<-runif(10, min=1000, max=2000) 

> x 

[1] 1265.509 1372.124 1572.853 1908.208 1201.682 1898.390 1944.675 1660.798 
[9] 1629.114 1061.786 

> moyenne<-mean(x) 

> for (i in 1:10) x[i]<-({x[i]-moyenne)*2 

> SSE<-x 

> sum(SSE) 

[1] 896744.7 

> 

> #pensé "vectoriel" 

> set.seedi{i) 

x<-runif(10, min=1000, max=2000) 

x 

[1] 1265.509 1372.124 1572.853 1908.208 1201.682 1898.390 1944.675 1660.798 

[9] 1629.114 1061.786 

> moyenne<-mean(x) 

> SSE<-(x-moyenne) “2 

> sum(SSE) 

[1] 896744.7 

> | 


> 
> 


W 
Ÿ 
Enfin gardez à l'exprit que les boucles peuvent'être utilisées pour générer des graphiques 


comme l'illustre l'exemple suivant qui utilise ggsave( ): 


R RGui (64-bit) - [R Console O 
R File Edit View Misc Packages Windows Help - ax 


EBOISOS NE 


> library("ggplot2") 

> datal'iris") 

> 

> # list of values to loop over 

uniq species = unique (iris$Species) 


# Loop 
for (i in uniq species) { 


temp_plot = ggplot(data= subset(iris, Species == i)) + 
geom point (size=3, aes(x=Petal.Length, y=Petal.Width )) + 
ggtitle(i) 


ggsave (temp _ plot, file=pasteO("plot ", i,".png"), width = 14, height = 10, units = "cm") 
} 


VER VVVVYVV 


Ce qui donnera: 
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plot_setosa.png plot_versicolor.png plot_virginica.png 


On peut avec les structures itératives créér les très demandées barres de progression comme 
l'illustrent les trois différentes appproches ci-dessous: 


> total <- 20 
> pb <- txtProgressBar (min = 0, max = total, style = 3) 


| | 0%> 
> for(i in 1:total){ 
+ Ssys.sleep(0.1) 
- setTxtProgressBar (pb, i) 
+ 3 

EEE | 30% 
> pb <- winProgressBar(title = "progress bar", min = O, 


+ max = total, width = 300) 

> 

> for(i in 1:total){ 

- Sys.sleep(O.3) 

+ setwinProgressBar (pb, i, title=paste( round(i/total*100, O0), 
+ "% done")) 


F3 


40 % done 


total <- 20 
pb <- tkProgressBar(title = "progress bar”, min = O, 
max = total, width = 300) 


for(i in 1:total){ 
sys.sleep(0.3) 
setTkProgressBar (pb, i, label=paste( round(i/tota1*100, O0), 
"% done"})) 


ENV HOVN 


{ progress bar + [] X 


30 % done 


requires tcltk 
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Exemple 457.: Programmer une bascule à moyennes 
R 3.0.2 


Comme premier script, nous allons écrire une fonction qui permet de calculer au choix la 
moyenne arithmétique, géométrique (ce qui nous évitera de faire appel au package psych qui 
contient une commande geometric.mean() pour la moyenne géométrique), harmonique et la 
médiane. 


Nous allons donc créer un nouveau script: 


R[Fichier] Edition Voir Misc Packages Fenêtres Aide 
Sourcer du code R... 
Nouveau script 
Odbrir un script... 
Afficher le(s) fichier(s)… 


Charger l'environnement de travail... 


Sauver l'environnement de travail... 


Charger l'historique des commandes. 


Sauver l'historique des commandes... 
Changer le répertoire courant... 


Imprimer... 


Sauver dans le fichier... 


Sortir 


et nous écrivons notre script pour découvrir par la même occasion la structure conditionnelle 
switch: 


KR Fichier Edition Packages Fenêtres Aide 


SOCCIE na 


central<-function(y,measure)t{ 
suitchimeasure, 
Mean=mean(y), 
Geometric=expimean(logiyi)lj, 


Harmonic=1i/mean(1l/y), 


Median-=-median(y), 
stop ("Aucune mesure indiquée")} 


Ensuite, nous enregistrons notre fichier en tant que fichier script (pouvant contenir plus qu'une 
fonction): 
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Nom du fichier : 


Type: [Rfiles (°.R) 


* Parcourir les dossiers 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> source("C:/MyScripts.R") 

> centralic(0.05,0.0475,0.0525)j ,'"Geometric") 
[1] 0.0499583 

> central(c(0.05,0,0.0525),'"Geometric") 

[1] © 

> central(c(0.05,-1,0.0525)j ,"Geometric") 

[1] NaN 

Message d'avis 

In logiy) : production de NalN 

> 


4 


Remarque: Certes ce bout de code est discutable car s'il y a une valeur négative ou nulle dans 
le vecteur, la moyenne géométrique va renvoyer une erreur (voir le cours théorique pour 
traiter de ces cas là). 
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Exemple 458.: Fonctions 
Programmer une fonction avec un paramètre en entrée renvoyant un 


tableau 
R 3.0.2 


Nous écrivons (en même temps c'est une jolie application de la commande sapply( ) ): 


Ce 


R Sans titre - Editeur R | =) | Œ) ER 


r.stat.hbasics<- function(x){ 
ln <— mean(x) 
n <- lengthix) 
3 <- sdix) 
skew <- sum((x-m)"3/s"3)/n 
kurt <- sumi(x-m)"4/s*4)/n - 3 
returnicin=n, mean=m, stdev=s, skew=skew, kKurtosis=kurt)) 


et nous testons: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


source("C:/myScripts.R") 

setwdi"C:/"] 
mydata<-read.csv("VentesClean.csv",header=T,sep=":") 
vars<-c{"Quantite","PrixTotalAvecRabais") 
sapply(mydata[vars],r.stat.basics) 


Quantite PrixTotalivecRabais 
n 109.000000 109.000000 
mean 8.110092 18784.544771 


stdev 6.314797 15122.273003 
skew 1.649741 2.143203 
kurtosis 2.839111 5.155884 
> | 
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Programmer une fonction avec plus d'un paramètre en entrée 
R 3.0.2 


Programmer une fonction R avec deux paramètres en entrée est très similaire à n'importe quel 
autre langage. Ce qui est drôle c'est de passer un vecteur à un des deux paramètres. 
Considérons l'exemple physique avec le couple Terre/Soleil et l'apogée et au périgée: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


Fg=function(mi,mz,r)t{ 
G<-6.67384E-11 
Gtmilfmz/r"2 

+ 


mTerre<-5.972E24 

mSoleil<-1.989E30 
distances<-c(152097701000, 147098074000) 
Fgimi=mTerre,mz=mSoleil,r=distances) 

1]  3.426771e+22 3.663670e+22 


VOMVNNNN+++V 


& 
Ou une fonction qui peut être utile dans la pratique en plus d'être instructive (à personnaliser 
selon les besoins) qui va authentifier dans un vecteur les positions d'une séquence continue de 
k éléments identiques (dans le cas présent il s'agit de "1"): 


KR Fichier Edition Voir Misc Packages Fenêtres Aide 


findruns <- function(x,k) { 
n <- lengthix) 
runs <- NULL 
for {i in 1:(n-k+1)j) { 


} 
returniruns) 


} 


> 
+ 
+ 
+ 
+ if (all(ix[i:(i+k-1)j]==1)) runs <- ciruns,i) 
+ 
+ 
+ 
> 


Avec une entrée cela donnera: 
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KR Fichier Edition Voir Misc Packages Fenêtres Aide 


> findruns <- function(x,k) { 

+ n <- lengthi{x) 

+ runs <- NULL 

+ for (i in i:in-Kk+1)j) { 

+ if (all(ix[i:(i+k-1)j]==1)) runs <- ciruns, i) 
+ } 

+ return(runs) 

+ 

> 


} 
Fe c(1,0,0,1,1,1,0,1,1) 
> findruns(y,3) 
C1] 4 
> findruns(y,2) 
[1] 458 
> findruns(y,6) 
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Programmer une fonction avec plus d'un paramètres en entrée et 


utilisant une liste 
R 3.0.2 


Il s'agit ici probablement du cas le plus courant dans les complications pratiques du logiciel. 


Nous créons le script suivant: 


basic.stats <- function(x,more=F) { 
stats <- list) 


clean.x <- x[!is.nai{x)] 


stats$n <- lengthi{x) 
stats$nNis <- stats$n-length(clean.x) 


stats$mean <- mean(clean.x) 

stats$std <- sdiclean.x) 

stats$med <- median(clean.x]) 

if (more) { 
stats$skew <- sumi((clean.x-stats$mean])/stats$std)"3)/lengthiclean.x) 
stats$kurt <- sumi((clean.x-stats$mean)/stats$std)"4)/lengthiclean.x)-3 

} 

unlist (stats) 

} 


2 


Ÿ 
Et nous le testons sans options dans un premier temps: 


> source({"C:/MyScripts.R") 
> basic.stats(c(45,2,4,46,44,65,NÀ,6,-213,-3,-45)) 
n nNis mean std med 


11.00000 1.00000 -4.90000 79.948505 S5.00000 
> | 


et avec options dans un deuxième temps: 


> basic.stats(c(45,2,4,46,44,65,NA,6,-213,-3,-45), TRUE) 
n nNis mean std med skew Kurt 
11.000000 1.000000 -4.900000 79.945051 S.000000 -1.636075 1.701595 


> | 
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Attention les paramètres peuvent parfois nécessiter une syntaxe spéciale pour pouvoir 
fonctionner comme l'illustre cet exemple avec ggplot2 (notez les accolades autour des 
variables dans la fonction!): 


El mm 


Lex) 


library("ggplot2") 


scatter plot2<-function(data, x, y)!{ 
ggplot (data,aes({{x}},{{y}}))+ 

geom point () 

} 


scatter_plot2 (mtcars,hp,mpg) 


VV HVVV 


IS KXx) 


10- 
100 200 300 
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Programmer une fonction avec un fichier texte en entrée 
R 3.0.2 


Ecrire une fonction qui prend un fichier texte en entrée est identique à écrire une fonction qui 
prend en entrée un scalaire ou un vecteur. 


Pour cet exemple, nous allons prendre un fichier texte simple et générer un objet de type liste 
dont chaque entrée correspondra à un mot se trouvant dans le fichier texte et nous associerons 
à chacune de ses entrées, un vecteur contenant la position des endroits où ce même mot a été 
trouvé. 


La fonction dans un premier temps est la suivante (prenez le temps de lire car c'est instructif!): 


FR Fichier Edition Voir Misc Packages Fenêtres Aide 


> findwuords <- function(tf) { 

+ #lit la source et met les mots séparés par un espace dans un vecteur 
+ txt <- scan(tf,"") 

+ wl <- list) 

+ for {i in 1:lengthi(txt)}) { 

+ wurd <- txt[i] # le i-ème mot 

+ wl[[wrd]] <- ciwl[[wrd]],i) 

+ } 

+ returni(iwl) 
+ } 

> 


Ensuite, nous utilisons la fonction: 


R Fichier Edition Voir Misc Packages Fenétres Aide | 


[= 


> words<-finduords("C:/Texte.txt"] 
Read 6958 items 
> | 


Un résumé de la liste nous donnera: 
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Sciences.ch 


RGui (64-bit) - 


LA 


R Fichier Edition Voir Misc Packages Fenétres Aide 


> words<-finduords("C:/Texte.txt"] 


Read 6958 it 
> str(wvords) 
List of 2539 
Site 
Internet 
créé 

le 

ler 

mai 

2002 

Le 
présent 


$ 


LD LD LD LD LD AD LD AN 


[Il 


es 


et un affichage complet (mais dont la capture d'écran est tronquée): 


Lib] » 


LD LD LD LD LD LD LD 7 


4 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


[a] 


> words 
$Site 
[1] 1 


$Internet 
[1] 2 
[12] 2008 


$créé 
Ci] 3 


$le 
[1] 4 
[12] 557 
[23] 1427 
[34] 2173 
[45] 2731 
[56] 3238 
[67] 3832 
[78] 4671 
[89] 5584 

[100] 6513 


$'ier” 
Lil S 


$mai 
[1] 6 


LL 


24 
642 
1463 
2209 
2737 
3243 
3883 
4683 
5708 
6516 


Ou pour un mot précis: 


426 


41 
705 
1471 
2252 
2755 
3251 
3891 
4712 
5850 
6543 


752 


86 
714 
14985 
2363 
2801 
3269 
4080 
4921 
5940 
6786 


8085 


194 

715 
1631 
2367 
2829 
3327 
4125 
4983 
5966 
6908 


952 1521 1585 1732 18468 1975 


217 

747 
1665 
2384 
2834 
3389 
4176 
4991 
6171 


240 

749 
1738 
2410 
2886 
3451 
4287 
4994 
6192 


428 

936 
1789 
2472 
2893 
3464 
4347 
5236 
62185 


439 
1060 
1891 
2478 
2995 
3467 
4469 
5334 
6228 


496 
1153 
1912 
2532 
3074 
3631 
4506 
5380 
6316 


s11 
1193 
2136 
2716 
3230 
3656 
4564 
5574 
6319 
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R Fichier Edition Voir Misc Packages Fenêtres Aide 


> words[["science"]] 
[1] 98 649 656 2776 2820 2847 2957 2966 3997 4009 4666 4673 


[13] 4804 5148 5280 5341 5354 5377 6346 6613 6743 6872 
> lengthiwvords[['"science"]]) 

Ci]: 22 

| 


et ainsi de suite avec toutes les techniques déjà étudiées pour les listes au début de cet e-book. 
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Programmer une fonction avec une fonction quelconque en entrée 
R 3.61 


Nous allons ici simplement reprendre l'exemple rencontré lors de notre étude des méthodes de 
Monte Carlo: 


R File Edit View Misc Packages Windows Help & xl 


Bee] 


> £ <- function(x) {x"2} 


intmonte<-function (f,a,b,N) { 
m<-round(max(f(a),f(b))*1E4) 
al<-round(a*iE4) 
bl<-round(b*1E4) 
p<-0 
for(i in 1:N){ 
isabove<-(f(runif(n=i,min=al,max=bl})/1E4)-runif(n=1i,min=0,max=m) /1E4) >=0 
if (isabove)!{ 
p<-p+1 
} | 
} | 
I<-(b-a) *max(£f(a),£(b))*P/N | 
return(I) 


VV+H++++++ +++ HV V 


> intmonte(f,0,3,10000) | 
[1] 8.8074 
> #le résultat exact étant | | 
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Programmer une fonction avec des arguments indéfinis 
R 3.2.1 


ToDo 


W 
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Surcharge de fonction dans l'espace de noms par défaut 
R 3.6.2 


L'exemple suffit à lui-même: 


R RGui (64-bit) - [R Console] L 


R File Edit View Misc Packages Windows Help |] /X 


| 


> foverride (surchage) de fonction dans l'espace de noms actif 
[> #(utilisation actuellement interdite dans les packages) 
> 
|> td'abord une somme classique 
> a<-1:9 
[> sum(x) 
ELF 5 
| > 


|> #on rédéfinit la somme 
[> sum<-function(x) {mean(x)} 
> sumi(x) 

[1] 5 

> 

> #bien... mais 

> base::sumi{(x) 

[1] 45 

> #donc 

> assigninNamespace ("sum",sum,ns="base") 
> base::sumi(x) 

EL 5 

> | 
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Calculer Pi avec la méthode de Monte-Carlo 
R 3.0.2 


Un grand classique qui a son utilité pour être étendu à de nombreux autres domaines dans la 
pratique (nous avons déjà vue un autre version de ce script lors de notre étude des méthodes 
de Monte Carlo bien plus haut!): 


pi.monte.carlo.plot <- function (n=10000, pch='.!', ...) { 
#on genere des points que dans le premier quadrant du cercle 
x <- runifi(n) 
y <=- runifi(n) 
fon regarde les points qui sont à l'intérieur 
interieur <- x°2 + y"2 <= 1 
p <- 4tsumiinterieur)/n 
#on génère un quart de cercle 
xc <- seq(0,1,length=200) 
yo <- sqrtil-xc*2) 
plot( xc, ve, type='l1! ) 
fun peu d'esthétique 
lises( éi9;1;:1,0;,0),; ci0,9,1t,1;-01 1) 
abline(h=0, 1lty=3) 
abline({v=0, lty=3) 
#on trace les points 
points(x{interieur], ylinterieur], col='red', pch=pch}) 
points(x[!'interieur], vl'interieur], pch=pch) 
title(main=paste({"Simulation de Monté Carlo : pi=",p,sep='')) 


> 
+ 
+ 
+ 
+ 
_ 
+ 
+ 
_— 
+ 
+ 
+ 
_— 
+ 
+ 
+ 
+ 
+ 
+ 
_ 
> 


— 


Avec la boucle pour faire tourner le script N fois: 


> N<-100 
> Lorii in 1:100)1 
D + pi.monte.carlo.ploti{i, pch='+!, cex=3) 
+ #fune petite pause pour que le lecteur puisse voir le résultat 


+ readline ("Press <return to continue") 


+ } 
Press <return to continuel 


Ce qui donne à chaque étape successive: 
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Simulation de Monté Carlo : pi=2.13333333333333 


yC 
04 0.6 0.8 1.0 


02 


0.0 


0.0 0.2 04 0.6 0.8 1.0 


XC 


Ou une façon plus amusante avec un indicateur d'avancement de calcul (très utilisé dans la 
pratique) combinant les commandes winProgressBar() et Sys.sleep( ) : 
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> N<-100 

+ EGÉLL in L:1D0)1 

+ total<-N 

#on regenère la barre de progression à chaque fois 

#car il n'y pas à ma connaissance de commande pour la forcer à rester 
#devant le graphique 

pb <- winProgressBar(title="progress bar",min=0,max=total,width=300) 
setWinProgressBar (ph, i, title=paste( roundii/total*100, 0j,"$ done")) 
Sys.sleepi(2) 

close(phb) 

pi.monte.carlo.ploti(i, pch='+', cex=3) 

#une petite pause pour que le lecteur puisse voir le résultat 


+ 
e” 
h 
_" 
+ 
& 
+ 
+ 
+ 
e” 


Signalons encore une autre approche qui montre la convergence du calcul mais utilisant cette 
fois-ci le disque en entier (et pas que le premier quadrant): 


XC 


> simulation = function(longii{ 
+ ce = rep(0,1long) 

+ numberIn = 0 

+ for(ii in i:longi{ 
+ x = runif(2,-1,1) 
+ ifisqrt(x[1]*x[1] + x[2]%x[2]) <= 1)j{ 
+ nuwmberIin = numberln + 1 
+ } 

+ prop = nuwmberln / i 
+ piHat = prop “4 

+ ci] = piHat 

+ } 

+ returnic) 

+ } 

> 
> 
> 
> 
> 
> 
> 


size=1000 

res=simulation(size) 

ini=i 

plotires[ini:size] ,type="l") 

lines (repipi, size) [ini:size],col="red") 


Ce qui donne: 
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R R Graphics: Device 2 (ACTIVE) EEE 


m 
@ 
N 
CS 
= 
8 

o 

(8) 200 400 600 800 1000 
Index 
NC 
ei 
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Exemple 459.: Optimisation de scripts 
R 3.0.2 


Dans les grosses applications, l'optimisation de scripts est un élément crucial (c'est un métier 
en soit par ailleurs). Voyons un joli petit exemple avec R qui consiste à calculer les 
différences (variations) éléments par éléments d'un vecteur par ordre d'apparition (certes il 
existe un package qui contient déjà cela mais bon c'est instructif quand même!). 


R Statistical Software 2931/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Vectorisation 


Nous créons d'abord un vecteur de taille relativement conséquente: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> n <— 250000 


> t <- sample(100, size = n, replace = TRUE) 
> | 


Maintenant faisons le code "au pire" qui consiste à générer un vecteur des différences avec 
une simple boucle: 


ÊTE RGui (64-bit) -[R C 
R Fichier Edition Voir Misc Packages Fenêtres Aide 


n <—- 250000 
t <- sample(100, size = n, replace = TRUE) 
d <- NULL 
system.time(for (i in 2:n) { 
d[i - 1] <- t[i] - t[i - 1] 
}i 
utilisateur système écoulé 
162.10 5.90 176.47 


> | 


Comme nous pouvons le voir. c'est même plus lent qu'un tableur. 


Mais nous pouvons faire mieux ne serait-ce qu'en créant le vecteur des différences avant la 
boucle: 
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n <- 250000 
t <- sample(100, size 
d <- NULL 


d[i —- 1] <- ti] 
}) 
utilisateur système 
Lo 10 5.90 
> d <- vector (length = 


> 
> 
> 
> system.time(for (i in 2:n) { 
+ 
+ 


= n, replace 


= ti = 11 


écoulé 
176.47 


n — i) 


> system.time(for (i in 2:n) { 
- t[i - 1] 


+ d[i —- 1] <- ti] 

+ })| 

utilisateur système 
3.14 0.00 


> | 


La différence est déjà phénoménale! 


Mais nous pouvons faire encore mieux en utilisant les capacités vectorielles de R: 


écoulé 
340 


NI 


TRUE) 
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RGui (64-bit) - [R 


> n <- 250000 

> t <- sample(100, size 
> d <- NULL 

> system.time(for (i in 2:n) { 

- t{i - 1] 


d[i - 1] <- tli] 
+ }) 
utilisateur système 
162.10 5.90 
d <- vector {length = 


= n, replace 


écoulé 
176.47 
n — 1) 


system.time(for (i in 2:n) { 


> 
> 
+ d[i - 1] <- t[i]l 
+ }) 
utilisateur système 
3.14 0.00 
> system.time(d <- t[-1 
utilisateur système 
0.06 0.00 
> | 


Comme quoi si la force de l'astuce est avec toi... maître de R tu seras... 


= ET = 1] 


écoulé 
3.20 
1. = SE 
écoulé 
0.06 
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TRUE) 


. SC _ : _. 
Statistiquement nous pouvons aller encore plus Site en utilisant le package natif compilé de R 


et sa fonction cmpfun: 


Gui (64-bit) - 


n<-250000 


d<-NULL 


t<-sample (100,size=n,replace=TRUE) 


system.time(d<-t[-1]-t{[-n]) 


utilisateur système 
0.03 0.00 
library(icompiler) 


écoulé 
0.03 


f<-function() d<-t[-1]-t[-n] 


cf<-cmpfun(f) 
system.time(cf()) 
utilisateur système 
0.01 0.00 


> | 


écoulé 
0.02 
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Dans le même genre sinon pour calculer la médiane de N échantillons 1.1.d de taille 7 dans un 
vecteur med avec une magnifique application de la commande apply( ) : 


KR Fichier Edition Voir Misc Packages Fenêtres 


n<-100000 
N<-1000 
med<-1:N 


system.tirme( 
forii in 1:N) {med[i]=quantile(rnormin,0,1) ,probs=1/2)} 
} 
utilisateur système écoulé 
59.22 2.90 66.50 


Alea<-matrix(rnorm(in*N,0,1) ,ncol=N) 


system.time( 
med<-apply(ilea,2,quantile,probs=1/2) 
l 

utilisateur système écoulé 
22.00 3.13 27.35 


++HVNVYVV 


RO 
Enfin signalons le package memoise et sa fonétion correspondante memoise() aussi 
applicable lors de la lecture de bases de données ou l'appel à des APT: 
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R «5 64-bit) - [R Console] _ 
R 


ile Edit View Misc Packages Windows Help = & 


library (memoise) 
£fib <- functioni(n) !{ 
if (n <2) !{ 
return(n) 
} else { 
return(fib(n-1) + fib(n-2)) 


} 
system.time(x <- fib(30)) 
user system elapsed 
7.00 0.03 7.29 
> fib <- memoise(fib) 
> system.time(y <- fib(30)) 
user system elapsed 
0.02 0.00 0.03 
> system.time(z <- fib(30)) 
user system elapsed 
0 0 0 
> fon vérifie 
> all.equali(x, y) 
[1] TRUE 
> all.equali(x, 2z) 
[1] TRUE 
>| 


VO + + + + + VV 


Nous pouvons aussi évaluer avec la fonction microbenchmark() du package. 
microbenchmark: 


MR RGui (64-bit) - [R Console = [me] 


ŒR File Edit View Misc Packages Windows Help D x 


> library("microbenchmark") 
> fib<-function(n) !{ 


+ if (n<2) !{ 

+ returni(n) 

+ } else !{ 

+ return(fib(n-1)+fib(n-2)) 
F } 


+ } 
> microbenchmark(fib(30)) 
Unit: seconds 
expr min lq mean median uq max neval 
fib(30) 1.172726 1.325276 1.500244 1.468328 1.642473 2.162776 100 
>: Pre effectué donc sur 100 exécutions (neval) 
> 
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Pré-allocations 


Parfois pour gagner en rapidité, cela vaut la peine de pré-allouer un vecteur (in extenso une 
matrice) ou une liste dans R. 


Voyons comment faire pour un vecteur et une matrice: 


| ŒR RGui (64-bit) - [R Console] 


4 Fichier Edition Voir Misc Packages Fenêtres Aide 


> vector<-rep(NA real , 10) 
> vector 
[1] NA NA NA NA NA NA NA NA NA NA 
> matrix<-matrix(NA real ,5,4) 
> matrix 
[,1] [,2] [,3] [,4] 

[1,] NA NA NA NA 

F2, 1 NA NA NA NA 

[3,] NA NA NA NA 
| [4,1] NA NA NA NA 
Pi NA NA NA NA 

> 


Et pour une liste c'est un peu plus subtil. .….: SC 


QŸ 


M RGui (64-bit 
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> liste<-vector (mode = "list", length = 3) 
> liste 
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Exemple 460.: Gestion des erreurs et des exceptions 
R 3.1.1 


Il est normalement inutile à ce niveau d'utilisation d'un logiciel informatique de préciser ce 
dont à quoi sert la gestion des erreurs et des exceptions puisque cela est au programme de 
première année. Nous allons donc voir simplement comment mettre en ouvre cela avec R en 
utilisant un exemple concret et fréquent faisant usage de la fonction tryCatch( ): 


#on reset les variables en mémoires pour ne pas biaiser l'exemple 
rmilist=1ls(all=TRUE)) 


#il faut mettre le trycatch dans une fonction 
readUrl <- function(url) { 
tryCatchi( 
{ 
# this is the try part 
message ("The 'try' part is run") 
bolError<-0 
mydata<-read.csv(url,header=T,sep=";")] 
}; 
error=function(cond) { 
message (paste ("URL does not seem to exist:", url)) 
message ("Here's the original error message:") 
message (cond) 
# Choose a return value in case of error 
bolError<-1 
}; 
warning=function(cond) { 
message (paste ("URL caused a warning:", url)) 
message ("Here's the original warning message:") 
message (cond) 
bolError<-1 
}z 
finally={ 
# Here goes everything that should be executed at the end, 
# regardless of success or error. 
message (paste("Processed URL:", url)) 
if(bolError==0) {return(imydata)|} 


} 

} 

url <- "C:/tmp/VentesClean.csv" #fait exprès ensuite de faire un faux pointage 
readUrli(url) 


Ensuite il n'y a qu'à jouer avec en exécutant la fonction et ensuite en l'appelant avec les deux 
dernières lignes du script visible ci-dessus. 


On peut aussi dans des cas plus simples utiliser la fonction stopifnot( ) comme l'illustre le 
petit exemple ci-dessous: 
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4 Fichier Edition Voir Misc Packages Fenêtres Aide 


SROOCeICIER 


> x<-1:10 

> fversion simple 

> stopifnot(is.numeric(x) 68 length(x)==1L) 

Erreur : is.numeric(x) &6& length(x) == 1L n'est pas TRUE 


> 
“> fversion améliorée (depuis R 4.0) 
> stopifnot("'x' doit être un vecteur numérique de longueur 1" = is.numeric(x) 66 length(x)==1L) 
‘x' doit être un vecteur numérique de longueur 1 
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Exemple 461.: Exécuter des scripts *.R avec VBA (depuis MS 


Excel/Word ou autre) 
R 3.0.2 


Un grand nombre d'entreprises utilisent Microsoft Excel pour faire des "statistiques". L'outil 
étant très limité, une possibilité très intéressante est de faire des routines VBA qui exportent 
les données en *.csv, laisser R faire les analyses et ensuite exporter les résultats ou graphiques 
sous forme d'image pour les importer enfin dans MS Excel. Nous allons ici juste montrer le 
principe qui se généralise ensuite à des cas beaucoup plus complexes. Pour plus 
d'informations, je renvoie le lecteur à mon e-book sur le VBA dans MS Excel. 


D'abord, nous considérons le script suivant RVBA.R enregistré dans le dossier C:/tmp/: 


mydata<-c(1,2,3,4,5,6) 
write.table (mydata,"C:/tmp/Export VBA.csv",sep=";"] 


et ensuite dans un module VBA d'un des logiciels de la suite Microsoft Office, nous écrivons: 


Fichier Edition Affichage Insertion Format Débogage Exécution Outils Compléments Fenêtre Tapez une question 


? 
_ 


Ep CT CR OC O7 SR EX dia Cor 
ÉD LA USE CE til 2 CON LR ee 2222 

Projet - VBAProject Généra) ©] ru | 
INFER I EE= 1 fier Jon 


-R£ Solver (SOLYER.XLAM) 


&£ VBAProject (CallR_FromYBA.xlsm) UN: 
-Æ% Microsoft Excel Objets Sub RRUNO 


Feuill (Feuil1} Dim rCommand As String 

: 2%) ThisWorkbook rCommand = "C\Program Files\R\R-3.0 2\bin\Rscnipt.exe --verbose C:mp\RVBA R" 

+ Modules 'Exécute R avec en paramètre le script à exécuter 
|| RS mod Shell rCommand, vbNormalF ocus 

Er &£ VBAProject (FUNCRES.XLAM) "Timer pour laisser le temps à R de faire ses calculs (à adapter) 

Application. Wait Now + TimeValue{"00:00:05") 
Propriétés - modR x! End Sub 
modR Module x 


- Option Explicit 2 


älphabétique | Par catégorie 


modR 


_X] Variables locales :X| Espions 
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Ce qui s'exécute correctement! On voit par ailleurs pendant un petit moment la fenêtre de 
commande s'ouvrir: 


CE C:\Program Files\R\8-3.0,2\b 


running 
* C: PROGRATINRNR-36""1.2Xbin i386\Rterm.exe —-slave —--no-restore —-file=C:tmp\ 
RUBA .R’ 
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Exemple 462.: Exécuter du code C depuis R 
R 3.0.2 


Lorsque l'on traite plus d'une dizaine de millions de lignes de données, travailler avec les 
outils standard de R devient chose impossible et surtout si aucun package ne correspond à nos 
besoins. Dès lors, soit on part sur du Matlab pour compiler un script en €, soit on écrit 
directement du C dans KR. 


Pour voir cela avec un exemple simple et générique, nous allons reprendre l'exemple 
générique donné initialement 1ci: 


http://dirk.eddelbuettel.com/blog/2012/11/20/ 
Vous devrez d'abord télécharger et installer les R tools a à l'adresse suivante: 


http://cran.r-project.org/bin/windows/Rtools 


| Opera DICUEESX 
@ Building R for Windows x la v 


< - Fe] - @ Web T'cran r-project.org/bin/windows/Rtools * || Fi - Rechercher avec Google La (@) 


Building R for Windows I 


This document is à collection of resources for building packages for R 
under Microsoft Windows, or for building R itself (version 1.9.0 or later). 
The original collection was put together by Prof. Brian Ripley; it is 
currently being maintained by Duncan Murdoch. 


The authoritative source of information for tools to work with the current 
release of R is the "R Administration and Installation" manual, In 
particular, please read the "Windows Toolset" appendix. 


Rtools Downloads 


With the change to gcc 4.2.1, some of the tools for 32 bit compiles 
became incompatible with obsolete versions of R. Since then we have 
been maintaining one actively updated version of the tools, and other 
“frozen" snapshots of them. We recommend that users use the latest 
release of Rtools with the latest release ofR. 


The current version of this file is recorded here: VERSION. txt. 


Download R compatibility |Frozen? 
Rtools31.exe ÎR 3.0.x to 3.1.x [No 
Rtools30.exe ÎR >2.15.1 to R 3.0.x [Yes 
Rtools215.exelR >2.14.1 to R2.15.1 [“es 

n EE 


rm | » 
DO + @ | 
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Une fois l'installation effectuée nous créons le fichier C++ suivant piSugar.cpp dans le dossier 
travail de la session courant de notre R: 


v@ piSugar.cpp - Microsoft Visual Studio Express 20. Quick Launch (Ctrl+Q) 


FILE EDIT VIEW  PROJECT 


G - 5 ei ln 


#include <Rcpp.h> 


using namespace Rcpp; 


{{ [[Rcpp::export]] 


DEBUG TEAM 


TOOLS 


” *  } Attach.. - 


piSugar.cpp # X| E 
FR 

T 

En 


Eldouble piSugar(const int N) { 


RNGScope scope; 
NumericVector x 
NumericVector y 
NumericVector d 


// ensure RNG gets set/reset 


runif(N); 
runif(N); 
sqrt(x*x + y*y); 


return 4.8 * sum(d < 1.8) / N; 


100% + 4 


Ready 


Ln 12 


Col 2 


TEST 


WINDOW 


Ch2 


pe _ 
HELP 


b 
INS 


et nous pouvons exécuter notre petit script qui; vädonc estimer la valeur de Pi par Monte- 
Carlo en utilisant le package Rcpp qui découlé de l'installation des R Tools ainsi que le 
package rbenchmark qu'il faudra avoir installé après coup et qui est spécialisé dans la 


comparaison de scripts: 
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? 
? 
> 
? 
+ 
+ 
+ 
+ 
+ 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 


library(Rcpp}) 
library(rbenchmark]) 


piR <- function(iN) { 
x <- runifi(N) 
y <- runifi(N) 
d <- sqrtix"2 + y“2) 
returni4 * sumi(d < 1.0) / Nj) 


sourceCppi"piSugar.cpp") 


N <- 1e6 


set.seedi(42) 
reskR <- piRiN) 


set.seedi(42) 
resCpp <- piSugar (MN) 


## important: check results are identical with RNG seeded 
stopifnot {identical(resR, resCppj)) 


res <- benchmark(piR(N)j, piSugar (Nj, order="relative") 


print (res[,1:4]) 
test replications elapsed relative 
piSugar (N) 100 18:53 1.000 
piR(N) 100 51.04 2.754 


Nous pouvons également écrire en C directement dans KR et transformer à la volée avec la 
commande cppFunction( ) : 
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RGui {64-bit} - 


R Fichier Edition Voir Misc Packages Fenêtres 


library(Rcpp}) 

cppFunction(! 

double piR(iconst int Nji{ 
RNGScope scope; 

NumericVector x=runif (Ni); 
HumericVector y=runif (N); 
HumericVector d=sqrt (xfx+yfy);: 
return 4.0*sum(d<1.0)/N: 

} 
1) 
sapply(ie6,pikR) 
1] 3.140485 


> 
> 
+ 
+ 
ee 
+ 
+ 
+ 
+ 
+ 
> 
> 
( 
> 


R Statistical Software 2945/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Exemple 463.: Exécuter R depuis C# avec R.Net 
R 3.12 


Le C# est un langage très demandé dans la finance dans certains pays. Nous allons donc voir 
ici une méthode simple pour envoyer à R des valeurs et récupérer des résultats. 


D'abord se rendre sur le site http://rdotnet.codeplex.com: 


CJR.NET - Download: R.NET 1. X À 


< C' | &https://rdotnet.codeplex.com/releases/view/168164 


Cod e Plex Project Hosting for Open Source Software Register 


R.NET 


SOURCE CODE ESS DOCUMENT &TION DISCUSSIONS 


R.NET 1.5.19 (NuGet) N 


Rating: No reviews vet Released: Dec 5, 2014 Releas 
*k R, 


Downloads: 0 Updated: Dec 5, 2014 by jperraud b 
F 


Change Set: 20329307d844 Dev status: Beta €) 


AVAILABLE DOWNLOADS 


There are no dowriosds associsteg wi dis release. 


RL 


et à droite de la page visible, télécharger la dernière version stable: 


Released | Planned 


R.NET 1.5.5 j 


Sep 16, 2013] Stable 


KA 


R.NET 1,5,4 
äug 24, 2013, Stable 


R.NET 15,3 
äug 17, 2013, Stable 


71 | 


Cela télécharger un très petit fichier zip du type: 


RDotNet, Windows. zip bd 


qui après décompression dans le dossier de votre choix donnera: 
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M RDotNet.Windows 


Fichier Edition Affichage Favoris Outils ? 


Q@ Précédente + © % mA | »® Rechercher {> Dossiers | ES # x le) | (sir 


ädresse [CD C:\Documents and Settings\ädministrateur\Mes documents\Downloads\RDotNet, Windows 


Dossiers x | 
E) Bureau a ee  — RDotNet.FSharp.dil 
E (à Mes documents ss 
E © Downloads 
C3 Advanced Linear Algebra (2014) [P 
CA Computational Methods For Physics 


RDotfet,.FSharp.x*ML 
Document *ML 


2Ko 


Ÿ RDothet,FSharp.fsx 
Fichier FSX 


2Ko 


RDotNet, Graphics, dil RDotNet. Graphics. XML 


CALALAE2 


| 
a Se Document *ML 
| 0,1.0.0 82 Ko 
CD MATLAB 
_ . _... 
& (à My SAS Files RDotNet.NativeLibrary.dl ee si 
Æ (à Visual Studio 2010 1.0.0.0 DORE 
E W Poste de travail os 

H a: | Disquette 318% {Ai} LA RDothet, XML 
H S% Disque local {C:} ‘@ Document XML 
Æ 2 Lecteur DVD (D:} == | 110Ko 


FA M Favoris réseau 


Ensuite ouvrez Visual Studio C# (ici la version 2010 dans un environnement XP x86) et créez 
un Nouveau projet..…: 


2 Page de démarrage - Microsoft Visual C# 2010 Express 
Fichier Edition Affichage Déboguer Outils Fenêtre ? 


Ë] No ju projet. Ctr+-Maj+N  llemx x 
CRE ee ES 


CS Ouvrir un fichier. Ctrl+O 
Fermer 

Fermer la solution 

Enregistrer les éléments sélectionnés Ctrl+s 


Enregistrer les éléments sélectionnés sous... 


main Dernières infor 


D ft, 


Enregistrer tout Ctrl+Maj+s 
Exporter le modèle... Be äpprendre Miseàn 


Mise en page. 


W E 


Imprimer... Ctri+P 


Fichiers récents 


m < © 


Projets et solutions récents 


LE 


Quitter Alt+F4 


[] Ca MatlabDemoDLL 


OU NT 
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Prenez Application Console et donnez un nom au projet (ici RDotNetDemo): 


Nouveau projet H1E7 


Modèles récents Trier par : [Par défaut “| Rechercher Modèles installés po 


Modèles installés 
Type: Visual C# 


à âpplication Windows Forms Visual C# 
Visual C# Projet de création d'une application en ligne de 
FRET commande 
"ogeles en ligne âpplication WPF Visual C# 
âpplication console Visual C# 
Bibliothèque de classes Visual C# 


âpplication de navigateur WPF Visual C# 


el Ki Ja | & 


Projet vide Visual C# 


Nom : D Î RDotNetDemo 


Une fois le projet créé, cliquer sur Ajouter une référence dans menu contextuel du volet 
droit sur le dossier Références: 


Æ7 RDotNetDemo - Microsoft Visual C# 2010 Express [| 


Fichier Edition Affichage Projet Déboguer Données Outils Fenêtre ? 


dire da) 4 58/2 > @ >|» | |doubemx SE BE Li 0 2 À a lfE 


Explorateur de solutions um 


3/34 
æ Solution 'RDotNetDemo' (1 projet} 


FE. 

I x 
using System.Collections.Generic; 4 =. (] RDotNetDemo 
++ [5] Properties 


using System.Linqg; 
a DÉRéférences 


using System.Text; 
Ajouter une référence. D ] Program.cs 


à 


SSRDotNetDemo.Progr am - EU Main(string[] args) 


using System; 


sjano & 2109 


E D RDotNetDemo äjouter une référence de service... 
Œ] class Program 
{ 
©] static void Main(string[] args) 
{ 
} 
} 
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Prenez les deux dil indiquées qui suffiront pour la démonstration: 


Ajouter une référence HE 


NET | com | Projets Parcourir | Récent | 


Regarder dans : E RDotNetWindows -lQ œ cr 


(à) RDothet.FSharp.dil 
(a) RDothet, Graphics, dll 
CS] RD Le .NativeLibrary, dil 


Nom du fichier : "RDotNet NativeLibrary. di "RDotNet.dil!' 


Fichiers de type : Fichiers composants (*dil*Hb;*.olb;*.ocx;*.exe;* manifest] 


Ensuite il est conseillé dans certains environnements Microsoft Windows d'ajouter le chemin 
de R dans la variable d'environnement PATH: SC 
QŸ 


Yariables d'environnement HE 


Variables utilisateur pour Administrateur 


JAYA_HOME C:\Program Files\Javaljdk1.6.0_45 
TEMP C:\Documents and Settings\ädministrat.,., 
TMP C:\Documents and Settings\ädministrat.., 


Nouveau | Modifier | Supprimer | 


Variables système 


Variable Valeur 
NUMBER_OF_P... 1 
O5 Windows _NT 


C:\Documents and Settings\All Users\äp... 
PATHEXT .COM,;.EXE; BAT; .CMD;.VB5;.VBE;,15;.... 
PROCESSOR_4...  x86 xl 


Nouveau | OX ier | Supprimer | 
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Modifier la variable système HE 


Nom de la variable : | Path 


ina: C1 


\Program Files\R\R-3,1.,21binti386 


Une fois ceci fait, nous écrivons le code suivant pour faire un exemple d'appel de R: 


Valeur de la variable : 


using Microsoft.Win32; 
using System; 

using System.Linqg; 
using RDotNet; 

using System.I0; 


namespace Sample 
{ 
class Program 


{ 


static void Main(string[] args) 


{ 
using (RegistryKey registryKey = 
Registry.LocalMachine.OpenSubKey(@"SOFTWARE\R-core\R")) 
{ 
var envPath = Environment.GetEnvironmentVariable("PATH"); 
string rBinPath = (string)registryKey.GetValue("InstallPath"); 
string rVersion = (string)registryKey.GetValue("Current Version"); 
rBinPath = RUE FEMMES RE TErOReSS ? rBinPath + "\\bin\\x64" 
<Ÿ 
rBinPath + 
"\\bin\\i386"; 
Environment .SetEnvironmentVariable("PATH", 
envPath + Path.PathSeparator + rBinPath); 
} 
using (REngine engine = REngine.Createlnstance("RDotNet")) 
{ 
// Initializes settings. 
engine.Initialize(); // After Executing this line its crashing. 


NumericVector group1 = engine.CreateNumericVector(new double[] { 
30.02, 29.99, 30.11, 29.97, 30.@1, 29.99 }); 

engine.SetSymbol("group1l", groupl); 

NumericVector group2 = engine.Evaluate("group2 <- c(29.89, 29.93, 
29.72, 29.98, 30.02, 29.98)").AsNumeric(); 


// Test difference of mean and get the P-value. 

GenericVector testResult = engine.Evaluate("t.test(group1, 
group2)").AsList(); 

double p = testResult["p.value"].AsNumeric().First(); 

Console.WriteLine("Group1l: [{8}]", string.Join(", " 
Console.WriteLine("Group2: [{8}]", string.Join(", 
Console.WriteLine("P-value = {0:0.000}", p); 
Console .ReadLine(); 


» group1)); 
» group2)); 
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Ce qui donne: 


/Documents and Settings/Administrateur/mes documents /visual studio 2010/Projects/RDot... si | X | 


s8.11, 29.97, 30.01, 27.991 


138.82, 29.99, 
29462, 29.98,. 38.02, 22.981 


[29.89, 29.93, 
P-uvalue = 9.491 


NV sf 
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Exemple 464.: Débugger 
R 3.0.2 
Voilà un sujet plus qu'important... 


Le but ici va être de découvrir des commandes qui sont similaires dans l'idée aux techniques 
de débogage de MATLAB: 


traceback, debug, browser, trace, recover 
Traceback 


La commande traceback affiche la liste des fonctions appelées avant de lister enfin ce qui a 
fait bugger le traitement. 


Voyons un exemple simple en considérant le script suivant: 


f<-function(x){ 
C<-x-ix) 
r 

} 


g<-function(y){ 
r<-yfh{(y] 
a 

| 


h<-function(z){ 
r<-logiz) 
if(r<10) 
r*2 
else 
r*3 


Si maintenant nous lançons ce script en provoquant une erreur volontairement: 
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Gui {64-bit) - [ 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> source {"debug.R") 

> £(10) 

[1] -43.01898 

> #check 

> 10-10*{log(10))*2 

[1] -43.01898 

> #on fait bugger 

> f(-10) 

Erreur dans if {r < 10) r*2 else r°3 : 
valeur manquante là où TRUE / FALSE est requis 

De plus : Message d'avis : 

In logiz) : production de NaN 

> traceback({) 

3: hiy) at debug.R#7 

2: gix) at debug.R#2 

1: £(-10) 

> | 


Nous voyons que la commande traceback( ) esffinalement a priori peu utile car renvoie des 
informations trop vagues (du moins sur l'envirôènnement MS Windows). Effectivement, si 
nous changeons l'emplacement de l'erreur, nous avons...: 


f<-function(x){ 
E<— x — gi{ix) 
Ë 


g<-function(y)({ 


r<- log(y)fh(y] 
a 


h<-function(z){ 
r <- 2] 
if(r<10){ 
c*2 
}else{ 
r*3 


Ce qui nous donnera: 
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> source("debug.R") 

> f(-10) 

[1] Nan 

Message d'avis : 

In logiy)i : production de NalN 
> tracebacki) 


: hiyv) at debug.R#7 
: gix) at debug.R#2 
: £(-10) 


Donc la fonction h(y) apparaît aussi alors qu'elle ne génère aucun bug directement! 


Debug 

S° 
QÙ. : : : 

Bon nous remettons le code buggé dans l'état ihitial et nous allons voir maintenant la fonction 


debug() dont l'utilité est aussi discutable. Effectivement voyons un exemple: 
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ns, RGui (64-bit) - [F 
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> debug(f) 
> f{-1D] 
debugging in: f{i-10) 
debug à debug.R#1 :{ 
E <= x - gix) 
r 


} 

Browse[2]> n #"n" veut dire "next" 
debug à debug.R#2 :r <- x - q{x) 
Browse[2]> n 


Erreur dans if {r < 10) { : valeur manquante là où TRUE / FALSE est requis 


De plus : Message d'avis 
In logiz) : production de NaN 
> debugig) 
> f(-10) 
debugging in: fi-10) 
debug à debug.R#i :{ 
E <= x -— gix) 
E 
} 
Browse[2]> n 
debug à debug.R#2 :r <- x - gi{x) 
Browse[2]> n 
debugging in: gix) 
debug à debug.R#6 :{ 
r <- y * hiy) 
E 
} 
Browse[3]> n 
debug à debug.R#7 :r <- y * h{y]) 
Browse[3]> n 


Erreur dans if ({r < 10) { : valeur manquante là où TRUE / FALSE est requis 


De plus : Message d'avis 
In log(iz) : production de NaN 
> 


D 


Comme nous pouvons le voir il est donc important de connaître (identifier) le nom des 
fonctions bugées au fur et à mesure que l'on avance. Ainsi, dans l'exemple suivant, nous 


décidons de débugger la fonction h(z) pendant le débogage de g(y): 
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> f(-10) 
debugging in: £f(-10) 
debug à debug.R#1 :{ 
E <= x — gix) 
r 
} 
| Browse[2]> n 
| debug à debug.R#2 :r <- x - gix) 
Browse[2]> n 
debugging in: qgi{x) 
debug à debug.R#6 :{ 
Er <- y * hi{y]) 
E 


Browse[3]>} debugih) 


Browse[3]> n 
debug à debug.R#7 :r <- y * hiy]) 


Browse[3]> n 
debugging in: h{y]) 
debug à debug.R#1i1 :{ 
r <- logiz) 
if (r < 10) !{ 
E"2 
} 
else { 
É°3 
} 
} 
Browse[4]> n 
debug à debug.R#12 :r <- logiz) 
Browse[4]> n 
debug à debug.R#13 :if (r < 10) { 
É"2 
} else { 
E*3 
} 
Browse[4]> n 
Erreur dans if ({r < 10) { : valeur manquante là où TRUE / FALSE est requis 


« 


Liste des commandes: 


en: poursuivre le débogage (sans que cela rente nécessairement dans les sous 
fonctions!) 


ec: exécute l'ensemble restant de la fonction (ou de l'ensemble des fonctions) jusqu'à la 
fin 


e  Q: arrête le débogage et l'exécution de la fonction 


e  print(nom_ variable): pour pouvoir à tout moment voir le contenu (la valeur) d'une 
variable pendant un débogage 


Remarque: Il suffit de recharger le fichier *.R ou le package pour que le mode débogage qui 
a été activé en écrivant debug(rnom_de_la_ fonction) s'arrête 
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Voici un exemple de la commande where: 
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> f£(-10) 
debuggqing in: £fi-10) 
debug à debug.R#1i :{ 
E <— X — gix) 
Er 
} 
Browse[2]> n 
debug à debug.R#2 :r <- x - œix) 
Browse[2]> n 
debuggqing in: qgix) 
debug à debug.R#6 :{ 
É <= y T hi 
r 
} 
Browse[3]> where 
where 1 à debug.R#2 :q{x) 
where 2: f£i-10) 


Browse[3]> | 


Browse 


Il existe une autre manière beaucoup plus agréable de débugger qui consiste à écrire la 
commande browse( ) à un endroit désiré du code source: 
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f<-function(x)t{ 
EL<— x — gi{x) 
Er 


g<-function(y){ 
r<- yfh{y]) 


h<-function(zit{ 
r <- logiz) 
ifi(r<10)j{ 
E“2 
telse{ 
E°3 
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> source {"debug.R") 

> f(-10) 

Called from: hiy) 

Browse[1]> n 

debug à debug.R#13 :r <- logiz) 

Browse[2]> n 

debug à debug.R#14 :if (r < 10) { 
c'e 

} else { 
E"3 


} 


Browse[2]> n 

Erreur dans if ({r < 10) { : valeur manquante là où TRUE / FALSE est requis 
De plus : Message d'avis 

< dos : production de NaN 

> 


Comme vous pouvez le voir le débogage commence donc à l'endroit où nous avons positionné 
la function browse ) . 


Trace 


Il est possible lorsque les fonctions sont petites de les modifier "temporairement" pour faire 
des tests à la volée pendant un débogage. Pour voir cela considérons toujours notre petit 
script: 
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f<-function(x){ 
E<— X — gi{x) 
r 

} 


g<-function(y){ 
r<- yfhi{y) 
r 

} 


h<-function(z){ 
Er <- logiz) 
if(r<10){ 
E“2 
}else{ 
E°3 
} 
'| 


Avant d'utiliser la fonction trace() pour insérer une ligne il faut savoir quel est le numéro 
d'insertion (et non de remplacement!) et pour cela nous pouvons faire usage de la fonction 
as.list(body(...)): 


RGui (64-bit} - [R 
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> source{"debug.R") 
> as.list{bodyi{h)) 
[C[1]] 

VE 


C[2]] 
Er <- logiz) 


CC3]] 

L£ ÉE < 10! { 
É"2 

} else { 
É"3 

} 


> trace("h'",quote(z<-abs(z)),at=2,print=F) 
[1] rh" 
> | 
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Nous pouvons vérifier que l'insertion se soit faite: 


RGui (64-bit} - [R 
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> bodyih) 
{ 


{ 
-doTrace(z <- absiz)) 
Er <- logiz) 

} 

1£ (E < 1D) { 
E”2 
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> £(=10) 
[1] 45.015985 
> | 
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Profilage 


Le profilage de script est un sujet important pour ceux cherchant à trouver les goulets 
d'étranglement de leurs codes. Pour l'exemple, nous utiliserons le même script qu'avant avec 
les fonctions natives Rprof() , invisible() dont le but est de ne pas imprimer les calculs de la 
fonction testée, et summaryRprof( ) . 


Avec un tout petit script comme celui que nous avons, nous voyons que le profiler a de la 
peine à profiler quoi que ce soit: 


Re RGui (64-bit) - [F 
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source ("debug.R'") 
Rprofi) 
invisible(£(10)) 
Rprof (NULL) 
> summaryRprofi) 
$by.self 
[1] self.time self.pct total.time total.pct 
<0 lignesz (ou 'row.names' de longueur nulle) 


$by.total 
[Ci] total.time total.pct self.time self.pct 
<0 lignesz (ou 'row.names' de longueur nulle) 


$sample.interval 
[1] 0.02 


$sampling.time 
[i] © 


> | 
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Nous pouvons alors spécifier le temps d'échantillonnage pour avoir quelque d'un peu mieux: 


> source ("debug.R") 
> Rprof{interval=0.00001) 
> invisible(f{(10)) 
> Rprof (NULL) 

> summaryRprof() 

$hy.self 


self.time self.pct total.time total.pct 


"Rprof" 0.001 87.8 


$by.total 


93.9 


total.time total.pct self.time self.pct 


rRprof” 0.001 
External" 0.000 
mEr 0.000 
rar 0.000 
mr 0.000 
"hr 0.000 
"invisible" 0.000 


$sample.interval 
[1] 1e-05 


$sampling.time 
[i] 0.00082 


> | 
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93.90 
6.10 
4.66 
3.66 
1.22 
1422 
1.22 


0.001 
0.000 
0.000 
0.000 
0.000 
0.000 
0.000 


87.60 
6.10 
0.00 
2:44 
1.22 
1:22 
1.22 
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Ou pour ceux qui préfèrent les rapports visuels discutables avec le package profr: 


R kr Console 
> invisible(f(10)) 
> Rprof (NULL) 
> library("profr") 
> library(ggplotz) 
> ggplot.profr (parse rprof("profile.out")) 
> summaryRprof() 
$by.self 

self.time self.pct total.time total. 
"Rprof" 0.001 87.8 0.001 9 
$fby.total 

total.time total.pct self.time s4 

"Rprof" 0.001 93.90 0.001 
",External" 0.000 6.10 0.000 
nés ché 0.000 4.88 0.000 
ra" 0.000 3.66 0.000 
re 0.000 1,22 0.000 
ic ‘ 0.000 1.22 0.000 
“invisible” 0.000 1.22 0.000 


$sample.interval 
[1] 1e-05 


$fsampling.time 
[1] 0.00082 


> | 
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Exemple 465.: Créer rapidement un package R d'un script R 
R 3.0.2 


Sans R Studio 


D'abord pour faire rapidement (et mal) un petite package R d'un script R, l'utilisation du 
package devtools sera obligatoire: 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> install.packages ("devtools") 

Installing package into ‘C:/Users/Isoz Vincent/Documents/R/win-library/3.07 

{as ‘lib’ is unspecified) 

essai de l'URL 'http://cran.rstudio.com/bin/windows/contrib/3.0/devtools 1.5.zip' 
Content type 'application/zip' length 254537 bytes (248 Kb) 

URL ouverte 

downloaded 248 Kb 


le package ‘devtools’ a été décompressé et les sommes MD5 ont été vérifiées avec succés 
Les packages binaires téléchargés sont dans 


C:\Users\lsoz Vincent\AppDataiLocal\Temp\RtmpWiqJ2n\downloaded packages 
> | LS 


Une fois ce package installé, vérifiez votre dossier de travail par défaut et créez un dossier 
pour un futur package avec la commande creatèl ) du package devtools: 
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> libraryi(idevtools) 

> getwdi) 

[1] "C:/tmp" 

> #on va prépaer un package qui somme une vecteur 
> create ("addlist") 

Creating package addlist in 

No DESCRIPTION found. Creating with values: 


Package: addlist 

Title: What the package does (short line) 

Version: 0.1 

AuthorsGR: "First Last <first.lastflexample.com> [aut, cre]" 
Description: What the package does (paragraph) 

Depends: R {>= 3.0.2) 

License: What license is it under? 

LazyData: true 

oo Rstudio project file to addlist 

> 


Fichier Edition Affichage Outils 2 


Organiser + Inclure dans la bibliothèque + Partager avec + » 
d Perl64 " Nom 
P Files (x86 
à rogram Files (x86) à addlist 
dd ProgramData 
à Programmes 


à Rtools 
à tmp 


à Utilisateurs 
à VirtualPC 

à VProRecovery 
d Windows 


à xampp 
& Lecteur DVD RW (D:} 


mr En . 


1 élément 


L élément fi Ordinateur 


Dont le contenu est: 
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Fichier Edition Affichage ? 


Organiser + Ouvrir Inclure dans la bibliothèque + CE © 


. Nom Modifié le 


4 L addlist 
ads L man 16.08.2014 14:41 
dd man 


Be ME 16.08.2014 14:41 
L_! .Rbuildignore 16.08.2014 14:41 
L_} DESCRIPTION 16.08.2014 14:41 


> Utilisateurs 

d VirtualPC 

d VProRecovery 

; à Windows 

» xampp 
3 Lecteur DVD RW (D:) 
&| Photos iCloud 
RealPlayer Cloud 


LP 


v "0 


man Modifié le : 16.08.2014 14:41 
Dossier de fichiers 


L élément sélectionné fn Ordinateur 


D'abord changeons le contenu du fichier DESCRIPTION pour y mettre les informations 
adéquates: SN 


Pl DESCRIPTION - Notepad — O X 


File Edit Format View Help 

Package: addlist 

Title: What the Package Does (One Line, Title Case) 

Version: 6.0.0.90008 

Authors(@R: 
person("First", "Last", , “first.last@example.com", role = c("aut", "cre"), 

comment = c(ORCID = "YOUR-ORCID-ID"})}) 

Description: What the package does (one paragraph). 

License: ‘use mit_license()', ‘use gpl3 license(}) or friends to pick a 
license 

Encoding: UTF-8 

LazyData: true 

Roxygen: list(markdown = TRUE) 

RoxygenNote: 7.1.2 


En 1, Col1 100% Unix (LF) UTF-8 


Dans le dossier R du package, il y a notre fichier de script principal: 
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” <« addlist » R 'echercher dans : R 


Fichier Edition Affichage Outils 2 


Organiser + Inclure dans la bibliothèque + Partager avec v Graver = | © 


# 
d tmp e Nom Modifié le 
db addlist : 
L4, addlist-package.r 16.08.2014 14:41 
d man 


à Utilisateurs 

d VirtualPC 

d VProRecovery 

à Windows 

db xampp 
3 Lecteur DVD RW (D:) 
& Photos iCloud 
RealPlayer Cloud 


LP 


1 element 


L'élément fs Ordinateur 


Nous éditons ce fichier qui contiendra la fonctioncet sa description: 
QŸ 


RGui (64-bit) - [C: 
R Fichier Edition Packages Fenétres Aide 


#' addlist. 

#! 

#' name addlist 

#' fdocType package 


NULL 


Pour le changer comme ci-dessous: 
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GR RGui (64-bit) - [C:\tmp\addlist\R\addlist-package.r - R Editor] _ C] 
R File Edit Packages Windows Help | IE 
= 
| 
#' addlist 
+' 
#' Prend un vecteur numÂ®rique et en fait la somme 
+! 
#" @param un vecteur colonne avec des numA@riques | 


*' | 
#' @return un scalaire reprä®sentant la somme des composantes du vecteur | 
+' 

#' Gexamples addlist(x=c(1,2,3)) 

$' 

#' @name addlist 

#*' @docType package 

#' petit exemple de fonction simple et bÂite 
add<-function(x=c{(1,2,3)) Reduce("+",x) 


Dans le dossier man (abréviation de manual), pour définir l'aide de la fonction, nous 
rajoutons le fichier *.Rd suivant: 


En z = E 
& si LM << addlist + man Y Rechercher dans : man 


Fichier Edition Affichage Qutils 2 


Organiser + Inclure dans la bibliothèque + Partager avec v Graver Le © 


2 


4 à tmp a Nom Modifié le 
4 L addlist 
db man 
BR 
à Utilisateurs 
d VirtualPC 
à VProRecovery 
à Windows 
D xampp 
€ Lecteur DVD RW (D:} 
& Photos iCloud 
RealPlayer Cloud 


2.» 


À 1 élément 


Recherche des éléments... fs Ordinateur 


) add Rd 16.08.20 14 16:18 


Et nous y mettons le minimum syndical: 
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BA add.Rd - Notepad — ( 
File Edit Format View Help 

\name{add} 

\alias{add} 

\title{ 

Cette fonction utilise Reduce pour faire une somme 

} 
\usage{ 
add(x=c(3,4,7)) 
} 
\arguments{ 

\item{x}{Un vecteur de valeurs numériques} 
} 
\value{ 

Un scalaire représentant la somme de toutes les valeurs numériques 
} 
\description{ 

Somme toutes les composantes d'un vecteur 
} 
\examples{ 
add(x=-c(1,2,3)) 
} 


Ln 1, Col1 100% Windows (CRLF) UTF-8 


Ensuite, nous "compilons" le package à l'aide dexä commande build() du package devtools: 
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> build{"addlist") 
"C:/#PROGRA-1/R/R-30-1.2/bin/x64/R" --vanilla CMD build "C:\tmp\addlist" 
—-no0-manual --no-resave-data 


checking for file 'C:\tmp\addlist/DESCRIPTION! 
preparing 'addlist': 

checking DESCRIPTION meta-information ... OK 
checking for LF line-endings in source and make files 
checking for empty or unneeded directories 

building 'addlist 0.1.tar.gz' 


[1] "C:/tmp/addlist 0.1.tar.gz" 
> | 


Ce qui donnera: 
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LL « OS(C) + tmp » 


Fichier Edition Affichage Outils 2 


Organiser + Ouvrir Inclure dans la bibliothèque + 


4 à tmp | u Nom 


4 à addlist | à ; addlist 
man 
= k L_: addlist_0. Ltar.gz 


à Utilisateurs 

À VirtualPC 

d VProRecovery 

à Windows 

db xampp 
3 Lecteur DVD RW (D:) 
& Photos iCloud 
RealPlayer Cloud 


2 
 addlist Modifié le : 16.08.2014 14:41 
Dossier de fichiers 


L élément sélectionné fn Ordinateur 


Une fois ceci fait, nous pouvons utiliser la commande install() du package devtools: 
eŸ 


R Fichier Edition Voir Misc Packages Fenétres Aide 


> library(devtools) 
[> installi{"addlist") 
Installing addlist 


"C:/PROGRà-1/R/R-30-1.2/bin/x64/R" --vanilla CMD INSTALL "C:\tmp\addlist" --library="C:/Users/lsoz 


Vincent/Documents/R/win-library/3.0" --install-tests 

* installing ‘sourcef package 'addlist' R 
ERROR: a 'NAMESPACE' file is required 

* removing 'C:/Users/1lsoz Vincent/Documents/R/win-library/3.0/addlist! 
Erreur : Command failed (1) 


« 


Mais une erreur va empêcher l'installation. C'est parce qu'il fallait ajouter un fichier 
NAMESPACE au préalable avant de compiler: 
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Pre = > x m: 
é æ L & tmp » addlist » Le Rechercher dans : addli 


Fichier Edition Affichage Outils 2 
Organiser + L_] Ouvrir Graver Nouveau dossier Sd © 


L tmp # Nom Modifié le 
d addlist 

à Utilisateurs 
à VirtualPC 
à VProRecovery 
à Windows 
d xampp 

€3 Lecteur DVD RW (D: N 

& Photos iCloud 

RealPlayer Cloud 

hi Réseau 


à man 16.08.20 14 14:41 
Br 16.08.20 14 14:41 
L_} .Rbuildignore 16.08.2014 14:41 
L_} DESCRIPTION 16.08.2014 14:47 
NAMESPACE 16.08.20 14 15:35 


| LL 


EN Panneau de configuration 


mn - 


AT W} | 


NAMESPACE Modifié le : 16.08.2014 15:35 Date de création : 16.08.2014 15:35 
Fichier Taille: 22 octets 


L élément sélectionné fs Ordinateur 


avec le contenu suivant dans le cas particulier quinous concerne: 
Ne) 
oŸ 


| NAMESPACE -| 
Fichier Edition Format Affichage ? 


exportPattern(".") 


Nous pouvons alors recompiler: 
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> build{"addlist") 
"C:/PROGRA-1/R/R-30-1.2/bin/x64/R" --vanilla CMD build "C:\tmp\addlist" 
—-no-manual --no-resave-data 


checking for file 'C:\tmp\addlist/DESCRIPTION! 
preparing 'addlist': 


checking DESCRIPTION meta-information ... OK 
checking for LF line-endings in source and make files 
checking for empty or unneeded directories E 
building 'addlist 0.1.tar.gz' 


[1] "C:/tmp/addlist O0.1.tar.gz" 
> | 


et nous l'installons cette fois-ci sans erreurs et 1l ne faut évidemment pas oublier le charger 
aussi !: 


RGui (64-bit) - [RC 


Fichier Edition Voir Musc Packages Fenêtres Aide 


COIBOSIOIE 
Eces 


Installing addlist 
"C:/PROGRA-1/R/R-30-1.2/bin/x64/R" --vanilla CMD INSTALL "C:\tmp\addlist" --library="C:/Users/1soz \ 
Vincent/Documents/R/win-library/3.0" --install-tests 


* installing ‘source? package 'addlist' 
LE R 

** preparing package for lazy loading 
** help 

No man pages found in package ‘addlist' 
*** installing help indices 

** building package indices 

** testing if installed package can be loaded 
*r* arch - 1366 

**? arch - x64 

* DON acc 


> Library(addlist) 


> 


Nous pouvons ensuite utiliser notre fonction comme toute autre fonction: 
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et si nous faisons appel à l'aide: 


R RG 64-bit) - [R console] — 
R File Edit View Misc Packages Windows Help = |'#.X 


Bla 


> help{(add, package="addlist") 
>| 


Ce qui donnera: 
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© R: Cette fonction utilise Reduce| X + 


CG D © 127001 À G * — 


Favoris D Sciences.ch M Scientific-Evolution…  S$ Google Traduction 


add {addlist} R Documentation 
Cette fonction utilise Reduce pour faire une somme 
Description 
Somme toutes les composantes d'un vecteur 
Usage 
add(x=c(3,4,7)) 
Arguments 
X 
Un vecteur de valeurs numériques 
Value 
Un scalaire représentant la somme de toutes les valeurs numériques 
Examples 


add() 


[Package addlist version 0.0.0.9000 Index] 
9" 


On peut aussi écrire pour avoir un exemple: 


R 
R File Edit View Misc Packages Windows Help 5 


> example (add,package="addlist") 


add> add(x=c(1,2,3)) 
[1] 6 | 


* | 


On a aussi: 
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° RGui (64-bit) - [R Console] — [a] X 


R File Edit View Misc Packages Windows Help _- mx 


> help(package="addlist") 
starting httpd help server ... done 


qui donne: 


© R: What the Package Does (One! X + 


> G 0 © 127001 Ca] 6 * = 


Favonis à Sciences.ch à Scientific-Evolution… #5 Google Traduction Microsoft 365 


What the Package Does (One Line, Title Case) è 


D © 


Documentation for package ‘addlist’ version 0.08.8.906808 
e DESCRIPTION file. 
Help Pages 


add Cette fonction utilise Reduce pour faire une somme 


S1 on clique sur Description file on obtient: 
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© 127.0.0.1:20552/library/addiist/D X + © 


< lé d d : i) 127.0.0.1 ù [=] GG * 


Favoris | Sciencesch LB Scientific-Evolution… 55 Google Traduction Microsoft 365 


Package: addlist 

Title: What the Package Does (One Line, Title Case) 

Version: @.6.0.9000 

Authors(iR: 

person("First", "Last", , “"first.lastflexample.com", role = c("aut", "cre")}, 
comment = c(ORCID = “YOUR-ORCID-ID")) 

Description: What the package does (one paragraph). 

License: ‘use mit_license()°, ‘use _ gpl3 license()' or friends to pick a 
license 

Encoding: UTF-8 

LazyData: true 

Roxygen: list(markdown = TRUE) 

RoxygenNote: 7.1.2 

Suggests: knitr, rmarkdowun 

VignetteBuilder: knitr 

NeedsCompilation: no 

Packaged: 2021-10-03 15:58:11 UTC; Vincent_Isoz 

Author: First Last [aut, cre] (YOUR-ORCID-ID) 

Maintainer: First Last <first.lastfiexample.com> 

Built: R 4.0.5; ; 2021-10-03 15:58:11 UTC; windows 


et si on clique sur add on retombe sur: 
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© R: Cette fonction utilise Reducer X + 


CG © 127001 + Es = 


Favoris [M Sciences.ch  Scientific-Evolution… SH Google Traduction 


Description 

Somme toutes les composantes d'un vecteur 
Usage 

add(x=c(3,4,7)) 

Arguments 


X 
Un vecteur de valeurs numériques 


Value 


Un scalaire représentant la somme de toutes les valeurs numériques 


Examples 


add(x=c(1,2,3)) 


[Package addlist version 0.0.0.9000 Index] 


A 


add {addlist} R Documentation 


Cette fonction utilise Reduce pour faire une somme 


S1 un jour nous avons le temps, nous montrerons comment rajouter un vignette à ce package. 


Une fois terminé, on peut soumettre le package à CRAN: 


https://cran.r-project.org/submit.html 
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LE X 


La Project: (None) * 
| % New Project... N 
| open 
Open Project in New Session... 


Close Project 


| New Project Wizard 


Create Project 


New Directory 


Start a project in a brand new worlia directory 


Existing Directory 


ASsOCIale à project w an EXISUNG WOFKINZ 


b Version Control 
Checkout 3 project from a version control repository, 


R Statistical Software 
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New Project Wizard 


Back Project Type 


R New Project 


AB R Package N 
| Create a newR 
R Shiny Web Application package 


R Package using Rcpp 


R Package using RcppArmadillo 
R Package using RcppEigen 


R Package using RcppParallel 


New Project Wizard 


Back Create R Package 


Type: Package name: 


Package "| |addlist 


Create package based on source files: 
Add 


Create project as subdirectory of: 
C:/tmp 


Create a git repository Use renv with this project 


RER EE 5 
Open in new session Create Project 


BH Name 


F man 
_E 
B Rbuildignore 


addlist.Rpro) 
BB DESCRIPTION 
BR NAMESPACE 


Browse... 
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Files Plots Packages Help Viewer 
Qi] New Folder Q Deite »]Rename S More Lé 
C: > tmp » addiist 
à Name 
&.- 
Rbuildignore 
W 2ddiistRproj 
@] DESCRIPTION 
Bi man 
NAMESPACE 
SR 


D addlist - RStudio 
File Edit Code View Plots Session Build Debug Profile Tools Help 
o - % œ - ei — #} Goto file/function “ Addins » 
9 hello #7 ] DESCRIPTION | hello.Rd 
Source on Save | GX, 7° - 


1 Hello, world! 
2 # 
3 # This is an example function named ‘hello’ 
4 # which prints ‘Hello, worid!'. 
5 # 
6 # You can learn more about package authoring with Rstudio at: 
7 # 
8 # hrtp://r-pkgs. had. co. nz/ 
9 # 
10 # Some useful keyboard shortcuts for package authoring: 
EL # 
22: :# Install Package: "Ctrl + Shift + 8° 
13 # Check Package: "Ctrl + Shift + E° 
14 # Test Package: "Ctrl + Shift + T° 
15 
16- hello <- function() { 
17 print("Hello, world!"}) 
18: } 
19 


D addiist - RStudio 
File Edit Code View Plots Session Build Debug Profile Tools Help 
CR IE de #} Go to fie/function * Addins 


@ | hellor  ] DESCRIPTION © | hello.Rd 
a 
Package: addlist 
Type: Package 
Title: what the Package Does (Title Case) 
version: 0.1.0 
Author: who wrote it 
Maintainer: The package maintainer <yourself@somewhere.net> 
Description: More about what it does (maybe more than one line) 
use four spaces when indenting paragraphs within the Description. 
License: what license is it under? 
10 Encoding: UTF-8 
11 LazyData: true 


© Co —j Où En À W NN) + 
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© addiist - RStudio 


File Edit Code View Plots Session Build Debug 
© -. W@ - HE #h Go to file/function 


@ |helloR # | DESCRIPTION ®'\ helio.Rd 


_]| Preview on Save |} © | g Preview 


1 [\namefhello) 
2 \alias{hello} 
3 \title{Hello, world!} 
4 \usagef 
5 hello() 
6 } 
7 \descriptionf{ 
8 Prints ‘Hello, world!'. 
GE) 
10 \examples{ 
11 hello() 
22] 
13 
() x 
© acdist » 
Environment History Connections Build Tutorial | 
C7 Check | @ More - 
Vnstal the package 
and restart R 
{Ctris Shift+B) 
Files Plots Packages Help Viewer Etes 
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Me If Ce Ven Men Sawen Joël Doug rl os Hs 


D. æ. 3 CET me tuses 
Pre — a 
ur Date Anelyats Prasect 
EH 
Ty Iueded profile ve 
ve tonring 5% mralted package bee à cena-d 6 tenparary reralietéos path 
Do amiimi 
CORRE e 
Œinessos : D wœ sites | Que - 
- L 
#1 
Lu LI 
un mA 0 Pat 
IL 
- het 
Files Plots Packages Help Viewer a | 
s)] insta [N] Update 
Name Description Version 
User Library 
ABCanalysis Computed ABC Analysis 121 
abind Combine Multidimensional Arrays 14-5 
abrem Abernethy Reliability Methods 0.1.17 
abremPivotals Linear Rank Regression Models with Pivotal Monte Cario Methods for Reliability 028 
Analysis 
AcceptanceSampling Creation and Evaluation of Acceptance Sampling Plans 1.0-6 
acepack ACE and AVAS for Selecting Multiple Regression Transformations 141 
acs Download, Manipulate, and Present American Community Survey and Decennial 214 
Data from the US Census 
actuar Actuarial Functions and Heavy Tailed Distributions 3.1-2 
J\ addlist What the Package Does (Title Case) 0.1.0 
ur: cr er me rt » re Fr sen r + .n 
fc La Lo Der Den joe ji Lou DAE ee: 1e 
- —— Msn” 
Hat : Cases G 
3 mel var tunetten Ka, n9cagt 
Gants Dette, art 
1 Lormmleel 
1 mile 
pe] 
Faes Phés  othagen lier Mmes Le 
> una se 
4 Mots Vert 
LOI |] LEE, 112 
Hello, World! 
Dencnption 


Mess ve 
Hi, meicoss te 
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Le reste est identique à la méthode sans R Studio. 


Ne 
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36. Interfaces pour les utilisateurs 


Générées depuis R 


Générer des interfaces avec le package teltk2 (il s'agit en réalité simplement de Tkinter qui 
est aussi l'outil de base de création d'interface en Python et Linux en général!): 


R Fichier Edition Voir Misc Packages Fenétres Aide 


| 


> tt<-tktopleveli) 

> label<-tklabeli(tt,text="R UI") 
> bouton<-tkhbutton(tt,text="oKk") 
> tkpack{label,bouton) 


Ne) 
_ eŸ 
et pour ferme la fenêtre on utilisera la commande tkdestroy( ) : 


Gui {64-E 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


> tt<-tktopleveli) 

> label<-tklabeli(tt,text="R UI") 
> bouton<-tkbhuttoni(tt,text="ok") 
> tkpack{label,bouton) 


<Tcl> 


> tkdestroyi(itt) 
> | 


Autre exemple: 
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R R Console 


> tt<-tktopleveli) 
> tkpack(txt.w<-tktext(tt)) 

<Tel> 

> tkinsert(txt.w,"0.0","plot(1:10)") 

<Tel> 

> eval.txt<-function() 

+ eval(parse (text=tclvalue(tkget (txt.w,"0.0","end")))) 

> tkpack(but.w<-tkhutton(tt,text="Submit",command=eval.txt)) 
<Tcl> 
>| 


et si on clique sur Submit il vient: 


Ou: 


R Statistical Software 2985/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


RGu , [R Cc 


R Fichier Edition Voir Misc Packages Fenêtres Aide 


EC) 


> rb1 <- tkradicbuttonitt) 
> rb2 <- tkradicbuttonitt) 
> rhValue <- telVar ("import") 
> tkconfigure(rbil,variable=rhValue,value="import") 
<Tel> 
> tkconfigure(rb2,variable=rhValue,value="random") 
<Tel> 
> tkgrid(tklabelitt,text="Which kind of data set?"}, 
+ columnspan=s5s) 
<Tel> 
> tkgrid(tklabeli(tt,text="Import"),rbi) 
<Tel> Which kind of data set? 
> tkgrid(tklabelitt,text="Random") ,rb2) Import 6 
<Tel> 
done <- tclVar (0) Random © 
OnOkK <- function) 
{ 
Data <<- as.character (telvalue (rbValue)) 
telvalue (done) <-1 
tkdestroyitt) 
} 
OK.but <- tkhuttoni(itt,text="OK",command=On0k) 
tkgridiOK.but,row=4, column=3) 
<Tel> 
> tkwait.variable (done) 


Un peu plus sympa: 


require (tcltk) 
require (tkrplot) 
genplot = function(m,s,n)t{ 
dat = c(rnormi(n,m,s)) 
plot(density(dat),type='l',main-'Simulation Loi Normale") 


} 


doplot = function(...)t{ 
m = as.numeric(tclvalue(mean)) 
s = as.numeric(tclvalue(sd)) 
n = as.numeric(tclvaluel(n)) 


genplot (m,s,n) 


} 


base = tktoplevel() 
tkwm.title (base, "Simulation Loi Normale) 
mainfrm = tkframe (base) 


mean = tclVar(10) 
sd tclVar(l) 
n tclVar(1000) 


img = tkrplot (mainfrm,doplot) 

scalefunc = function(...)tkrreplot (img) 

sc 1 = tkscale(mainfrm,command=scalefunc, from=-10,to=10,showvalue=TRUE, 
variable=mean, resolution=.01,orient="'horiz") 
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sc_2 = tkscale(mainfrm,command=scalefunc, from=0.1,to=10,showvalue=TRUE, 
variable=sd,resolution=.01,orient="'horiz') 

sc_3 = tkscale(mainfrm,command=scalefunc, from=1,to=100000, showvalue=TRUE, 
variable=n,resolution=10,orient="'horiz') 

tkpack(img) 


m = tkframe (mainfrm) 
tkpack(tklabel(m,text='Mean, SD',width=10),side='left") 


tkpack(tkentry(m,width=5,textvariable-mean) ,side='left") 
tkpack(tkentry(m,width=5,textvariable-=sd),side='left") 
tkpack(m,side='top') 

tkpack(sc 1) 

tkpack(sc 2) 

tkpack(sc 3) 


tkpack(mainfrm) 


Ce qui donne: 


ME Simulation Loi es) 


Simulation Loi Normale 


6 ) 10 12 


N=1000 Bandwidth = 02209 


Mean, SD 10 
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R via Microsoft Office Excel (RExcel) 


Pour ceux qui ont absolument du mal à utiliser R en ligne de commande voici une solution 
possible pour utiliser R depuis Microsoft Excel: 


D'abord il vous faudra installer le logiciel statconnDCOM téléchargeable à l'adresse Internet 
suivante: 


http://rcom.univie.ac.at/download/current/statconnDCOM.latest.exe 


Une fois le fichier téléchargé vous lancez l'installation ce qui donnera sur un environnement 
Microsoft Windows: 


4 Setup - statconnDCOM Chn| ni 1e fe 


Welcome to the statconnDCOM 
Setup Wizard 


This will install statconnDCOM 3.6-0B 1 Noncommercial on your 
computer. 


It is recommended that you dose all other applications before 


Click Next to continue, or Cancel to exit Setup. 


Passssesneneeneneneennessnse 


Vous cliquez sur Next: 
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Please read the following important information before continuing. statconn » 


Please read the following License Agreement. You must accept the terms of this 
agreement before continuing with the installation. 


STATCONNDCOM HOME&STUDENT LICENSE 
(Version 3.3, January 1, 2014) 


Copyright (C) 2008-2014 Thomas Baïer. All rights reserved. 


This License applies to the computer program known as “statconnDCOM", 
The “Program”, below, refers to such program, and a “work based on the 
Program” means either the Program or any derivative work of 

the Program, as defined in the United States Copyright Act of 1976, such as 
a translation or a modification. Please note that statconnDCOM may 


Please read the following important information before continuing. statconn » 


When you are ready to continue with Setup, dick Next. 


This license is the least restrictive of all licenses but it is not free. 


Examples where only this license applies: 

* consulting work for a company 

* internal use at a company 

* use in a research project 

* paid use in a non-profit organization (if either the user or the organization is 
getting paid for doing the work) 


Vous cliquez à nouveau sur Next: 
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Where should statconnDCOM be installed? statconn» 


à Setup will install statconnDCOM into the following folder. 


To continue, dick Next. If you would like to select a different folder, dick Browse. 


At least 6,4 MB of free disk space is required. 


pren : , statconn » 


Select the components you want to install; dear the components you do not want to 
install. Click Next when you are ready to continue. 


Current selection requires at least 10,3 MB of disk space. 


et Next: 
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Select Start Menu Folder “he. 
Where should Setup place the program's shortouts? sr à 


LL Setup will create the program's shortcuts in the following Start Menu folder. 


To continue, dick Next. If you would like to select a different folder, dick Browse. 


nn \DCOM 


ea stateonn 
Setup is now ready to begin installing statconnDCOM on your computer, 


Click Install to continue with the installation, or dick Back if you want to review or 
change any settings. 


Destination location: 
C: Program Files (x86) \statconn\DCOM 


Setup type: 
Local Server Installation 


Selected components: 
Local Server Files 
Simple Server Test Files 


Start Menu folder: 
statconn\DCOM 


et enfin Install pour avoir après quelques secondes: 
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54 Setup - statconnDCO 


Completing the statconnDCOM 
Setup Wizard 


Setup has finished installing statconnDCOM on your computer. 
The application may be launched by selecting the installed 
icons. 


Click Finish to exit Setup. 


et on clique sur Finish. Une fois ceci fait, vous télécharger le logiciel RExcel sur le lien 
suivant: 


http://rcom.univie.ac-at/download.html 
Ÿ 


Vous aurez alors après le téléchargement et à l'exécution de l'installation, la boîte de dialogue 
suivante: 


Welcome to the RExcel Setup 
Wizard 


housse 


This will install RExcel 3.2. 14 HomeAndStudent on your 
computer. 


Itis recommended that you dose all other applications before 
continuing. 


Click Next to continue, or Cancel to exit Setup. 


www.statconn.com 
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Vous cliquez sur Next: 


Please read the following important information before continuing. 


Please read the following License Agreement, You must accept the terms of this 
agreement before continuing with the installation. 


REXCEL HOME AND STUDENT USE LICENSE 
(Version 3.1, July 27, 2013) 


Copyright (C) 2008-2013 Erich Neuwirth & Thomas Baïer. 
All rights reserved. 


NOTE: This license is not the same as any of the GNU Licenses 
published by the Free Software Foundation. Its terms are 
substantially different from those of the GNU Licenses. 

If you are familiar with the GNU Licenses, please read this 
license with extra care. 


22 


© 1 do not accept the agreement 


Ci-dessus vous cliquez sur I accept the agreement et ensuite sur Next: 
NS 


Please read the following important information before continuing, 


When you are ready to continue with Setup, dick Next. 


You are about to install RExcel, an add-in to make R accessible + 
om within Excel. 


IMPORTANT CHANGES, PLEASE READ THIS 
DOCUMENT! 


Version 3.2.12 introduces a new change: It does not modify 
SRHOME\etc\RProfile site any more, 

As a consequence, an Rgui or Rterm instance started from 
outside of Exce-RExcel will not be accessible by RExcel. 


Cérmatianre D Lans Hs D Drm l annmanes senell mr mers man iannbmumne nf D 


Vous lisez très attentivement ce qui est écrit en rouge et cliquez sur Next: 
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Select Destination Location 
Where should RExcel be installed? 


À Setup will install RExcel into the following folder. 


To continue, dick Next. If you would like to select a different folder, dick Browse. 


C:\Program Files 


At least 1,2 MB of free disk space is required. 


Vous cliquez sur Next: 


Select Components 
Which components should be installed? 


Select the components you want to install; dear the components you do not want to 
install. Click Next when you are ready to continue. 


Current selection requires at least 1,2 MB of disk space. 


Encore sur Next et apparaît le message suivant qu'il faut lire attentivement!: 
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[7] A certificate for the RExcel developer team will be installed. 


This certificate help avoiding dialogs asking the user for permission to 
run macros 
in workbooks signed by the RExcel developers. 


If you do not install the certificate, everything will still work, 

but from time to time dialog boxes will ask for permission to run 
macros 

in the workbooks used by RExcel. 


While installing the Excel addin Excel remains minimized. 

At the end of the installation process a dialog box should appear. 

In some cases this dialog box is covered by other windows. 

The taskbar at the bottom of your screen will show that Excel is active 
when this happens. 


So please watch the taskbar and when an Excel task appears 
click the the Excel icon there. Then the dialog box will be displayed 
on top of the other windows. 


On clique sur OK (pas le choix...) et on lit à nouveau attentivement le message suivant: 


On some machines, installing RExcel in Excel 2010 does not work, 
We have not yet been able to locate the problem. 

It seems to be related to security settings on the machine. 

If you experience such a problem, please read the debugging guide 
in the Wiki at our web site at http://rcom.univie.ac.at, 

subscribe to the mailing list at the web site, 

and post the configuration of your machine there. 
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Quand vous cliquerez sur OK, après quelques secondes l'icône de Microsoft Excel se mettra à 
clignoter dans la barre des tâches et il faudra cliquer sur l'icône de Microsoft Excel pour 
cliquer sur OK dans la boîte de dialogue qui apparaît: 


ŒM'A9-C@- à Dés ‘  RExce2007xlam - Microsoft Excel ES, x ) 
Fichier Accueil | Insertion Mise en page Formules Données Révision Affichage Compléments Équipe & Q 
F $ L "|| A ae Insérer + x - à7 h 
E3 G Z S- 3 - % 000 Supprimer + . Z 
Coller Ne s Re Style |  _ Trieret Rechercher et 
+ ESS PF Br ,00 +,0 Z EE] Format - 2” filtrer- sélectionner 
Presse-papiers [x Police Ca Alignement Ga Nombre G | Cellules Édition 


RExcel add-in is now installed for all users 
and activated for the current user in Excel 2010. 


The section ‘Installation for multiple users’ 
in the RExcel help file explains how to activate 
RExcel for other users. 


_x_ | 


BOU 10% 


To see information about the latest changes in RExcel 
click "About RExcel" on the RExcel menu 

and then click the "Help and Documentation" button 
on that dialog box. 


Free support is only available by subscribing to the rcom-l mailing list 
at rcom.univie.ac.at and posting your questions there. 


Nous cliquons sur OK: 
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Completing the RExcel Setup 
Wizard 


Setup has finished installing RExcel on your computer. 
Click Finish to exit Setup. 


statconn }» 


www.statconn.com 


et enfin sur Finish. 


Normalement vous aurez alors sur le bureau l'icône spéciale RExcel... qui aura été rajoutée 
automatiquement: Ÿ 
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Quand Microsoft Excel s'ouvre, nous avons alors dans le ruban Complément le menu RExcel 
qui est visible: 


Accueil Insertion Mise en page Formules Données Î Compléments | 


Close R 


Run Code 
Get R Value 


Put R Var 


Get R output 


Set R working dir 


Load R file 

Copy Code 

Debug R 

Error Log 

Options 

Set R serve 

RExcel Help 

R Help 

Demo Worksheets à 

Mark Calc cells 
R about RExcel 


Cependant, une fois le package Remdr installé dans R (install.packages('""Remdr'')), nous 
avons une option en plus nommée RCommander/with Excel menus: 


x]l lasseurl - Microsoft = 
Accueil Insertion Mise en page Formules Données Révision Affichage [ Compléments | & S € 
Ben 
Close R 
Run Code 
Com Get R Value » E 
Put R Var » £ 
Get R output Ta E F GE [ 1 = 
Set R working dir 
2 Load R file 
ë Copy Code 
4 
5 Debug R 
6 Error Log 
7 Options 
La! Set R server = 
9 | © Rexcel Help 
10 @ k Help 
: | stecmns 
12 : 
Demo Worksheets ? with separate menus 
Mark Calc cells 
ns R About RExcel 
16 
17 
K 4» M] Feuil1 /’Feui2 /’Feui3 /?3 1] 4 ii AI 


prêt |. 22. | ns = D. .100% 0 (+) 
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S1 nous cliquons dessus apparaît alors une barre d'outils de menus: 


Accuel Insertion Mie en page Données  Révon Affichage 
Excel - ER fie » Onta - States + Graphs * Modeïs + Dutributions  Tooïs * Help » 


Forrmies Compléments 


Barres d'outis personmabsées 


Maintenant voyons les manips les plus importantes à savoir faire. 


Le minimum minimorum est de savoir convertir une plage de données Microsoft Excel en un 
data frame KR. Pour cela, après avoir saisi des données, on fait un clic droit et on choisit Put R 


DataFrame: 


Œ a 7% Casa mans Es TT 


- = + 
Fichier Accueil Insertion Mise en page Formules Données Révision Affichage | Compléments, & Q - & =. 
RExcel * R File + Data * Statistics * Graphs * Models - Distributions - Tools * Help 


Dataset: No active datafri + Model: No active model + 


PE 


Commandes de menu 


« 


00 >,0 


; u I E E 


Calibri -11 + A a” Æ3 - % 000 
CE LE 
G Z = Ro : À - <,0 ,00 


> [1 


R Run code 
Get R Value 
Put R Var 
3 Get R DataFrame 
| PutRDataFrame 


Get R Output 


Insert Current R Plot 
Name Range 
Prettyformat Numbers 


Couper 


Copier 
Options de collage : 


Collage spécial... 


Œ à 


Insérer... 

Supprimer. 

Effacer le contenu 

Filtrer L 

Trier L 
3 insérer un commentaire 


ÉF Format de cellule 


Liste déroulante de choix... 


Définir un nom... 
M4» | Feuill Fe @ Lien hypertexte... IA 
oyenne : 1758637214 ND (NON VIdes): 12 SOmme : 17.037214 | ET 
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Il vient alors la boîte de dialogue suivante où on va saisir DemoËxcel comme nom du data 


frame: 
= 
Put datframeinR 


Ensuite, nous pouvons vérifier que ce data frame a bien été créé en faisant une petite analyse 
élémentaire: 


Accueil Insertion Mise en page Formules Données Révision Affichage Compléments 


RExcel R File - Data - [Statistics] Graphs + Models - Distributions * Tools - Help - 


Contingency tables  ? Numerical summaries.. 

Commandes de menu Means » Frequency distributions cc 
Proportions > Count missing observations 
Variances > Table of statistics G H 
Nonparametrictests Correlation matrix. 
Dimensional analysis ? Correlation test. 
Fit models e Shapiro-Wilk test of normality... 


KA 
EA 
Es! 
EX 
10. 
ET 
22 
4 
14 
= | 
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Nous avons alors bien dans la fenêtre R Commander: 


Script R 


ummary (DemoExcel) 


> summary (DemoExcel) 
X y 

Min. :1.00 Min. :0.4541 
1885 Qù:51.75 1st Qu.:0.4595 
Median :2.50 Median :0.6834 
Mean 2:30 Mean :0.6932 
3rd Qu. :3.25 3rd Qu.:0.9171 
Max. :4.00 Max. 20:9517 
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Sinon autre manipulation trivial: Faire un graph. 


Voyons comment procéder à partir d'un exemple générique: 


Fichier Accueil Insertion Mise en page Formules Données Révision Affict 
RExcel R File + Data * Statistics * [Graphs +] Models + Distributions - Tools - Helf 
Dataset: DemoExcel "A Color palette... 
Index plot... 
Commandes de menu Histogram... 
E—— 


Density estimate. 


Stem-and-leaf display... | 


Boxplot... 


Quantile-comparison plot... 


Scatterplot... 


En XY conditioning plot.. 

Fa Plot of means 

| Strip chart... 

EU Bar graph 

pe 3D graph > 
— Save graph to file > 
14 


Il vient alors la boîte de dialogue ci-dessous dans laquelle il faut sélectionner en bleu les 
variables voulues pour que RCmdr sache ce qu'il doit prendre comme variables en entrée et en 
sortie: 


CLSC RS EE | 


variable x (une) variables y (une ou plusieurs) 


ÉD Aide | % Réinitialiser : C_#x || 2 Annuler ll € Appliquer | 
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Une fois que nous validons sur OK, nous obtenons: 


|ichier Historique Redimensionnement 


[sciver 


with(DemoExcel, lineplot(x, y)) 


« 


Sortie 


> with(DemoExcel, lineplot(x, y)) 


« » 


Messages 


[4] ERREUR: Les variables x et y doivent être différentes 
[5] ERREUR: Vous devez sélectionner deux variables 
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Maintenant, voyons une possibilité beaucoup plus importante! La possibilité d'utiliser les 
fonctions R directement dans les cellules Microsoft Excel. 


Pour cela, il suffit d'utiliser d'appeler la fonction RApply() en passant en argument le nom 
de la fonction R et ensuite les paramètres correspondants: 


Les | Accueil Insertion Mise en page Formules C 


& Couper |; lai 
| É3 Copier + 
Coller Éd nie G Z S$S SE | 
Presse-papiers Fa Police 
SOMME Tex“ =RApplyl"anorm":t 
B C D 


=RApply("qnorm";0.025) 


u'B ww NN 


et en validant, nous avons alors: 


CRE 
Accueil Insertion Mise en page For 


F Couper Calibri 


É3 Copier - 
rss $ Reproduire la mise en forme Sie: 
Presse-papiers [p Pc 
A2 ve £ 


Cela marche donc bien! 
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37. Divers 


Dans ce chapitre nous avons souhaité mettre des scripts si possibles petits dont l'importance 
nous semble majeure pour certains besoins métiers et dont 1l n'existe pas à notre connaissance 
de packages. 


Traitement d'images jpeg 


Bon évidemment R ce n'est pas MATLAB au niveau des images mais évidemment il y a un 
certain potentiel... donc voyons ce que nous pouvons en tirer à ce jour. 


D'abord lire et afficher une image à l'aide du package jpeg et sa fonction readJPEG ): 


R 8 Console RER ES 


> library(ijpeg) 

> myimg<-readJPEG("C:/tmp/Lenna.;ijpg") 

> plot (NA,xlim=c(0,1),ylim=c(0,1),xlab="",ylab="",axes-F) 
> 

> 


rasterImage (myimg, 0, O, 1, 1) 


Nous pouvons bien évidemment extraire une des trois couches RGB. Par exemple ici le vert 
(27% couche): 
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R 8 Console | ©) | ES |! 


> myimgRed<-myimg!,,2] 
> rasterlmage (myimgRed, 0, 0, 1, 1) 
> | 


R R Graphics: Device 2 (ACTIVE) 


Après on peut attaquer donc les contenus de chacun des matrices de chacune des couches de 
couleur à loisir. 


Voyons maintenant ce que met à disposition le package EBImage de Bioclite: 
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MR RGui (64-bit) - [R Console] — 
R File 


Edit View Misc Packages Windows Help 6 x 


EC] 


> library("BiocManager") 

> BiocManager::install("EBlmage") 

Bioconductor version 3.9 (BiocManager 1.30.10), 
Installing package(s) "EBlmage' 

Warning: package ‘EBlmage’ is in use and will not be installed 


R 3.6.3 (2020-02-29) 


Installation path not writeable, unable to update packages: boot, class, 
KernSmooth, lattice, MASS, nlme, nnet, spatial, survival 

Old packages: 'arm', ‘'gridSVG', 'labelled', '"RcppArmadillo', "RCurl', 
"rootSolve', "VGAM', ‘'xml2' 


Update all/some/none? [a/s/nl:n 
> | 


Une fois installé, chargeons un image avec la fonction readImage( ) et affichons là à l'écran 
avec la fonction display( ): 


MR RGui (64-bit) 
R File Edit Packages 


AC] 
| 


> library("EBlmage") 
> myimg<-readImage ("c:/tmp/Lenna.jpg") 
|> print (myimg) 


[R Console] _ 


View Misc Windows Help 


Image 
colorMode Color 
storage.mode double 
dim : 512 9512 3 
frames.total : 3 


frames.render: 1 


imageData (object) [1:5,1:6,1] 


[1,] 
[2,1] 
[3,] 
| [4,1] 
[5,1] 


[1] 
0.8823529 
0.8784314 
0.8745098 
0.8745098 
0.8901961 


[,2] 
0.8705882 
0.8784314 
0.8784314 
0.8784314 
0.8862745 


> display (myimg) 


> 


[73] 
0.8705882 
0.8784314 
0.8823529 
0.8784314 
0.8862745 


[4] 
0.8784314 
0.8823529 
0.8823529 
0.8784314 
0.8823529 


Ce qui ouvre le navigateur: 


[75] 
0.8862745 
0.8901961 
0.8823529 
0.8705882 
0.8823529 


[6] 
0.8901961 
0.8901961 
0.8823529 
0.8666667 
0.8823529 
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index.html x + 


G@ © File | C:/Users/Vincent Isoz/.. 


Image: 512x512 Frame: 1/1 Zoom: 100% 


On peut afficher l'histogramme du spectre RVB: 
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Sciences.ch 


Q À Console sex) 
> hist (myimg) 
> 
® À Graphi 2 RES 
Image histogram: 786432 pixels 
o 
[e)] 
[æ)] 
9 
o 
o 
[e) 
eo 
2 
= 
=) 
8 
o 
oO 
[e)] 
le 
oo 
00 02 04 06 0.8 10 
intensity 


et attaquer (bien évidemment!) les composantes des trois matrices RVB soit globalement soit 


individuellement comme l'illustre l'exemple simpliste suivant: 


R File Edit View Misc Packages Windows Help 


> display(myimg+0.5) 
à 


Ce qui donne à nouveau dans le navigateur: 
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On peut additioner des images avec ce package (sous la condition qu'elles ont les mêmes 
dimensions bien évidemment!). 


R RGui (64-bit) - [R Console] — O X 
ŒR File Edit View Misc Packages Windows Help - 5x 


> colorMode (myimg)<-Grayscale 


> display(myimg) L 
> | = 


< > 


Ce qui donne dans le navigateur: 
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Sciences.ch 


Pour revenir à la couleur, nous écrirons: 


| R RGui (64-bit) - [R Console] _ X 


ŒR File Edit View Misc Packages Windows 
SIeTaI 


> colorMode (myimg)<-Color 
> display(myimg) 
A 


Help 


On peut aussi bien évidemment rogner l'image: 


R RGui (64-bit) - [R Console] au 


ŒR File Edit View Misc Packages Windows Help 4 x 


ETC) 


> P (myimg(50:450,50:450,]) 
> 


Ce qui donne dans le navigateur: 
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On peut sauvegarder le résultat avec la fonction writelmage( ): 


MR RGui (64-bit) - [R Console] 


GR File Edit View Misc Packages Windows Help - 


> writelmage (myimg[50:450,50:450,],"c:/tmp/LennaCropped. jpg") 
> | 


On peut aussi tourner une image ce qui donnera: 


MR RGui (64-bit) - [R Console] 


ŒR File Edit View Misc Packages Windows Help 


> display(flip(myimg[50:450,50:450,])) 
> 


Ce qui donnera dans le navigateur: 
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ou faire une rotation: 


R RGui (64-bit) - [R Console] 
GR File Edit View Misc Packages Windows Help 


SIT) 


> display(rotate (myimg[50:450,50:450,],45)) 
> | 


Ce qui donnera dans le navigateur: 
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Ou faire un mirroir (symétrie verticale): 


| R 
| GR File Edit View Misc Packages Windows Help 


| > display(flop(myimg(50:450,50:450,])) 
|> | 


Le 


Ce qui donne dans le navigateur: 
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On peut aussi redimensionner: 


R RGui (64-bit) - [R Console] 
R File Edit View Misc Packages Windows Help 


> display(resize (myimg[50:450,50:450,],200,200)) 
> | 


Ce qui donnera dans le navigateur: 


Il y aussi des filtres et bien d'autres fonctionnalités que le lecteur pourra trouver dans la 
documentation du package correspondant! 
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Reconnaissance de texte sur image (OCR) 
Ce qui suit n'est qu'une petite version adaptée de la vignette disponible ici: 


https://cran.r-project.org/web/packages/tesseract/vignettes/intro.html 


Considérons l'image suivante: 


This is a lot of 12 point text to test the 
ocr code and see if it works on all types 
of file format. 

The quick brown dog jumped over the 
lazy fox. The quick brown dog jumped 
over the lazy fox. The quick brown dog 
jumped over the lazy fox. The quick 
brown dog jumped over the lazy fox. 


Nous souhaitons en extraire le texte. Pour cela nous utilisons la fonction ocr( ) du package 
tesseract: 
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GR RGui (64-bit) - [R Console] — 


R File Edit View Misc Packages Windows Help 6, x 


> library("tesseract") 
> #on définit la langue de reconnaissance 
> eng<-tesseract ("eng") 
> text<-ocr("c:/tmp/testocr.png",engine=eng) 
[> cat(text) 

This is a lot of 12 point text to test the 
ocr code and see if it works on all types 
of file format. 


The quick brown dog jumped over the 
lazy fox. The quick brown dog jumped 
over the lazy fox. The quick brown dog 
jJumped over the lazy fox. The quick 
Th dog jumped over the lazy fox. 

> 


«Q 

: : SE L : 
La fonction ocr_data( ) renvoie tous les mots dë l'image avec un cadre de sélection et un taux 
de confiance: 
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MR RGui (64-bit) - [R Console] — C] 


QR File Edit View Misc Packages Windows Help = |- ne : 


> ocr_ data("c:/tmp/testocr.png",engine=eng) 
# A tibble: 60 x 3 
word confidence bbox 


<chr> <db1l> <chr> 
| 1 This 96.6 36,92,96,116 
2 is 96.9 109,92,129,116 
3 a 96.3 141,98,156,116 
4 lot 96.3 169,92,201,116 
5 of 96.5 212,92,240,116 
6 12 96.5 251,92,282,116 
7 point 96.5 296,92,364,122 
8 text 96.5 374,93,427,116 
9 to 96.9 437,93,463,116 
10 test 97.0 474,93,526,116 
- à with 50 more rows 
> 


On peut télécharger d'autres langues avec la comffiande tesseract_download( ) et vérifier 
qu'elle soit bien installée à l'aide de la fonctionttesseract_info( ): 


MR RGui (64-bit) - [R Console] — 


GR File Edit View Misc Packages Windows Help 5 X 


> tesseract download("fra") 
Downloaded: 1.08 MB (100%) 
[1] "C:\\Users\\Vincent Isoz\\AppData\\Local\\tesseract4$ 
> tesseract_info()$available 
| [1] "eng" "fra" "osd" | 
> 
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Géolocaliser une adresse IP 


Nous avons déjà vu comment utiliser des coordonnées de latitude et de longitude pour les 
représenter sur une carte géographique. Mais... dans le cadre du marketing de plus en plus de 
community manager doivent analyser des adresses IP et les obtenir leurs coordonnées. 


Voici un script pour cela: 


freegeoip <- function(ip, format = 
ifelse(length(ip)==1,'list',"'dataframe')) 
{ 
if (1 == length(ip)) 
{ 
# a single IP address 
require(rjson) 
url <- paste(c("http://freegeoip.net/json/", ip), collapse="'") 
ret <- fromJSON(readLines (url, warn=FALSE)) 
if (format —= 'dataframe') 
ret <- data.frame(t(unlist(ret))) 
return(ret) 
} else !{ 
ret <- data.framei) 
for (i in l:length(ip)) 
{ 


r <- freegeoip(iplil, format="dataframe") 
ret <- rbindi(ret, r) 
} 


return(ret) 


LC 
} S 
<Ÿ 


Il suffit alors d'exécuter la commande suivante dans R: 


>freegeoip('169.254.38.80") 


Ce qui permet d'obtenir plusieurs informations comme la latitude, longitude, le pays et 
autres. 
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Logique Floue 


Comme nous l'avons mentionné dans le cours théorique, la logique floue est significativement 
utilisée en ingénierie (robotique, mécanique) mais aussi en Data Mining/Machine Learning et 
psychologie et autres. 


Nous avons aussi mentionné que l'exemple classique est celui du "problème du pourboire" 
que nous avons détaillé dans le cours théorique. Le but ici est de voir comment le reproduire 
dans R! 


Nous allons donc utiliser le package FuzzyR avec les fonctions correspondantes addvar() , 
addmf(}) etc.: 


R RGui (64-bit) - [R Console] _ O 


GR File Edit View Misc Packages Windows Help MIX 


EBOIBCE 


library (FuzzyR) 
fis= newfis('tipper') 


fis= addvar(fis, 'input', "service', c(0,10)) 

fis= addvar(fis, '"'input', '"food', c(0,10)) | 
fis= addvar(fis, 'output', "tip', c(0,30)) | 
fis= addmf(fis, 'input', 1, '"poor', 'gaussmf', c(1.5,0)) | 
fis= addmf(fis, "input', 1, ‘"good', 'gaussmf', c(1.5,5)) 

fis= addmf(fis, 'input', 1, 'excellent', 'gaussmf', c(1.5,10)) 

fis= addmf(fis, 'input', 2, "rancid', "'trapmf', c(0,0,1,3)) 

fis= addmf(fis, 'input', 2, "delicious', 'trapmf', c(7,9,10,10)) 

fis= addmf(fis, 'output', 1, 'cheap', 'trimf', c(0,5,10)) 

fis= addmf(fis, '"output', l, 'average', 'trimf', c(10,15,20)) 

fis= addmf(fis, 'output', 1, 'generous', 'trimf', c(20,25,30)) 


VUYUNVNNVNNVNNNN NV 


rules= rbind(c(l,l,1,1,2), c(2,0,2,1,1), c(3,2,3,1,2)) 


fis= addrule(fis, rules) 


VUYNVNNVNNVNNNNNN NV 


showrule (fis) 
If (service is poor) or (food is rancid) then (tip is cheap) (1) 
If (service is good) then (tip is average) (1) 
If (service is excellent) or (food is delicious) then (tip is generous) (1) 
evalfis(c(l,2), fis) 
| [,1] 
| [1,] 5.558586 
| > evalfis(rbind(c(3,5), c(2,7)), fis) 
| (,1] 
[1,] 12.218379 
| [2,1] 7.788532 
| > gensurf(fis) 
>| 


V & 1) + 


et la non moins fameux graphique correspondant: 
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Microsoft Power BI Desktop 


Les fans de PowerPivot, Power View, Power Map et Power Query dans Microsoft Excel 
connaissent bien Power BI. II s'agit de l'outil bureautique client de Microsoft pour le 
développement de tableaux de bords publiables ensuite si besoin sur une plateforme Internet 
Power BI (cloud) ou sur un serveur On-Premise hebergé dans les locaux de votre entreprise. 
Depuis la version de Décembre 2015 il est possible de connecter Power BI à des scripts R 
comme nous allons le voir (au jour où nous écrivons ces lignes cette fonctionnalité est en 
beta). 


Continuing 


Stanford Studies 


Maik Henkel 


Attention!!! Suivant la situation 1l vaut mieux inclure les différencts scripts R de Power BI 
dans des fichiers externes *.R et charger ces derniers avec la fonction source( ) . Cette 
pratique est cependant à éviter si vous utilisez Power BI Service. 
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Exemple 1.: Importer (et traiter) des données avec R 
MRO 3.4.2 


Maintenant, nous ouvrons Power BI: 


M, Q © © @- - | Sans titre - Power BI Desktop _ oO x 
Dossier racine 


Couper à [D ==s! Zone de texte ae) Organiser = [ = 
[à Là EE Ex Qc Le) 


Copier Image Alignement 


Obtenir des Sources Entrer des Modifier les Actualiser Nouvelle Nouvel F Modifier les Distril Mode Gérer les Nouvelle Publier 
ormes Distribuer 


Reproduire la mise en forme | données récentes” données requêtes page _ élément visuel interactions Page” relations mesure 


Presse-papiers Données externes Insérer Éléments visuels Affichage Relations Calculs Partager 


Visualisations Champs 


» FH Requêtel 


‘hi LI 
CE 


Filtres 


PAGE 1 SUR 1 


Nous cliquons sur le bouton Obtenir des données et Autres.…..: 


M, Q © © @- - | Sans titre - Power BI Desktop 


File Dossier racine 


*, Couper 


d [à 
Copier LH (D FT 


Coller & juire | f lObtenir des| Sources Entrer des 
d produire mise en form | lé â 
PPFOCRNE M MAS EN TON) récentes 7 données 


Presse-papiers Les plus courantes Per 


Œ Excel 


æ SQL Server 


Analysis Services 


CSV 
Æ Web 
(5:] 
Flux OData 


Requête vide 


Ensuite: 
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Obtenir des données 


Toutes 


& Active Directory 
| Toutes Le) 
Microsoft Exchange 
Fichier 
Dynamics CRM Online 


Base de données 
Facebook 


Azure 
Google Analytics 


Autre 
Objets Salesforce 
Rapports Salesforce 


ODBC 


Script R (Bêta) 


C0 tk E 


Base de données SAP HANA (Bêta) 


appFigures (Bêta) 


8 


GitHub (Bêta) 


à «a 


MailChimp (Bêta) 


à 


Marketo (Bêta) 


[e 


QuickBooks Online (Bêta) 


< 


Smartsheet (Bêta) V 


Nous cliquons sur Se connecter: 


5H Hse @- + | Sans titre - Po 
Dossier racine 
y X, Couper BR [È FF ES Zone de texte Fa Organiser 
LH © A 


A Copier - Image © Alignement 
Coller Ke bresenr Obtenir des Sources Entrer des Modifier les Actualiser Nouvelle Nouvel n ë Modifier les 3 Mode 
Reproduire la mise en forme jonnées+ récentes” données requêtes page élément visuel Formes interactions Distribuer Page 
Presse-papiers Données externes Insérer Éléments visuels Affichage 
Visualisations 
é 2 |: . : 
à Connecteur en version préliminaire 


Le connecteur Script R est toujours en phase de développement. Testez-le et faites-nous part de vos 
commentaires. Nous ne pouvons pas garantir qu'il fonctionnera de la même manière dans la version finale. Les 


changements futurs peuvent rendre vos requêtes incompatibles. 


et nous cliquons sur Continuer: 
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CL He @- + | Sans titre - Power BI Desktop 


rie | Dossier racine 


*, Couper n Le l === Zone de texte [1 Organiser 
© | d 4- 
Copier 5 ER A Image V0 Alignement 
Coller : d L f Obtenir des Sources Entrer des Modifier les Actualiser Nouvelle Nouvel = Modifier les DS Mode 
teproduire la mise en forme p A A È ormes stribue 
He end données * récentes ” données requêtes page élément visuel “- interactions Borel Page 
Presse-papiers Données externes Insérer Éléments visuels Affichage 


Exécuter un script R 


Exécutez un script R sur une installation R locale et importez les trames de données résultantes. 


4 Paramètres de l'installation de R 

Utiliser R installé à l'emplacement suivant : 
C:\Program Files\R\R-3.2.1 

Comment installer R 


«og 
On met le script par exemple suivant (simple préÿection financière temporelle utilisant la 
méthode de Holts et Winters): 
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En |H96e @- + | Sans titre - Power BI Desktop 


Dossier racine 
y X Couper [ES [È FE FA SN tal I [=] Zone de texte D organis 
al (Q] PA <7 [A ll 


| E Copier r Image [= Alignem 
oller x enir des Sources rer des Modifier les ualiser ouvelle ouve odifier les … 
Coll SR vel f Obtenir des S Entrer des Modifier les Actual N Il N [ RE Modifier | fe Distrib 
£ £ £ A. e1£ Ç rl : Ï 
eproquire la MISE En TOME | Gonnées récentes * données requêtes page élément visuel # CU interactions PISIMIOU! 
Presse-papiers Données externes Insérer Éléments visuels 


ll © Ce rapport contient un ou plusieurs éléments visuels de script. Les éléments visuels de script peuvent exécuter du code de script qui peut contenir des risd 


Exécuter un script R 


Exécutez un script R sur une installation R locale et importez les trames de données résultantes. 


library(forecast) 
mydata<-read.csv("c:/tmp/AnalyseTemporelle.csv",header=T,sep=";") 
mydata<-ts(mydata,start=c(2010,1),frequency=4) 
ses<-HoltWinters(mydata,seasonal="multiplicative") 
mydata.predict<-predict(ses,n.ahead=-12) 
mydata<-cbind(mydata,mydata.predict) 
mydata<-data.frame(date=index(mydata), coredata(mydata)) 


R est installé à C:\Program Files\Microsoft\MRO\R-3.2.3. 
Accédez à Options et paramètres pour définir l'installation que vous voulez exécuter, et pour obtenir davantage 
d'options de configuration. 


Après quelques instants: 


M H9e @- + | Sans titre - Power BI Desktop 


Dossier racine 
sc, X, Couper = ù ss] Ex it | [1 Zone de texte D organiser Cl pe 
s LE EL & Go à LJ Es 


| Es copier 


rlimage © Alignement 

re . Obtenir des Sources Entrer des Modifierles Adualiser Nouvelle Nouvel ce Modifier les ne trip Mode Gérerles Nouvelle Publier 
eproduire la mise en forme | données récentes données requêtes page élément visuel 3 FOTMES interactions "2" DIStribuer Page” relations mesure 
Presse-papiers Données externes Insérer Éléments visuels Affichage Relations Calculs Partager 


FA] © Ce rapport contient un ou plusieurs éléments visuels de script. Les éléments visuels de script peuvent exécuter du code de script qui peut contenir des risques liés à la sécurité ou à la confidentialité. En savoir plus 


Connexion en cours 


.3 Patientez pendant que nous établissons une connexion à R. 


Nous avons alors: 
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m'asc@-- Po 
Dossier racine 
— X, Couper Es n FF === [=] Zone de texte fe Organiser = 
Le 1 le) EE — == 
Coller se | X 
Navigateur 
lui D F p mydata pe 
Afficher tout | Afficher les éléments sélectionnés [1] EF ne mydata mydata.predict 
«ÉR [1] 2010 143 null = 
Æ sl mydata 2010.25 152 null 
2010.5 161 null 
2010.75 139 null 
2011 137 null 
2011.25 174 null 
2011.5 142 null 
2011.75 141 null 
2012 162 null 
2012.25 180 null 
2012.5 164 null 
2012.75 171 null 
2013 206 null 
2013.25 193 null 
2013.5 207 null 
2013.75 218 null 
2014 229 null 
2014.25 225 null 
2014.5 204 null 
2014.75 227 null 
2015 223 null 
2015.25 242 null 
2015.5 239 null v 
2015.75 266 null 
| Charger Modifier Annuler 


Page 1 


Et y'a plus qu'à faire des graphiques de type standards Power BI (voir exercice suivant au 
besoin): 


M, Q © © @- - | Sans titre - Power BI Desktop 


Dossier racine 


" À Couper TB see B nel il EZone de texte QE organiser Ï | 
= m5 Ë | le | = { 

Eë copier = | rs AS [| cjimage FE Alignement + 
Coller Renroduëe là en f Obtenir des Sources Entrer des Modifier les Actualiser Nouvelle Nouvel CL = Modifier les of Distribuer Mode Gérer 
# Reproduire la mise en forme  jonnées * récentes” données requêtes page élément visuel EURE interactions RES Page relati 
Presse-papiers Données externes Insérer Éléments visuels Affichage | Relati 


r _ | 


@nmydsta @ mydatapredict 


2,017.00 
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Performances (benchmarking) 


Nous allons voir maintenant comment Power BI performe par rapport à R. Pour cela nous 
allons travailler avec un fichier nommé Ventes.csv d'environ 1.1 GB et contenant environ 12 
millions de lignes: 


#h] Ventes.csv 1,162,848 KB Fichier CSV Microsoft Excel 


Et importer ce fichier et grouper les données comme ci-dessous: 


+ | 123 Somme Quantité 1 
Assurances 9610517 
Machines/Outils 19409657 
Alimentaire 6165916 


Construction 21399771 


Pharmaceutique 15241384 


Distribution 14144231 
Éducation 20779379 
Banques 7437726 


Voici ce qu'il faut savoir concernant ce fichier (sur une machine de test unique servant 
d'étalon à l'exemple!): 


1. L'import classique avec le groupement dans Power BI 32 bits après 6 minutes mène à 
un échec du logiciel (message d'erreurk® 


2. L'import classique avec le groupement dans Power BI 64 bits après 5 minutes 29 
secondes mène à une réussite du logiciel (voir capture d'écran ci-dessus!) 


3. L'import classique dans Power BI 64 bits avec le groupement fait via un script R 64 
bit (voir figure ci-dessous) après 3 minutes et 45 secondes mène à une réussite: 
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Sciences.ch 
m Add Column View Help 
ose Data Type: Text * Lo ” A Ü1 Merge Columns  XO EE 10 Trigonometry FF] Date - Bt R 
EC Ki É 
e Rows 7} Detect Data Type Ré Qu - F L ; ü S Extract 7 Z NES 30 Rounding © Time * 
Fi ŒÏR, 5 f Split Format : & Statistics Standard Scientific inf, t À Durat Structured [Run R 
ows ename ue Column = = 9 Parse = 1 lmormation prete Column + Script 
Any Column Text Column Number Column Date & Time Column Scripts 


| A SETTINGS 
Run R Script 


ERTIES 
Type or paste an R script in the editor below to perform transformation and shaping steps. 
Script 
# “dataset' holds the input data for this script 


data.table )| 
dt_data<-data.table(dataset) 


dt_data<-dt_data[,.(Somme Quantité=sum(Quantité)),by=Activité] 
dataset<-as.data.frame(dt_data) 


The R home directory is currently set to C:\Program Files\R\R-3.5.0. 


Go to Options and Settings to change which installation you want to run, and for more configuration options. 


en] Cancel 


4. L'import et le traitement direct via R selon la méthode vue dans l'exercice précédent: 


X 


R script 


Script 


library(data.table) 
dt_data<-fread("c:/tmp/Ventes.csv",header=T) 


dt_data<-dt_data[,.(Somme Quantité=sum(Quantité)),by=Activité] 
as.data.frame(dt_data) 


The R home directory is currently set to C:\Program Files\R\R-3.5.0. 


Go to Options and Settings to change which installation you want to run, and for more configuration options. 


après 1 minute 2 secondes amène à une réussite. 


On ne peut que conclure que le traitement de données directement via R est beaucoup. 
beaucoup... beaucoup plus performant et ceci sans vraiment d'étonnement… 
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Exemple 2.: Générer des graphiques avec R 
MRO 3.4.2 


Oui vous ne rêvez pas! On peut afficher dans Microsoft Power BI Desktop, des graphiques 
natifs R!!!! 


Voyons cela! 


Vous cliquez sur la petite icône R visible dans le panneau de droite (après avoir importé des 
données): 


VISUALIZATIONS FIELDS 


diamonds 


carat 
clarity 
color 


cut 


price 


table 
FILTERS 


EE 

L | 
LI 
L 1 
LE 
M > depth 
=: 
L] 
LI 
LI 
LI 


Vous aurez alors: 
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= 
L] 
: 
LEE 
L] 
LI 
LI 
L] 
LI 
LE 
mn: 


Et comme indiqué on doit glisser les champs qui nous intéressent pour commencer le 
scripting: 


VISUALIZATIONS FIELDS 


carat 
clarity 
color 
cut 


- depth 


price 
table 


FILTERS 


Le volet inférieur s'affichera alors comme ci-dessous: 
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R script editor 


ÂÀ Duplicate rows were removed from the data. 


# Create dataframe 
# dataset <- data.frame(carat, price, color) 


# Remove duplicated rows 
# dataset <- unique(dataset) 


Page 1 


Et ensuite y'a plus qu'à écrire le script comme à l'habitude sans oublier d'exécuter le script en 
cliquant sur le bouton correspondant: 


X 


Ce qui donne: 


M 'ase- 


Home View Modeling Help Format Data / Drill 
X, Cut D EL ss] FE [à & A #1 ET] Text box Fos 
EB Copy LS IC | #1 < à A AA) n 1] E, dti 


Ec image 
Paste Get Recent Enter Edit | Refreh Solution Partner New New From From 
% Format Painter  Data+ Sources Data  Queries Templates Showcase Page Visual ŒShapes* Store File R 
Clipboard External data Resources Insert Custom visuals R 
lui Fr — ma | 


carat 


R script editor 


AN Duplicate rows were removed from the data. 


# Create dataframe 
# dataset <- data.frame(carat, price, color) 


# Remove duplicated rows 
# dataset <- unique(dataset) 


library("ggplot2") 
ggplot(data=diamonds,aes(x=carat,y=price.colour=color.fill=color)) +geom_point() + geom_smooth() 


Attention!!!! Si vous souhaitez que les filtres Power BI fonctionnent avec vos graphiques, il 
faut alors utiliser le data frame nommé dataset (créé par Power BD) dans le script R et non pas 
votre non de data frame initial! 
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Exemple 3.: Afficher des analyses statistiques ‘'avancées'' avec R (avec 


splots) 
MRO 3.4.2 


En procédant de même qu'avant pour importer des données et pour exécuter un script R et en 
utilisant le package gplots et sa fonction sinkplot() , nous arrivons parfaitement à afficher 
une ANOVA dans Power BI. 


Le script à mettre dans Power BI sera: 


R script editor CE DS 


X 


À Duplicate rows were removed from the data. 


# Create dataframe 
# dataset <- data.frame(Sepal.Length, Species) 


# Remove duplicated rows 

# dataset <- unique(dataset) 

#Ne pas oublier de mettre les champs en mode "Don't summarize"!!!! 
ANOVA <- aov(Sepal.Length - Species, data=dataset) 

library(gplots) 

sinkplot() 

summary(ANOVA) 

sinkplot("plot") 


Ce qui donnera: 
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| Template _PowerBl_R_Ad 


Home View Modeling Help Format Data / Drill 
À Cut [ ! [D FA | . ET il = A=] Text box 
£ an À RS À I = = 
Éc ls Lo EZ Le [Las I ns 
Paste É Past Get Recent Enter Edit Refresh New New  Buttons sh E 
® Format Palnter Data Sources” Data Queries * Page” Visual æ ie Ma 
Clipboard External data Insert ' 
r = E3 +1 


Df Sum Sq Mean Sq F value Pr(>F) 
Species 2 21,29 10.644 23.96 3.57e-08 


Residuals 54 23.99 0.444 


R script editor 


À Duplicate rows were removed from the data. 


# Create dataframe 
# dataset <- data.frame(Sepal.Length, Species) 


# Remove duplicated rows 

# dataset <- unique(dataset) 

#Ne pas oublier de mettre les champs en mode “Don't summarize"!!!! 
ANOVA <- aov(Sepal.Length - Species, data=dataset) 


library(gplots) 
<inknlatf 


Page 1 


PAGE 1 OF 1 


Et bien évidemment on peut ajouter un graphique Box-Whisker et ajouter au tout un slicer 
(filtre général) afin d'obtenir un résultat du genre suivant: 
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Vincent 150 € 


VISUALIZATIONS FIELDS 


PetaLLength 
PetaLWidth 
SepalLength 
SepalWidth 


Sq Mean Sq F value Pr{ 
Species 3 
Residuals 


FILTERS 


R script editor 


À Duplicate rows were removed from the data. 
# Create dataframe 
# dataset <- data.frame(Species, SepalWidth, Sepal.Length) 


# Remove duplicated rows 
# dataset <- unique(dataset) 
librar ? 


Sinon une très bonne alternative est d'utiliser la fonction textplot( ) avec capture.output( ) 
qui a un meilleur rendu à l'écran et permet aussi de contrôler la taille de la typo: 


r = m3 1 
I Ï 
Df Sum 5q Mean Sq F value Pr(>F) 
Species 2 21.29 10.644 23.96 3.57e-08 
Residuals 54 23.99 0.444 
L _ À 


R script editor 


À buplicate rows will be removed from the data. 


# Create dataframe 
# dataset <- data.frame(Sepal.Length, Species) 


# Remove duplicated rows 

# dataset <- unique(dataset) 

#Ne pas oublier de mettre les champs en mode “Don't summarize"!!!l 
ANOVA <- aov(Sepal.Length - Species, data=dataset) 


library(gplots) 
textplot(capture.output(summary(ANOVA)),cex=1.56) 


Bref il est possible de faire de la "vraie" statistique inférentielle (bayésienne, non-bayésienne, 
paramétrique, non-paramétrique, etc.) que de la statistique descriptive scolaire niveau 
collège..….! 


Pour afficher des structures tabulaires nous pouvons sinon utiliser le package gridExtra et sa 
fonction grid.table( ): 
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Sciences.ch 


Fustom 


Sepal.Length 
Min. :4.300 
1st Qu.:5.100 
I Median :5.800 
Mean :5.843 
3rd Qu.:6.400 
Max. :7.900 


Sepal.Width 
Min. :2.000 
1st Qu.:2.800 
Median :3.000 
Mean :3.057 
3rd Qu.:3.300 
Max. :4.400 


Petal.Length 
Min. :1.000 
1st Qu.:1.600 
Median :4.350 
Mean :3.758 
3rd Qu.:5.100 
Max. :6.900 


Petal.Width 
Min. :0.100 
1st Qu.:0.300 
Median :1.300 
Mean :1.199 
3rd Qu.:1.800 
Max. :2.500 


1 


# Remove duplicated rows 

# dataset <- unique(dataset) 
library(gridExtra) 

data(iris) 
grid.table(summary(iris)) 


S 


Benoit Fedit a résumé différentes approches sûf son blog disponible ici: 


https://datakuity.com/2022/02/15/show-text-results-from-an-r-visual-in-power-bi/ 
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Exemple 4.: Manipulation de tables avec R (régression linéaire simple) 
MRO 3.5.3 


Considérons la table suivant dans Power Query: 


Home Transform Add Column View Help 


x ù ù Es LE E n EF Properties LE LA L 2 ÿ êl _[L Data Type: Whole Number + 5 Mer 
Lu) | @) Les = CS L'' Advanced Editor X 4 TIM _ F1 Use First Row as Headers + App 
Close & New Recent Enter Data source Manage Refresh Choose Remove Keep Remove Split Group 

Applyy Source Sources” Data settings Parameters+ Preview+ ET Manage + Columns * Columns*  Rows* Rows Column+ By L2 Replace Values Com 
Close New Query Data Sources  Parameters Query Manage Columns Reduce Rows Sort Transform C 
Queries [ < kr = Table.TransformColumnTypes(#"Promoted Headers",{{"Mois", Int64.Type}, {"Couts", Int64.Type}, {"CoutA", Int64 

ET RegressionLineaireMultiple B, 3 Mois 123 Couts +] 123 CoutA + ]123 Cout8 +] 123 Coutc - 

L 1 44439 515 541 928 

2 2 43936 929 692 711 

3 3 44464 800 710 824 

4 4 41533 979 675 758 

5 5 46343 1165 1147 635 

6 6 44922 651 939 901 

z 7 43203 847 755 580 

8 8 43000 942 908 589 

9 9 40967 630 738 682 

10 10 48582 1113 1175 1050 

11 11 45003 1086 1075 984 

12 12 44303 843 640 828 

13 13 42070 500 752 708 

14 14 44353 813 989 804 

15 15 45968 1190 823 904 

16 16 47781 1200 1108 1120 

17 17 43202 731 590 1065 

18 18 44074 1089 607 1132 

19 19 44610 786 513 839 


CO 
Nous souhaiterions récupérer les coefficients deégression linéaire simple en utilisant R. Pour 


ce faire nous cliquons d'abord sur le bouton: 


Home  Transform  AddColumn View Help 
| ess] SE Transpose Data Type: Whole Number + À, Replace Values + 1 Unpivot Columns + ï Fra Merge Columns  XO EE 10? Trigonometry + F3 Expand R Py 
=: ve = [] SG wc 
D GEReverseRows [7] Detect Data Type ill RU Move + L 455 Extract + Z BE 8 Rounding + RE Aggregate 
Group Use First Row , a Split Format Statistics Standard Scientific Date Time Duration Run R |Run Python 
By  asHeaders :ICountRows  Œl Rename TL Pivot Column E Convert to List Cohsh” £ Parse é - +  Eäinformation- Extract Values | script | script 
Table Any Column Text Column Number Column Date & Time Column Structured Column Scripts 
Queries [1] < fr = Table. TransformColumnTypes(#"Promoted Headers",{{"Mois", Int64.Type}, {"Couts", Int64.Type}, {"CoutA", Int64.Type}, {"Cout8", Int64.Type}, {"CoutC", Int64.Type}}) 
E RegressionLineaireMultiple ES. RON - | 12; couts +] 123 CoutA =] 123 Couts +] 123 Coutc = 
1 1 44439 515 541 928 
2 2 43936 929 692 711 


Dans la boîte de dialogue qui apparaît, nous mettons alors: 


R Statistical Software 3037/3133 


Vincent ISOZ, Daname KOLANI 


Sciences.ch 


X 
Run R script 
Enter R scripts into the editor to transform and shape your data. 
Script 
# ‘dataset' holds the input data for this script 
#on fait un GLM donc pas besoin de charger de packages particulier, 
#on peut attaquer direct!!!! 
model <- 1m(Couts--1+CoutA+CoutB+CoutC, dataset) 
df<- data.frame(coef(model})) 
names(df)[names(df)=="coef.model."] <- "coefficients" 
df['variables'] <- row.names(df) 
The script will run with the following R installation C:\Program Files\Microsoft\R Open\R-3.5.3\, 
To configure your settings and change which R installation you want to run, go to Options and settings. 
DE 
Ce qui donne après validation: 
[M1 EH = | Untitled - Po er Query Editor — O 
Home Transform Add Column View [2] 
= FF ge Transpose Data Type: Any * Ne + Sa X9 Statistics * {|Trigonometry FF] Date - ES R Py 
GE Reverse Rows [7] Detect Data Type (T]+ A+ £E Standard + 2 Rounding - (D) Time L J 
Group Use First Row L = = Structured RunR Run Python 
By as Headers * à Count Rows œl Rename Les] Scientific [18] Information + © Duration - Column+ script script 
Table Any Column Number Column Date & Time Column Scripts 
Queries [1] < k = R.Execute("# 'dataset' holds the input data v Query Settings X 
F1 RegressionLineaireMultiple F3. AB. Name [-]fiSwvane [7] 4 PROPERTIES 
An Table LZT= 
RegressionLineaireMultiple 
All Properties 
4 APPLIED STEPS 
Source 
Promoted Headers 
Changed Type 
[X Run R script 
coefficients | 


2 COLUMNS, 1 ROW  Column profiling based on top 1000 rows 


On clique alors sur l'expandeur: 


7.262657576 CoutA 
16.69233244 CoutB 
27.90647369 CoutC 


PREVIEW DOWNLOADED AT 20:21 PM 
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Sciences.ch 
File Home Transform Add Column View Help @ 
#| De: Any 1,5. c xg istics + | / : 
= £B Transpose Data Type: Any 02” %a LE > Statistics” 7]Trigonometry F3 Date EE FR Py 
CE Reverse Rows [7] Detect Data Type (T]+ Al BE Standard + =? Rounding Time 
Group Use First Row = ue Text = Structured RunR Run Python 
By as Headers * : Count Rows sl Rename > f Column + Scientific - fx] Information :) Duration Column+ script script 
Table Any Column Number Column Date & Time Column Scripts 
Queries [1] < kr = R.Execute("# ‘'dataset' holds the input data v Query Settings X 
1 RegressionLineaireMultiple F1. AB. Name + 4 PROPERTIES 
gl (a 171 
Name 
2l 
RegressionLinesireMultiple 
© Expand Aggregate 
ce All Properties 

M (Select All Columns) 

M coefficients 4 APPLIED STEPS 

M variables Source 

Promoted Headers 
Changed Type 
M Use original column name as prefix | ? Run R script 
DE 
2 COLUMNS, 1 ROW  Column profiling based on top 1000 rows 


Et on valide par OK: 


e S —_ Û 
Home Transform Add Column View Help [2] 
= a:] Transpose Data Type: Any * AE , EE = asc Statistics ÆATrigonometry F3 Date 3 R Py 
| _ _ 00 
| GE Reverse Rows 7] Detect Data Type [Ÿ]- AN BE Standard - 5 Rounding Time 
Group Use First Row # eq Text = Structured RunR Run Python 
By as Headers - 2H] Count Rows ÆÎ Rename Le Column + Scientific + Bi+] Information ) Duration Column+ script script 
Table Any Column Number Column Date & Time Column Scripts 
Queries [1] < fr = Table.ExpandTableColumn(#"Run R script", "Value", v Query Settings X 
© 
EU 
1 |df 7262657576 CoutA TE 
onLinsaireM 
2 Le 1669233244 8 RegressionLineaireMuitiple 
3 |df 27.90647369 CoutC AIl Properties 


4 APPLIED STEPS 


Source 
Promoted Headers 
Changed Type 
Run R script 

[x Expanded Value 


3 COLUMNS, 3 ROWS  Column profiling based on top 1000 rows 


PREVIEW DOWNLOADED AT 20:21 PM 


Ce qui donne bien le résultat attendu! On peut bien évidemment supprimer la première 
colonne! 
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Exemple 5.: Manipulation de deux tables avec R 


MRO 3.4.2 


Nous allons voir ici comment on peut manipuler avec R dans Power BI plusieurs tables 
différentes (car ce n'est pas trivial) avec un exemple particulier de "similarity matching" de 


chaînes de caractères. 


Considérons les deux petites tables suivantes saisies manuellement (via le bouton Enter Data 


de Power BD): 


Al #40 


Modeling 


Help 


stringdist - Power BI Desktop 


L 


Læ | 


Clipboard Get Recent Edit 
F Data * Sources Queries 7 


Enter 
Data 


External data 
References Words 


Suisse 


France 
Switzerland 


Allemagne 


TABLE: tbl_Reference (4 rows) 


EF] 660 stringdist - Power BI De 


Modeling 


ss LEE 


KZ 
Refresh New 


Page 


sktop 


Help 


Enter 
Data 


Clipboard Get Recent Edit 
Ré Data * Sources Queries 


External data 


Suissse CHE 
Francophonie 
Allemagne 


Anticonstitutionnellement 


TABLE: tbl_ Words (4 rows) 


Refresh New 


Page 


Vincent Isoz 


From 
File 


From 
Marketplace 


Buttons È 


New 
Visual 


Insert Custom visuals 


FIELDS 


855 
# tbl Words 


tbl_Reference 


Vincent Isoz 


New 
Visual 


From 
File 


From 
Marketplace 


Buttons 


Insert Custom visuals 


FIELDS 


#2 tbl Reference 
# tbl Words 


Words 
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Avec R, nous voulons dans la seconde table 1bl_ Words utiliser la méthode Jaro-Winkler pour 
faire de la similarité de termes et faire les remplacements au mieux! 


Pour ce faire, nous ouvrons la dernière table dans Power Query en cliquant sur le bouton Edit 
Queries: 


Home Transform Add Column View Help [7] 


| Li £B Transpose Data Type: Text * =. F Sa ve 2e x Statistics * {| Trigonometry FF] Date - BE FR 
(ns — ce , à 
GE Reverse Rows FF] Detect Data Type [(4]- Al5- &E Standard - 3% Rounding Q@) Time + 
Group Use First Row ; FR ŒÏR g E Text Scientific” BE nf Dre Structured | Run R 
By as Headers 7 2L-] Count Rows ename Fe Cote cientific 7 [£:] Information Duration Column | script 
Table Any Column Number Column Date & Time Column Scripts 


#. [| 


FA tbl_ Reference RER 4 PROPERTIES 


Æ tb s > ET Name 


Allemagne 
Anticonstitutionnellement 


4 APPLIED STEPS 


Source 


X Changed Type 


1 COLUMN, 4 ROWS PREVIEW DOW 


Cliquez sur le bouton Run R script: 


[Mi Q : | stringaist ower Query Edito = (B 
Home Transform Add Column View Help @ 


Run R Script 


Type or paste an R script in the editor below to perform transformation and shaping steps. 


Scripts 
Script 


# ‘dataset' holds the input data for this script 


The R home directory is currently set to C:\Program Files\R\R-3.5.0. 
Go to Options and Settings to change which installation you want to run, and for more configuration options. 


1 COLUMN, 4 ROWS PREVIEW DOWNL 
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et fermez de suite après en cliquant sur OK. Observez ce que nous avons (une nouvelle étape 
et quelque chose d'intéressant dans la barre de formules): 


stringdist - Power Query Editor 
Home | Transform  AddColumn View Help 
FA LB Transpose Data Type: Text” !,, Replace Values + $= Unpivot Columns + 
CE Reverse Rows [7] Detect Data Type [] Fill - AE Move - 


Group Use First Row ; 
By as Headers ” ? 


AA Trigonometry FF] Date - 8 
:% Rounding © Time - 


rl Merge Columns  XO EE 10? 
SE 


Ré 
[NN 185 Extract Z 
Structured Run R 


Column= Script 


Split Format 


Statistics Standard Scientific mr 
Column” d 


8RS Parse * = Æ1] information 5 Duration 


Æ Count Rows  Æ Rename SL pivot Column E Convert to List 


Any Column Text Column Number Column Date & Time Column Scripts 
[dataset-#"Changed Type"]) v TE ae 


4 PROPERTIES 
Ï This table is empty. 


4 APPLIED STEPS 


Faisons un zoom sur la barre de formules: 


= R.Execute("# ‘dataset' holds the input data for this script",[dataset-#"Changed Type“]) 


On voit que c'est via la formule que Power BI charge le dataset en cours dans le script R. Pour 
aller y prendre une autre table, nous allons modifier cette dernière comme suit: 
AC 


= R.Execute("# ‘dataset' holds the input data for this script",[dataset-#"Changed Type" Mataset2=-tbl_ Reference /]|]) v 
HE. æ || 555 Value + | 


et on retourne dans la fenêtre de script pour écrire: 


Run R Script 


Type or paste an R script in the editor below to perform transformation and shaping steps. 


Script 


# ‘dataset' holds the input data for this script 
library("stringdist") 

input<-dataset 

colnames(input})<-"input_words" 
reference<-dataset2 
colnames(reference)<-"reference words" 

# Jaro-Winkler distance 
result<-amatch(as.character(input$input words) ,as.character(reference$reference words), 
method="jw",maxDist-=0.5) 
output<-data.frame(reference[result, ]) 
colnames(output)<-"Matching" 


The R home directory is currently set to C:\Program Files\R\R-3.5.0. 
Go to Options and Settings to change which installation you want to run, and for more configuration options. 


DEN < 
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Ce qui donnera: 


AB. Name  [ 555 Value 
input 
output 


reference 


Home Transform Add Column View Help 


= ù à _E pe Properties L 54 
ù ÆE 1 Q 5 


= — 


fa 
= _— = mn 4 [5 Advanced Editor 


Close & New Recent Enter Data source Manage Refresh 1m eu 
Apply 7 Source * Sources” Data settings Parameters * Preview 7 BE 


EN N> 
— 


Manage Reduce 
Columns 7 Rows 


Close New Query Data Sourc Parameters Query 


FF tbl_ Reference 4 PROPERTIES 
 tbl Words 


Al Properties 


4 APPLIED STEPS 


Source 

Changed Type 

Run R Script 
X output 


1 COLUMN, 4 ROWS PREVIEW DOWNLOADED AT 15:11 PM 
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Exemple 6.: Export de données avec R 
MRO 3.6.0 


Considérons le simple cas suivant d'un import de fichier CSV d'environ 11 millions de lignes 
(sans erreurs!!!) que nous souhaitons immédiatement exporter. 


Nous partons donc de Power Query: 


| fe 


Observez bien les étapes actuelles: 


QUERY SETTINGS 


4 PROPERTIES 


4 APPLIED STEPS 


Source 


Navigation 


Promoted Headers 
X Changed Type 


Nous voulons rajouter une étape de script R qui exporte les données! Pour ce faire nous 
cliquons dans l'onglet Transform sur: 
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Et on y met: 


Run R script 


Enter R scripts into the editor to transform and shape your data. 


Script 


# ‘dataset' holds the input data for this script 
write.table(dataset, file="C://tmp//GOTImageCharacter.csv",sep=";",row.names=T) 


The script will run with the following R installation C:\Program Files\R\R-3.6.0. 
To configure your settings and change which R installation you want to run, go to Options and settings. 


L'erreur suivante apparaitra: 
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M untitled - Power Query Editor O 
Home Transform Add Column View Help @ 
D {[V] Formula Bar [Vi Monospaced W\ Column distribution | E | Always allow [D SE 
L++ Vi Show whitespace Œ LE E 
Query Goto Advanced Query 
Settings Mi Column quality Column Editor Dependencies 
Layout Data Preview Columns Parameters Advanced  Dependencies 
A & > 


Queries [1] = R.Execute("# ‘dataset' holds the input data for this script#(1f) 


RC 
Mais l'export aura fonctionné! Comme le prouyë la manipulation suivante dans R: 


R RGui (64-bit) - [R Console É 
R File Edit Vi 


FEES | 


> dataset <- read.csv("C:/tmp/dataset.csv", sep=";") 
|> head(dataset) 


Misc Packages Windows Help -#x 


ID N..Client Activité Date .de.commande Article Quantité Prix.par.pièce Rabais. Prix.total.avec.rabais 
Z ZL 100 Assurances 2003-06-03T00:00:00.0000000 Compaq Presario 100 12 1650 0.01 19503.00 
mr 2 123 Machines/Outils 2009-10-17T00:00:00.0000000 IBM 500 2 2299 0.00 4598.00 
+. 34 229 Alimentaire 2004-05-09T00:00:00.0000000 IBM 500 22 2299 0.03 49060.66 
4 4 101 Construction 2003-01-14T00:00:00.0000000 Compaq Presario 100 11 1650 0.00 18150.00 
| 117 Pharmaceutique 2005-03-14T00:00:00.0000000 IBM 500 8 2299 0.01 18116.12 
6 6 121 Distribution 2009-09-11T00:00:00.0000000 AST Intel 200 23 3190 0.03 71168.90 
Facture.payée 
É Oui 
2 Oui 
3 Oui 
4 Oui 
5 Oui 
6 Oui 
|> dim(dataset) 
[1] 12044587 10 
> 


Cependant il faudra poursuivre en langage M pour la suite concernant Power Query (ou 
l'utilisateur de base pourra supprimer la ligne R incriminée!)… 


Il faut savoir que cette méthode n'est pas exempte de problèmes et de défauts à ce jour 
malheureusement... 
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Reticulate 


S1 vous voulez travailler sur un IDE unique (ici RStudio) et utiliser à la fois R & Python, la 
solution s’appelle reticulate (https://rstudio.github.io/reticulate/index.html). 


C’est un package R qui permet de gérer le langage Python de plusieurs manières : 


e Code Python dans un fichier Rmd (R Markdown), les chunks peuvent être en R ou en 
Python et les objets peuvent être appelés dans les deux sens (R <=> Python) 


e Pour récupérer un objet Python en R : py$MonObjetPy 
e Pour récupérer un objet R en Python : r.MonObjetR 


e Importer des modules Python et les utiliser en R (utiliser le $ pour accéder aux 
fonctions d’un module) à l’aide de import ). 


e _Sourcer des scripts Python à l’aide de source_python( ) 
e Remplacer la console R en console Python à l’aide de la fonction repl_python( ) 


Voyons un petit exemple (ensuite 1l n'y a plus qu'à généraliser) sur Linux car dans un 
environnement Microsoft Windows il y a souvent que des problèmes (pour changer.…..): 


Terminal 


Would you like to download and install Miniconda? 
Miniconda is an open source environment management system for Python. 
See https://docs.conda.io/en/latest/miniconda.html for more details. 


Would you like to install Miniconda? [Y/n]: Y 

* Downloading ‘'https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86 6 
4.sh' 

trying URL ‘'https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86 64.s 


downloaded 63.6 MB 


* Installing Miniconda -- please wait a moment ... 
PREFIX=/home/administrator/.local/share/r-miniconda 
Unpacking payload ... 

Collecting package metadata (current_repodata.json): done 
Solving environment: done 


## Package Plan ## 
environment location: /home/administrator/.local/share/r-miniconda 
added / updated specs: 


- _libgcc mutex==0.1=main 
- _openmp_mutex==4.5=1 gnu 


D =D n 
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F1 Terminal Q = 


libgomp-11.2.0 
ld_impl_linux-64-2.3 
python _abi-3.6 


427 KB HHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHE 
667 KB HHHHHHHHHHHHHHHHHAHHHHHHHHHHHHHHHHHHH 
4 KB HHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHE 
1.2 MB HHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHE 
936 KB HHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHE 
libzlib-1.2.11 59 KB HHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHE 
ca-certificates-2021 139 KB HHHHHHHHAHHAHHHHHHHHHEHHHHAHHHHHHHHHE 


| 
| 
pip-21.3.1 | 
| 
| 
| 
python-3.6.13 | 38.3 MB HHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHE 
| 
| 
| 
| 
| 
| 
| 


setuptools-49.6.0 


wheel-0.37.0 31 KB HHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHH 
ncurses-6.2 985 KB SERRE RRESEEESS ESS EEE EEE 
Libstdcxx-ng-11.2.0 4.2 MB HÉHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHE 
ELUD-1-2.11 86 KB LELLERLLLELELLESELELLLELESELLELELLESELLEE 
readline-8.1 295 KB HHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHE 
libffi-3.4.2 57 KB SERRES EEEEESEEEEEEEE EEE 
libgcc-ng-11.2.0 887 KB HHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHE 
Preparing transaction: done 

Verifying transaction: done 

Executing transaction: done 

F 

# To activate this environment, use 


$ conda activate r-reticulate 
To deactivate an active environment, use 
$ conda deactivate 


/r-miniconda'. 


* Miniconda has been successfully installed at '/home/administrator/.local/share 


et ensuite on peut commencer à faire le job: 


f# Terminal 


> py_run_string("my_ python _ array=np.array([2,4,6,8])") 

> my_python_ array 

Error: object ‘my python array' not found 

> print(my python array) 

Error in print(my python array) : object ‘my python array' not found 
> py_run_ string("print(my_ python array)") 


[246 8] 


> 
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R Markdown 


Ceux qui codent en Python et qui connaissent JupyterLab savent combien il est agréable 
d'écrire une ligne de code et avoir son résultat (nombre, vecteur, matrice, data frame ou 
graphique) juste en-dessous, et pouvoir poursuivre l'écriture du code en-dessous de l'objet 
précédemment obtenu et toujours avoir ainsi une vue d'ensemble sur: 


1. Une ligne de code (input) 
2. Une sortie (output) correspondante 


Et finalement pouvoir exporter le résultat en HTML ou PDF de qualité tout à fait acceptable 
en termes de résolution et d'esthétique. 


Comme l'utilisation de R Markdown est beaucoup plus simple dans R Studio, considérons 
donc le cas suivant: 


Files Piots Packages Help Viewer 


Nous souhaiterions que le script visible soit affiché en tant qu'output R Markdown, pour cela 
nous écrivons soit dans la console, soit à la fin de notre script: 


Console Le 
> rmarkdown: :render ("Finance_portfolio_Backtesting.Rr!") 


Sinon, dans la console R, nous pouvons mettre aussi: 
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UR RGui (64-bit) - [R Console] eu LI 
GR File Edit View Misc Packages Windows Help = ||. 1X 


@il#| 


Lol 
ls library ("rmarkdown") 
> render("Finance Portfolio Backtestinq.R", pdf document (toc=TRUE)) 
> system2("open","Finance Portfolio Backtesting.pdf") 
LA 
Et une fois exécuté, nous obtenons: 
Console C:/tmp/ 0 


> rmarkdown: :render ("Finance_Portfolio_Backtesting.R"]) 


processing file: Finance _ Portfolio _Backtesting.spin.Rmd 


nscsocressossseesms: 1 33% 
ordinary text without R code 
lisssésensissccesascedsenssssisestosésssssss | 67% 
label: unnamed-chunk-1 
 . | 100% 


ordinary text without R code 


output file: Finance_Portfolio_Backtesting.knit.md 


"cC:/PROGRA-1/Pandoc/pandoc" +RTS -K512m -RTS Finance_Portfolio_Backtesting.utf8.md --to html4 --from markdown+au 
tolink_bare_uris+ascii_identifiers+tex_math_single_ backslash+smart --output Finance _ Portfolio _Backtesting.html - 
-email-obfuscation none --self-contained --standalone --section-divs --template "C:\Users\Vincent 150Z\DOCUME-1\ 
R\WIN-LI-1\3. 5\rmarkdown\rmd\h\default.html" --no-highlight --variable highlightjs=1 --variable “"theme:bootstrap 
" --include-in-header "C:\users\Vincent Isoz\AppData\Local\Temp\rtmpchQc28\rmarkdown-str242c6f52581.html" --math 
jax --variable “mathjax-url:https://mathjax.rstudio.com/latest/MathJax.js?config=Tex-AMS-MML_HTMLOrMML" --metada 
ta pagetitle-Finance_ Portfolio_Backtesting.utf8.md 


Output created: Finance_Portfolio_Backtesting.html 
> 


Ce qui donnera en ouvrant le fichier HTML: 
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BB inence Potfolo Deckte= X | (D Update & Rscorery X | 1 » R X 


< C 88 À file//Cytmp/Finance Dortfolin_Racktestinghtml >O |44, 


Finance Portfolio Backtesting.R 


Vincent Isoz 
2019-03-27 


library("quantmoc") 
## Lozding required pa=kage: xts 


## Loëding required package: z00 


, . 


tt 
## Attaching package: ‘7nn 


## The following objects are masked from package:base": 
4# 


+# as.Uate, es.Uat2.numeric 
## Loading required paskage: TR 


## Version 6.4-4 included new dats defaults. See ?getsymbols. 
## Learn from a cuantmod author: https://uww.datacamp.com/courses/{mporting-and-nanaging-financial-dats-in-r 


BB :inance Potfolo_Backtes X | (Upaste & Recorery X | + 


< C 88  [ filey/Cyrmp/Hinance vortolio_backtestinghtml »O |# 


library("PerformenceAnslytics") 
## Package PerformonceAnolytics (1.5.2) loaded. 


## Copyright (c) 2004 2018 Fcter Carl and Brian G. Peterson, GPL 2 | GPL 3 
## https://githuk_com/2raverock/PerformanceAnalytices 


## 


Attaching package: ‘PerformanceAnalytics" 


## The following nhject is masked from ‘package:graphics!: 
34 
## legend 


library("Portfolioanslytics") 


## Loading required package: foreach 


tickers <- c("+6", "AA2L", “AMEN”, NFLX”, “GUUGL", "SQ’, "NVDA”) 


portfolioPrices <- MULL 
for(ticker in tickercs) { 
portfolioPrices <- coind(rortfolioPrices, 
quantmod::getSymbols.yahoc(ticker, from='2016-01-03", pericdicity = ‘caily', auto.assign=-FALSE'[,4]) 
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BB inence Potfolo Deckte= X | (D Update & Rscorery X:| 1 TA m X 


< C 88  ( file///Cyrmp/Finance Dortfolin_Racktestinghtnl >O|4 


#+# 

## WARNING: Thorc have bccn significant changes te Yahoo Finance data. 
## Plesse see the liarning section of “?getSynbols yahoo for details. 
## 

## This nessage is shown once per session and may be disabled by setting 


## options("getSymbols.yahoc.warning"=FALSE), 


#on supprime Les Valeurs NA 
purLfuliuRelurns <- na.umilL(ROC(pur-LfuliuPr-ites)) 


portf <- PortfolioAnalytics::portfolio.spec(colnames(po-tfolioReturns)) 


partf 

## RHSRRSHRÉSSSÉNEESLSSÉÉÉSESÉELÉSESARÉESERLHELELESIÉSS 

## PortfolioAnalytics ?ortfclio Specification 

gg tsssansaranaasaaanatamsa santa sata sagas Ana Asa Re 

++ 

## Coll: 

## PortfolioAnalytics::portfolio.s:pec(csscts = colnamcs{(portfol:oNcturnz)) 
## 

## Numher nf assets: 7 

## Asset Nanes 

## [1] “FB.Close" "AAPL.Close" "AMZN.Close" "NFLX.Close" "GO0GL.Close" 
## [6] “SQ.Close" "NVDA. Close" 


purtf <- add.cunstrainl(purtf, Lype="weighl sum", min sum=.99, max _sum=1.01) 
portf < add.constraint(portf, typc=-"transacrion cost", ptc = @.661) 


LA 
B :inence Potfolo Backtes X | QD Update & Reco/ery X | + Si = D x 
< C 88  [  filey/Cyrmp/Hinance vortolio_backtestinghtml AVEC 
portf <- add.constraint(portf, type="bex", min=.1€, max=.48) " 


portf <- add.objective(portf, type="return", name="mean") 
portf <- add.objective(portf, type="risk", name="StdDev", target-0.005) 


rp <- randon_ porttolios(portt, 19909, “sample”) 


uplrebai <- uplimise.surtfeliv.rcbalarcing(purtfeliuRelurtis, 
portf, 
optimize_method-"rsndom", 
cp 
rebalarce on="months", 
trainirg period=1, 
rolling window=19) 


44 Warning: execuling éduper% sequerniliclly; nu parallel backend regislered 


equal weight <- rep{1 / ncol(portfoliofeturns), ncol{portfolioReturns)) 
benchnark <- Return.portfolio(portfolicReturns, weights = equal weight) 
colnanesibenchmark) <- “Benchmark Portfolio" 


sp50@prices <- getSymbols.yahoo("SPY", from='" 2916-01-83", periodicity = ‘daily', auto.assign=FALSE)!,4] 
spobukets <- na.cmit(KUL(spsUwprices)) 


sps5oerets <- as.xts(sp5O0Rets) 


chart. .Wcights(opt_rcbal, main-"Rcbalanced Wcights Over Timc"} 


Rebalanced Weights Over Time v 
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BB rinence Portfolo Dacktes X | (D Updste & Recovery s | 


< C 88 (  file//C/tmp/Finance Dortfolin_Racktestinghtml 
e 
Le] 
s 
© 
o [e] 
3 
Cl 
> + 
L—] 
La 
S 
© 
So | | | Î [ Î 
Jan 16 Jul 16 an 17 Jul 17 Jan 18 Jul 18 Des 18 
= FBClose m AMZN.Close M GOOGLClose M NVDA Close 


m AAPL.Close m NFLX.Close m SQ.Close 


rebal weights <-extractWeightsiopt_rebel) 
ebal_ returns <- Retura.portfolio{portfolioReturns, weight: 


rets_df <- chind(rebal returns, benchmerk, sps5@Rets 


B inance Pottfolo_Backtes X | (D Update & Reco/ery K: | + 


< C 88  [ filey/;Cytmp/Hinance ortfolio_backtestinghtml 


charts.PerformanceSummary(rets_df, mair="P/L Over Time“) 


P/L Over Time 


Cumulative Retum 2016-22-01 / 2019-02-26 
25 — _ ponfolo.returms 


— Benchmarc Portfolio 


2.0 — SPY. Close 
15 


10 
05 
00 


Daily Return 
0.05 
200 Mme pt M MS LL 
0.08 


A TT 


f T T T T T 1 


Feb 01 2016 Aug 012016 Feb 012017 Aug012017 Feb012018 Aug012018 Jan 31 2019 


«Il 
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38. Revolution R (Microsoft R Open) 


Revolution R Open qui est sous licence GPLv2 est la version "Entreprise" et "Scientifique" de 
R pour Mac, Windows et Linux dans le sens que les commandes sont reproductibles à l'aide 
d'un jeu de commande particulier (tout en restant cependant compatible avec TOUS les 
packages du CRAN et RStudio), que certaines fonctions ont été reprogrammées et que le 
logiciel gère automatiquement de gros jeux de données en utilisant le disque dur plutôt que la 
mémoire vive (ce qui est largement suffisant lorsqu'on ne cherche pas à avoir des résultats en 
temps réel). 


Pour reprendre une vieille diapo de chez Revolution R: 


The Platform Step by Step: 


Parallelization & Data Sourcing ConnectR 

+ High-speed & direct connectors 
PeptaRe Ver: é 
+ High-performance X 

ScaleR RE + SAS, SPSS, delimited & fixed format 

+ Ready-to-Use high-performance text data files 

big data big analytics + Hadoop HDFS (text & XDF) 
+ Fully-parallelized analytics + Teradata Database & Aster 


+ EDWs and ADWs 
+ ODBC 


DistributedR 


+ Distributed computing framework 
+ Delivers portability across platforms 


Available on: 
DistributedR © + Windows Servers 
+ Red Hat and NEW SuSE Linux Servers 


+ IBM Platform LSF Linux 

+ Microsoft HPC Clusters 

+ NEW Teradata Database 
+ NEW Cloudera Hadoop 

+ NEW Hortonworks Hadoop 


+ Data prep & data distillation 


+ Descriptive statistics & statistical 
tests ConnectR Q 


+ Correlation & covariance matrices 
+ Predictive Models — linear, logistic, 


+ Machine learning 
+ Monte Carlo simulation 


+ NEW Tools for distributing 
customized algorithms across nodes 


et un comparatif: 


R-3.2.5 (1 Microsoft R Open- Microsoft R Open- Microsoft R Open- 


thread) 3.2.5 (1 thread) 3.2.5 (4 threads) 3.2.5 (8 threads) 
EURE 140.63 1411 3.27 1.89 
multiplication 
Cholesky 
A AISUEalON 20.27 0.42 0.35 0.36 
QR decomposition 4.36 2.78 2.59 2.63 
sur iane, 52.07 1.91 1.89 1.90 
decomposition 
Principal 
component 40.46 3.25 2.67 2.55 
analysis 
Linear discriminant 10.14 2.36 2.04 2.03 
analysis 

Elapsed time 


Singular value decomposition 


R version 


H@ R-32:5 (1 thread) 
Principal component analysis 


F@] Microsoft R Open-3.2.5 (1 thread) 


a —————— -&- Microsoft R Open-3.2.5 (4 threads) 


F@ Microsoft R Open-3.2.5 (8 threads) 


QR decomposition + 


Matrix multiplication 


Linear discriminant analysis 


Cholesky factorization + _ 
: 
0 


U " 
50 100 
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Installation 


Avant tout il faut faire bien attention à installer les deux exécutables MRO et MKL: 


https://mran.revolutionanalytics.com/download/ 


© review Requirements @ Download Software © Next Steps 


MRO 3.2.3 News | Install Docs | Past Releases 
MRO 3.2.3 & MKL Downloads 


Download MRO & MKL today. While MKL, used for multithreaded performance, is optional, we 
recommend you install both MRO & MKL for optimal performance on Windows and Linux, Mac OS X 
users have Math Libraries by default. 


Click here for MRO for Microsoft R Server/RRE 2016. 


LE à 


ANNOUNCEMENT: Revolution R Open is now 
known as Microsoft R Open (MRO). 


Download the MRO & MKL 3.2.3 installer(s) for your platform. 
ris @ verify Download Microsoft R Server / RRE Users: 
: - Download MRO for MRS/RRE 2016 

Platform Software Math Library _ Download RRO 8.0.3 for RRE 7.4.1 

Windows* MRO MKL 

Mac OS X* MRO (included) 
Microsoft R Open (MRO), formerly known as 

Ubuntu 15 MRO MKL Revolution R Open, is the enhanced distribution of 

Ubuntu 14 MRO MKL R from Microsoft Corporation. MRO is a complete 
open source platform for statistical analysis and data 

Ubuntu 12 MRO MKL science, which is free to download and use. 

RHEL / CentOS 7 MRO MKL The current version, MRO 3.2.3, is based on (and 
100% compatible with) the statistical language, R- 

RIELFCen0SS ca ss 3.2.3, and includes additional capabilities for 

RHEL / CentOs 5 MRO MKL performance, reproducibility and platform support. 
Learn more... 

openSUSE 13.1 MRO MKL 


ATTENTION LE PROJET A ÉTÉ RETIRÉ EN JUIN 2023!!!! 


L'installation de Microsoft R Open (MRO) est standard, nous l'avons déjà traitée au début de 


cet ouvrage: 
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1} Setup - MRO for Windows 3.2.3 — X 
Information 
Please read the following important information before continuing. "s 


When you are ready to continue with Setup, click Next. 


Welcome to the Microsoft R Open Installer 


Microsoft R Open is an enhanced distribution of R from Microsoft. 
For information about Microsoft R Open, visit https://mran.revolutionanalytics.com. 


Microsoft R Open is based on R, Copyright (C) The R Foundation for Statistical 
Computing. 

Visit https://www.r-project.org for information about the R Project. 

R is the creation of many contributors, for details visit https://wwrw.r- 
project.org/contributors.html. 


Click Continue to begin installing Microsoft R Oper 3.2.3. 


ICE] Des 
NO 


— , © . 
Ensuite l'installation de RevoMath est toute aus$i simple: 


RevoMath Installer 


Welcome to the RevoMath-3.2.3 
Setup Wizard 
The Setup Wizard will install RevoMath-3.2.3 on your 


computer. Click Next to continue or cancel to exit the 
Setup Wizard. 
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Remarque!!!: Sur certains environnements Windows 10 cette installation ne marche pas!!! Il 
faut alors aller chercher le fichier *.msi correspondant dans : 


C:\Users\XXXXX\AppData\Local\Temp 
et directement installer depuis là. 
S1 l'installation se passe correctement, au lancement de MRO vous aurez: 


R RGui (64-bit) - [R Console] — (| X 


R File Edit View Misc Packages Windows Help 5 x 


R version 3.2.3 (2015-12-10) -- "Wooden Christmas-Tree" 
Copyright (C) 2015 The R Foundation for Statistical Computing 
Platform: x86 64-W64-mingw32/x64 (64-bit) 


R is free software and comes with ABSOLUTELY NO WARRANTY. N 
You are welcome to redistribute it under certain conditions. 
Type 'license{()' or ‘licence()' for distribution details. 


Natural language support but running in an English locale 


R is a collaborative project with many contributors. 
Type 'contributors()' for more information and 
‘citation()' on how to cite R or R packages in publications. 


Type 'demo()' for some demos, 'help()' for on-line help, or 
‘help.start()'" for an HTML browser interface to help. 
Type ‘'q()' to quit R. 


Microsoft R Open 3.2.3 

Default CRAN mirror snapshot taken on 2016-01-01 

The enhanced R distribution from Microsoft 

Visit http://go.microsoft.com/fwlink/?LinkID=722555 for information 
about additional features. 


Multithreaded BLAS/LAPACK libraries detected. Using 2 cores for math algorithms. 


> 
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Différenciation en performance calculatoire 


Selon Microsoft (Revolution R) nous avons au niveau des performances les comparaisons 
suivantes: 


Computation time (R-3.2.1) 


Matrix Multiply nt 
-core 
RRO 
Cholesky Factorization i (1-core) 
T B RRO 
Singular Value Decomposition le (4-core) 
Principal Components Analysis = 


Linear Discriminant Analysis ue 


0% 25% 50% 75% 100% 


Ou encore: 
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R-3.2.5 (1 Microsoft R Open- Microsoft R Open- Microsoft R Open- 
thread) 3.2.5 (1 thread) 3.2.5 (4 threads) 3.2.5 (8 threads) 
. 140.63 14.11 3.27 1.89 
multiplication 
ls ca À 20.27 0.42 0.35 0.36 
factorization 
QR decomposition 4.36 2.78 2.59 2.63 
CORTE 52.07 1.91 1.89 1.90 
decomposition 
Principal 
component 40.46 3.25 2.67 2.55 
analysis 
Linear discriminant 10.14 2.36 2.04 2.03 
analysis 
Elapsed time 
Singular value decomposition < 
QR decomposition « 
R version 


Principal component analysis + 


Matrix multiplication < 


Linear discriminant analysis < 


Cholesky factorization « 


Voyons un cas pratique: 


H@] R-3.2:5 (1 thread) 


©! Microsoft R Open-3.2.5 (1 thread) 


6: Microsoft R Open-3.2.5 (4 threads) 


H@ | Microsoft R Open-3.2.5 (8 threads) 
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R RGuï (64-bit) - [R Console] 
KR File Edit View Misc Packages Windows Help 


> set.seed (1) 
> m <- 10000 
> n <- 5000 
> À <- matrix (runif (m*n),m,n) 
> system.time (B <- crossprod(A)) 
user system elapsed 
Hd 0.18 128.11 
> 


et le même calcul avec MRO: 


R RGui (64-bit) - [R Console] — O X 
KR File Edit View Misc Packages Windows Help FX 


> set.seed (1) 

> m <-— 10000 

> n <- 5000 

> À <- matrix (runif (m*n),m,n) 

> 

> system.time (B <- crossprod(A)) 
user system elapsed 
7.85 0.17 4.25 

> | 


Par sécurité et par rigueur scientifique je recommande toutefois de charger le package 
RevoUtilsMaths quand même avant: 
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D File Edit View Misc ckages Windows Help - À XX 


> library("RevoUtilsMath") 
> | 


Simon Urbanek, contributeur au noyau de R, a publié un code fameux qui permet de 
comparer la performance (code disponible ici: http://r.research.att.com/benchmarks/). Les 


résultats ont donné: 


R Statistical Software 3061/3133 


Vincent ISOZ, Daname KOLANI 


Sciences.ch 


R-3.2.1 RRO-3.2.1 Performance gain 
(4 cores) 

1. Matrix calculation 
Create, transpose and deform matrix 1.19 1.19 0.0 
Matrix computation 0.49 0.50 0.0 
Sort random values 0.89 0.89 0.0 
Cross product 14.92 0.37 39.7 
Linear regression 6.97 0.15 46.5 
1. Matrix functions 
Fast Fourier Transform 0.42 0.35 0.2 
Compute eigenvalues 0.94 0.37 1.5 
Calculate determinant 3.70 0.15 24.2 
Cholesky decomposition 5.63 0.14 39.2 
Matrix inverse 2.48 0.13 17.6 
I. Programmation 
Vector calculation 0.69 0.65 0.1 
Matrix calculation 0.25 0.26 0.0 
Recursion 0.46 0.43 0.1 
Loops 0.39 0.40 0.0 
Mixed control flow 0.41 0.36 0.1 
Total test time 201.16 44.22 si 


Selon Revolution R, leurs clients constatent un accroissement de performance de 3 à 50 entre 
la version CRAN de R et la version de MRAN de R et ce sans changer la moindre ligne de 
code. 


Attention! Pas de conclusions hâtives. Actuellement cette conclusion ne s'applique pas 
au data mash up et data munging puisque cela n'implique pas d'algèbre linéaire! 
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Différenciation chargement de gros jeux de données 


Commençons par les gros jeux de données: 


__) SurveyUSA.csv 


3671832 Ko 


Ce fichier nous le savons à une peine folle à être chargée dans une machine R3.2.1 x64 équipé 


de 16GB de RAM (Alienware 15): 


R File Edit View Misc Packages Windows Help 


ROSES 


> start.time<-Sys.time() 


> mydata<-read.csv("c:/tmp/SurveyUSA.csv") 


Warning messages: 

1: In scan(file, what, nmax, sep, dec, 
Reached total,allocation of 16269Mb: 

2: In son (ELLES ut. nmax, sep, dec, 
Reached total allocation of 16269Mb: 

3: In scan(file, what, nmax, sep, dec, 
Reached total allocation of 16269Mb: 

4: In scan(file, what, nmax, sep, dec, 
Reached total allocation of 16269Mb: 

S: In scan(file, what, nmax, sep, dec, 
Reached total allocation of 16269Mb: 

6: In scan(file, what, nmax, sep, dec, 
Reached total allocation of 16269Mb: 

> end.time<-Sys.time() 

> time.taken<-end.time-start.time 

> time.taken 

a difference of 12.73348 mins 

> 


Alors qu'avec Revolution R Open: 


ToDo 


quote, skip, nlines, na.strings, 


see help(memory.size) 


quote, skip, nlines, na.strings, 


see help(memory.size) 


quote, skip, nlines, na.strings, 


see help(memory.size) 


quote, skip, nlines, na.strings, 


see help(memory.size) 


quote, skip, nlines, na.strings, 


see help(memory.size) 


quote, skip, nlines, na.strings, 


see help(memory.size) 


Mais avec Data.Table sur un Alienware Area 51M boosté: 
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R File Edit View Misc Packages Windows Help SLE: 


> start.time <- Sys.time() 

> library("data.table") 

data.table 1.14.8 using 8 threads (see ?getDTthreads). Latest news: r-datatable.com 
> #fichier de 12 millions de lignes 

> mydata<-fread("C:/tmp/Ventes.csv") 

> activity<-unique (mydata$Activité) 

> activity 

NULL 

> end.time <- Sys.time() 

> time.taken <- end.time - start.time 

> time.taken 

Time difference of 1.745648 secs NW 


>| 


Alors qu'avec Microsoft R Open: 


F} RGui - Microsoft R Open version 4.0 (64-bit) - [R Console] —= (EI 


R File Edit View Misc Packages Windows Help 


> start.time <- Sys.time() 

> library("data.table") 

data.table 1.12.8 using 8 threads (see ?getDTthreads). Latest news: r-datatable.com 
> mydata<-fread("C:/tmp/Ventes.csv") 

> activity<-unique (mydata$Activité) 

> activity 

[1] "Assurances" "Machines/Outils" "Alimentaire" "Construction" 
[5] "Pharmaceutique" "Distribution" "Éducation" "Banques" 

> end.time <- Sys.time() 

> time.taken <- end.time - start.time 

> time.taken 

Time difference of 2.630523 secs 


> | N 


Comme quoi..… 
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39. KR Shiny/Flexdashboard 


R Shiny est un outil permettant de construire des pages web interactives avec des statistiques 
produites par R et ce avec des options beaucoup plus puissantes et avancées que Tableau ou 
Microsoft Power BI sans avoir à connaître l'HTML, le JavaScript et le CSS pour les 
fonctionnalités de base. 


Remarque: Notez que l'auteur principal de ce PDF préfère largement Microsoft Power BI à R 
Shiny ou Flexdashobard pour plusieurs milliers de raisons! 


L'idée est que certains end-users n'aient pas à exécuter de script pour visualiser ou jouer avec 
différents paramètres statistiques et ce de façon interactive, dynamique et si possible ludique! 


Déployer des apps Shiny peut se faire de trois manières: 


e Installer le serveur Shiny (AGPLv3): 


https://github.com/rstudio/shiny-server 


e Acheter un serveur Shiny Server "Pro" avec l'avantage d'avoir nativement des 
fonctions d'authentification sécurisées (avec ou sans LDAP), support SSL, de gestions 
et monitoring de la performance et bien évidemment d'avoir le support direct de R 
Studio, Inc.: 


https://www.rstudio.com/pricing 


OC 
S 
S 


Ÿ 
e  Héberger ces applications dans le cloud Shiny chez rstudio.com 
http://www.shinyapps.io 
e Installer et déployer Shiny Proxy (necessite Docker cependant) 


https://www.shinyproxy.i0/ 


Pour les différences entre les solutions, n'hésitez pas à consulter: 


https://appsilon.com/alternatives-to-scaling-shiny/ 
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Possible architectures for serving a Shiny app. \. Appsilon 
How to scale Shiny to 1000 users. https://appsilon.com/shiny ‘ ATA NCE 


& a 
re Machine © Machine R. 
a CS A Susan | 
& | & R; 
a & 
Machine + PRETE Mai 
SR D + 
db # & Ls R. 
R:, Er 
. +. é + RS N pre-initialized 
& " ShinyProxy Si: R. on E Load Balancing M p— containers 
& Le R. & Lu 
db E & Re |) 


Par définition, une App Shiny est une page web (IU) connectée à un ordinateur/serveur 
exécutant une session R en live (serveur): ss 
Ÿ 
< 


L'utilisateur peut manipuler l'IU ce qui va causer le serveur à mettre à jour l'UI en exécutant le 
code R correspondant. 
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Installer R Shiny 


Pour installer le package c'est très simple comme à l'habitude (R 3.4.1) ensuite il suffit de 
charger le package: 


&@ File Edit View Misc SG Windows Help … EX 


> library("shiny") 
> packageVersion("shiny") 
[11 “1.0.3 


> 


Ensuite, considérons les trois fichiers suivants R (c'est une bonne pratique de séparer tout 
dans trois fichiers différents mais ce n'est pas obligatoire comme nous le verrons plus loin!): 


Home Share View 
ALE X=i 1 
WI C Es 


LOP path 


Pin to Quick Cop Paste RARES Move Copy Delete Rename 
access [e] Paste shorteut to to * 4 
Clipboard Organize 
MS: - 
= v 4 > ThisPC > OS(C:) > tmp > my app 
Name 
x# Quick access 
7] runapp.R 
& Desktop * a PP 
server.R 
ls Downloads À 4 
7) ui.R 
= Documents À 
à Pictures * 
Æ Videos * 


Il faut savoir qu'il est à ce jour obligatoire pour Shiny d'avoir le fichier ui.R et server.R le (le 
troisième étant utilisé pour une astuce dont nous allons parler plus loin) qui ont 
respectivement le contenu suivant: 
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1 
File Edit Format View Helj 
library(shiny) 


# Define UI for application that draws a histogram 
shinyUI(fluidPage( 


# Application title 
titlePanel("Hello Shiny!"), 


# Sidebar with a slider input for the number of bins 
sidebarLayout( 
sidebarPanel( 
sliderInput("bins", 

“Number of bins:", 
min = 1, 
max = 50, 
value = 30) 


) 


# Show a plot of the generated distribution 
mainPanel( 
plotOutput("distPlot") 
) 
) 
)) 


7 c Nole j | L dé — 


File Edit Fcrmat View Help 


library(shiny) 


# Define server logic required to draw a histogram 
shinyServer(function(input, output) { 


# Expression that generates a histogram. The expression is 
# wrapped in a call to renderPlot to indicate that: 


# 
1) It is “reactive" and therefore should re-execute automatically 


# 
# when inputs change 
# 2) Its output type is a plot 


output$distPlot <- renderPlot({ 
x <- faithfull, 2] # Old Faithful Geyser data 
bins <- seq(min(x), max(x), length.out = input$bins + 1) 


# draw the histogram with the specified number of bins 
hist(x, breaks = bins, col = ‘darkgray', border = 'white') 


} 
hp 


Et le dernier fichier n'est pas spécifique à Shiny, c'est juste une manière élégante pour un 
utilisateur de lancer une application shine à partir d'un raccourci Windows (et peu importe le 


nom de fichier contrairement aux deux précédents!): 
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) runapp.R - Notepad _ 
File Edit Format View Help 
library("shiny") 
runApp("c:/tmp/my_app",launch.browser=TRUE) 


Et enfin on construit sur le bureau de Windows le raccourci suivant: 


' 


a 


Shiny App 


Avec les propriétés: 
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Après un double clic sur le raccourci, nous obtenons le résultat tant attendu (!): 


CR Shiny App Properties 
Compatibility Security Details Previous Versions 
General Shortcut Options Font Layout Colors 
. Shiny App 
:R 
Targettype: Application 
Targetlocation: bin 
Target ET\bin\Rscriptexe" -vanilla C:\tmp\my_app\runapp.R 
Startin: "C:\Program Files\R\R-3.4.1\bin" 
Shortcut key: None 
Run: Normal window V 
Comment 
Open File Location Change Icon... Advanced. 
OK Cancel Apply 
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Scientific Evo. 
( Hello Shiny! 


(CAR © 127.0.0.1:5200 ; - Pa e À 


Favoris D Sciences.ch M Scientific-Evolution #} Google Traduction Permutation Test r - resampling / sir 


Hello Shiny! 


Number of bins: Histogram of x 


FreqLercy 


Signalons que différentes structures de panneaux sont disponibles: 


Na 


fluidRow() splitLayout() 
ui <- fluidPage( ui <- fluidPage( 
fluidRow(column(width =4), splitLayout| # object 1, 
column{width =2, offset = 3)), # object 2 
ta posts = 12)) ) 
) 
flowLayout() verticalLayout() ui <- fluidPage( 
ui <- fluidPage( verticalLayout( # object 1, 
flowLayout(# object 1, # object 2, 
# object 2, # object 3 
# object 3 ) 
) ) 
) 
sidebarLayout() je fluidPage( 
sidebarLayout( 
sidebarPanel(), 
mainPanel() 
) 


On a aussi les structures tabulaires suivantes sinon: 
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ui <- fluidPage( tabsetPanel( | bi ub2 us 
tabPanel("tab 1", "contents"), contents 
tabPanel("tab 2" "contents"), 
tabPanel("tab 3", "contents"))) 


ui <- fluidPage( navlistPanel( 
tabPanel("tab 1" "contents"), 
tabPanel("tab 2", "contents"), 
tabPanel("tab 3", "contents"))) 


ui <- navbarPage(title = "Page", 
tabPanel("tab 1", "contents"), 
tabPanel("tab 2", "contents"), 
tabPanel("tab 3" "contents")) 


Sinon voici un petit exemple où tout est écrit et exécuté d'une seule traite à l'aide de la 
commande shinyApp( ) : 


QR RGui (64-bit) - [R Console] — 0 


GR File Edit View Misc Packages Windows Help = 4% 


library(shiny) 

ui<-fluidPage ( 

numericInput (inputld="n", 
"Sample size",value=25), 
plotOutput (outputId="hist"})) 
server<-function(input,output)!{ 
output$hist<-renderPlot({ 

hist (rnorm(input$n)) 

})} 

shinyApp(ui=ui, server=server) 


VV +EVV 


Listening on http://127.0.0.1:4943 


Ce qui donne: 
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Scientific Evo... 


( 127.0.0.1:4943 


(EMA © 127.0.0.1:4943 », : a e@ À 


Favoris JR Sciences.ch JB Scientific-Evolution #3 Google Traduction Permutation Test 


Sample size 


25 


Histogram of rnorm(input$n) 


Frequer cy 


morm(input$n) 


Installer R Shiny Server 


Voyons comment installer (mais pas configurer car cela est un métier à part entière surtout à 
Pal] 


cause de la partie "sécurité" des serveurs) R Shiny Server sur Cent OS, Scientific Linux et 
Redhat. 


Pour commençons par installer quelques package R utiles pour la suite: 


admin@localhost:- 


File Edit View Search Terminal Help 
('shiny', ‘'rmarkdown', 
NE 


[admin@localhost -]$ su - -c "R -e \"install.packages(c 
‘devtools', ‘RJDBC'), repos='http://cran.rstudio.com/}) 


Cela peut prendre entre 5 et 35 minutes suivant la machine. 


Ensuite, nous téléchargeons le fichier dinstallation rpm de Shiny Server: 
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admin@localhost:- 


File Edit View Search Terminal Help 


[admin@localhost -]$ wget https://download3.rstudio.org/centos6.3/x86 64/shiny-serv 
er-1.5.7.907-rh6-x86 64.rpm 

--2020-04-19 18:35:42-- https://download3.rstudio.org/centos6.3/x86 64/shiny-serve 
r-1.5.7.907-rh6-x86 64.rpm 

Resolving download3.rstudio.org (download3.rstudio.org)... 13.224.102.74, 13.224.10 
2.106, 13.224.102.9, 

Connecting to download3.rstudio.org (download3.rstudio.org)|13.224.102.74|:443... © 
onnected. 

HTTP request sent, awaiting response... 200 OK 

Length: 48462832 (46M) [application/x-redhat-package-manager] 

Saving to: ‘“shiny-server-1.5.7.907-rh6-x86 64.rpm' 


INT B57/2b8 486KB/S eta 525 


Une fois téléchargé, nous lançons l'installation: 


admin@localhost:- 


File Edit View Search Terminal Help 


[admin@localhost -]$ sudo yum install --nogpgcheck shiny-server-1.5.7.907-rh6-x86 64.rpm 
[sudo] password for admin: 

Loaded plugins: langpacks, refresh-packagekit, upgrade-helper 

Examining shiny-server-1.5.7.907-rh6-x86 64.rpm: shiny-server-1.5.7.907-1.x86 64 

Marking shiny-server-1.5.7.907-rh6-x86 64.rpm to be installed 

Resolving Dependencies 

--> Running transaction check 

---> Package shiny-server.x86 64 0:1.5.7.907-1 will be installed 

--> Finished Dependency Resolution 


Dependencies Resolved 


pository 


Installing: 
shiny-server x86 64 1.5.7.907-1 /shiny-server-1.5.7.907-rh6-x86 64 235 M 


Transaction Summary 
Install 1 Package 
Total size: 235 M 


Installed size: 235 M 
Is this ok [y/d/N]: Æ 


Ensuite, nous devons lancer les services R Shiny: 


admin@localhost:- 


File Edit View Search Terminal Help 


[admin@localhost -]$ systemctl start shiny-server 
[admin@localhost -]$ systemctl enable shiny-server 


[admin@localhost -]$ 
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Ensuite, il suffit d'ouvrir un navigateur et de mettre l'adresse par défaut localhost:3838 pour 


lancer R Shiny Server: 


Welcome to Shiny Server! - Mozilla Firefox 


Welcome to Shiny Server  X + 


æ CG à @ localhost Go * 


I\ © © 


@ Scientific Linux F5 Distros © Apache Home © CheckPHP Bi phpMyAdmin @ Shiny Server . linux - error: ‘Can conn... Running RPM Packages... 


If you're seeing this page, that means Shiny Server is installed and running. Congratulations! 


What's Next? 


1 : 
Now you're ready to setup Shiny — if you haven't already — and start It S AI Ive | 
deploying your Shiny applications. 


Number of bins: 


ff you see a Shiny application running on the right side of this page, then Shiny 
1 50 


is configured properly on your server and already running an example. Bravo! 


You can see this application on your server at /sampl 


ff you see a gray box or an error message, then there's a bit more work to do to 
get Shiny running fully. You can continue with or use 
for more information. If you're seeing an error message in the 
panel to the right, you can use it to help diagnose what may be wrong. lf you 
think Shiny is installed and setup property and things still aren't working, you 
can look in the Shiny Server log which may have more information about what's 


Histogram of x 


25 


Lo 

wrong. By default, the log is stored in | /var/log/shiny-server.. log |. 5 ] 

É 

ff you're really stuck and you've read the relevant sections in Tu ] 
°e 


then please ask for help on ë a — 
50 60 70 80 90 


rmarkdown x 


Once you have Shiny working properly (the top application on the right sidebar), you'll see a Shiny app above. 


When Shiny is properly configured on your server, 


Pour vérifier la version installée, on peut écrire à tout moment: 


admin@localhost:- 


File Edit View Search Terminal Help 
[admin@localhost -]$ R 


R version 3.6.0 (2019-04-26) -- "“Planting of a Tree" 
Copyright (C) 2019 The R Foundation for Statistical Computing 
Platform: x86 64-redhat-linux-gnu (64-bit) 


R is free software and comes with ABSOLUTELY NO WARRANTY. 
You are welcome to redistribute it under certain conditions. 
Type 'license()' or 'licence()' for distribution details. 


Natural language support but running in an English locale 


R is a collaborative project with many contributors. 
Type ‘contributors()' for more information and 
‘'citation()' on how to cite R or R packages in publications. 


Type ‘'demo()' for some demos, ‘help()' for on-line help, or 
‘help.start()' for an HTML browser interface to help. 
Type ‘q()' to quit KR. 


> system('shiny-server --version', intern = TRUE) 


[1] "Shiny Server v1.5.7.907" "Node.js v8.10.0" 
> 


Le dossier par défaut où mettre les applications est dans /srv/shiny-server/: 
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sv shiny-server pb 


© Recent el = 


@ Home index.html sample- 
apps 


Im Desktop 


D Documents 
Downloads 
Music 
Pictures 
Videos 


Trash 


Other Locations 


4 sample-apps hello 


© Recent Ë = 
nn) 


Home server.R ui.R 


Desktop 
Documents 
Downloads 
dd Music 
Pictures 
Videos 


Trash 


Other Locations 
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Exemples 


Voyons maintenant quelques exemples d'applications de R Shiny. 


Exemple 7.: Designer un site R Shiny avec un assistant 
R 4.1.1 


Avant de coder complément de A à Z un site R Shiny, il est utilse de savoir qu'il existe un 
assistant qui permet de répondre aux besoins les plus courants sans écrire la moindre ligne de 
script R Shiny. Pour cela, nous allons utiliser et installer le package designer: 


GR File Edit View Misc Packages Windows Help = \#) x 


> install.packages ("designer") | 
Installing package into ‘C:/Users/Vincent Isoz/Documents/R/win-library/4.1° 

| (as ‘lib’ is unspecified) | 
—-- Please select a CRAN mirror for use in this session --- 

|also installing the dependencies ‘attempt’, ‘golem’, ‘shinipsum’, ‘shinyscreenshot’, ‘cicerone’ 


{trying URL "https://cloud.r-project.org/bin/windows/contrib/4.1/attempt 0.3.1.zip"' 
| Content type 'application/zip' length 122705 bytes (119 KB) 
| downloaded 119 KB 


trying URL 'https://cloud.r-project.org/bin/windows/contrib/4.1/golem 0.3.2.zip' 
Content type 'application/zip' length 1219801 bytes (1.2 MB) 
| downloaded 1.2 MB 


|trying URL 'https://cloud.r-project.org/bin/windows/contrib/4.1/shinipsum O.1.0.zip' 
Content type 'application/zip' length 740621 bytes (723 KB) 
| downloaded 723 KB 


trying URL 'https://cloud.r-project.org/bin/windows/contrib/4.1/shinyscreenshot 0.2.0.zip' 
Content type 'application/zip' length 291150 bytes (284 KB) 
downloaded 284 KB 


trying URL ‘'https://cloud.r-project.org/bin/windows/contrib/4.1/cicerone 1.0.4.zip" 
| Content type 'application/zip' length 385780 bytes (376 KB) 
downloaded 376 KB 


|trying URL ‘'https://cloud.r-project.org/bin/windows/contrib/4.1/designer 0.1.0.zip"' 
Content type 'application/zip' length 324067 bytes (316 KB) 
downloaded 316 KB | 


|package ‘attempt’ successfully unpacked and MD5 sums checked 
|package ‘golem’ successfully unpacked and MDS sums checked 

|package ‘shinipsum’ successfully unpacked and MD5 sums checked 
|package ‘shinyscreenshot’ successfully unpacked and MD5 sums checked 
| package *“cicerone’ successfully unpacked and MD5 sums checked 
|package ‘designer’ successfully unpacked and MDS sums checked 

Il 


|The downloaded binary packages are in 
| C:\Users\Vincent_Isoz\AppData\Local\Temp\RtmpqGuyuu\downloaded packages 
>| 


| | 


Nous chargeons le package designer et utiliser la fonction designApp( ) pour lancer l'éditeur: 
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| R RGui (64-bit) - [R Console] — 


QR File Edit View Misc Packages Windows Help Ex 


> library("designer") 

Warning message: 

package ‘designer’ was built under R version 4.1.3 

> designäApp({() 

Loading required package: shiny 

(Warning: package ‘shiny’ was built under R version 4.1.2 


Listening on http://127.0.0.1:5537 


Ce qui ouvre: 


© Shiny UI Designer 


ashbaldry-shinyapps io 


{designer} - Design your UI Help 


MERE EURE | 


IE, El É 
Lee M Ë fluidage( a 
É — pr songe title = "Shiny Application", Î 
| vai È theme = bslib::bs_theme(4), 
mi $ 
Output Settings "My Shiny App" 3bel 
}, 
Output Type inputhanel( numeric input 
Piot Æ textInput( Ï 
inputIid « "input_eufabkäg2w", 
label » “Label” 
Plot Type » 
numericinput( 
random Y inputié = “input_lesflçônév", 
label = “Label”, 
Ciinline Output ) re 
rumeric Input ( 
Output 1D inputié = “Anput_7qukpihtvé”, 
label = "Label", 
vèlue = 1 Ç } 
) D] e 
, ET ri e "" 
Height [2] y = —, 
plotOutput( Dm PS 
400px outputId = "plot_2am4117$r8" D fe 
Width @ 
1 Drag Here to Delete Item 


Une fois ouvert, créez l'application selon vos besoins jusqu'à ce que vous soyez satisfait de la 
mise en page de l'application, puis copiez le code dans le fichier R approprié 


Pour plus d'informations, voir: 


https://ashbaldry.github.io/designer/ 
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Exemple 8.: Requêter de façon interactive SQL Server Express 


R 4.0.5 


Pour cet exemple nous recommandons très fortement d'abord au lecteur de relire comment se 
connecter à SQL Server Express avec le package RODBC à la page 453. 


library ('"ROD 
library('"shi 


ui <- shinyU 
pageWithsi 


headerPa 
sidebarP 
textIin 
submit 
}r 
mainPane 
tabset 
tabP 


) 


server <-— fu 
myData <- 
req(inpu 


traitan 
con = 0o 


contruc 
query = 


BC") # Also loads RODBC 
ny" ) 


I( 


debar ( 


nel("Hide Side Bar example"), 


anel ( 
put("ld", "Enter Employee ID below"), 
Button(text="Submit") 


L'( 
Panel 
anel ("Data", tableOutput ("EbTable")) 


nction(input, output, session) { 
reactive({ 
L$Id N 

) S 


tion de la requête dynamique 
paste0 ("SELECT EmployeeID, LastName, 


WHERE EmployeelD= ", inputS$ld) 


#stockag 
res<-sql 


#fermetu 
odbcClos 
#retour 
res 


}) 


outputS$StbT 
renderTa 
myData 
) 
} 


shinyApp (ui 


e du résultat 
Query(con,query ) 


re de la connexion 
e (con) 
des résultats 


able <- 
ble 
() 


= ui, server = server) 


Ce qui donne visuellement: 


se connecter à la base de données comme on l'a vue dans la 
t de la connexion à SQL Server Express avec RODBC 
dbcConnec£ ("SOL Server Express", rows at time = 1) 


FirstName FROM 


section 


Employees 
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Hide Side Bar example 


Enter Employee ID below ins 


EmployeelD LastName  FirstName 


3 Leverling Janet 


<Ÿ 
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Types de composants 


Acton actionButton(inputid, label, icon, .….) = numericinput(inputid, label, value, 
min, Max, Step 


Link actionLink(inputid, label, icon, ) 
er passwordinput{inputid, label, value) 


® Goxce 1  checkboxGroupinput{inputid, label, 


© Choice 2 choices, selected, inline) © Croce A  radioButtons(inputid, label, choices, 
Choice 3 Choice B selected inine) 
Choice C 


© ©eckme  checkboxinput(inputid, label, value) 
Choice 1| + selectinput(inputid, label, choices, 
selected, multiple, selectize, width, 


datelnput(inputid, label, value, min, ni size) (also selectizelnput()) 

ses. max, for Choks 2 

o: 
® © + sliderinput(inputid, label, min, max, 
— value, step, round, format, locale, 

rs dateRangelnput(inputid, label, start, ticks, animate, width, sep, pre, post) 

_…s.… end, min, max, format, startview, 

C] weekstart, language, separator) 


D xooty Changes | submitButton(text, icon) 


(Prevents reactions across entire app 


Choose File  filelnput(inputid, label, multiple, 
accept 


Enter text textinput(inputld, label, value) 


Types de balises 


& 
On peut utiliser les balises suivantes pour compléter notre tableau de bord: 
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tags$a tags$data tags$h6 tagsSnav tags$span 
tagsSabbr tagsSdatalist  tagsShead  tagsSnoscript tagsSstrong 
tagsSaddress  tagsSdd tagsSheader tagsSobject  tagsSstyle 
tags$Sarea tags$del tagsShgroup tags$Sol tagsSsub 
tags$Sarticle  tagsSdetails tags$hr tagsSoptgroup tags$summary 
tagsSaside tagsSdfn tagsSHTML tags$option tagsSsup 
tagsSaudio tagsSdiv tagsSi tagsSoutput tagsStable 
tagsSb tags$Sdl tagsSiframe tags$p tagsStbody 
tagsSbase tags$dt tags$img  tagsSparam  tagsStd 
tagsSbdi tags$em tegs$input  tagsSpre tags$textarea 
tags$bdo tagsSembed  tags$ins  tagsSprogress tagsStfoot 
tagsSblockquote tags$Seventsource tags$kbd  tags$q tags$th 
tagsSbody tagsSfieldset  tagsSkeygen tagsSruby  tags$thead 
tagsSbr tagsSfigcaption tagsSlabel  tagsSrp tags$time 
tagsSbutton  tagsSfigure tagsSlegend tags$rt tags$title 
tags$Scanvas  tags$Sfooter tagsSli tagsss tagsStr 
tagsScaption  tagsSform tags$link  tagsSsamp  tagsStrack 
tagsScite tagsSh1 tags$mark  tagsSscript  tags$u 
tagsScode tags$h2 tags$map  tagsSsection tagsSul 
tagsScol tagsSh3 tags$menu tagsSselect  tagsSvar 
tagsScolgroup tags$h4 tags$meta  tags$small  tagsSvideo 
tagsScommand tags$h5 tags$meter tags$source  tagsSwbr 
Ÿ 


Leur usage est simple comme en atteste le petit exemple ci-dessous: 


R RGui (64-bit) - [R Console] — OI 


GR File Edit View Misc Packages Windows Help 2 el à 


> library(shiny) 

> ui<-fluidPage( 

+ tags$hl("Shiny Training"), 

+ tags$hr(), 

+ tags$br(), 

+ tags$p(strong("Martial Luyts & Jeroen Sichien")), 
+ tags$p(em("PhD students in statistics")), 

+ tags$a(href="http://ibiostat.be","Il-Biostat")) 

> server<-function(input,output)!{} 

> shinyApp(ui=ui, server=server) 


Listening on http://127.0.0.1:4943 


qui donne: 
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Scientific Evo... 
[j 127.0.0.1:4943 


(CAR © 1270014943 $C: de 1 © 


Favoris Sciences.ch Scientific-Evolution #3 Google Traduction Permutation Test 


Shiny Training 


Martial Luyts & Jeroen Sichien 
PhD students in statistics 


l-Biostat 


Exemples 
Voici une galerie d'exemples glanés de l'Internet: 

eo 
Exemple R Shiny 1 (graphiques et eñamps) 
Avec R Shiny 1.0.5 et R 3.4.1: 


8 File Edit View 'ach Windows Help FX 


> library("shiny") 

ui<-fluidPage ({ 

titlePanel(title="Shiny app..."), 

sidebarLayout ({ 

sidebarPanel (numericInput (inputId="n","Sample size",value=10), 
textInput (inputId="title","Title of...","Fancy Boxplot in R"), 
radioButtons (inputId="color","Choose...",list("Blue","Green"),"Green"), 
submitButton("Apply changes")), 

mainPanel (plotOutput (outputId="box")))) 

server<-function(input,output){ 

output$box<-renderPlot (1{ 

boxplot (rnorm(input$n),col=input$color,main=input$title,xlab="Sample data")})} 
shinyApp(ui=ui,server=server) 


VO + OV + + + + + + + V 


Listening on http://127.0.0.1:5749 


Ce qui donne: 
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Sciences.ch 


( Shiny app... 


Favoris D Sciences.ch À Scientific-Evolution 


Shiny app... 


Sample size 


10 


Title of... 
Fancy Boxplot in R 
Choose... 


Blue 
e) Green 


Apply changes 


Scientific Evo... 


#3 Google Traduction Permutation Test r - resampling / sin 


Fancy Boxplot in R 


Sample data 


à 
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Exemple R Shiny 2 (ggplot2) 


Utilisation de GGPlot2 dans R Shiny 1.0.5 et R 3.4.1: 


[ 


| MR RGui (64-bit) - [R Console] 7 


| R File Edit View Misc Packages Windows Help -_ 8x 


EE 


> library(shiny) 
2 library(ggplot2) 
> library(gridExtra) 
> str(iris) 
"data.frame': 150 obs. of 5 variables 


$ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ... 
$ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ... 
| $ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ... 
$ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 O.1 ... 
$ Species : Factor w/ 3 levels "setosa","versicolor",..: 1111111111... 


ui<-fluidPage ( 

titlePanel(title="Fourth Shiny app"), 

sidebarLayout ( 

sidebarPanel ( 

sliderInput (inputId="sepallength","Sepal.Length:",min=4.3,max=7.9,value=Ss.8,step=0.1), 
sliderInput (inputIld="sepalwidth","Sepal.Width:",min=2,max=4.04,value=3,step=0.1), 
sliderInput (inputId="petallength","Petal.Length:",min=1,max=6.9,value=c(1.6,5.1)), 
sliderInput (inputIld="petalwidth","Petal.Width:",min=0.1,max=2.5,value=1.3,step=0.3, 
animate=animationOptions (interval=2600,loop=TRUE))), 

mainPanel (plotOutput (outputId="box")))) 

server<-function(input,output) { 

output$box<-renderPlot ({ 

sepall<-subset (iris,Sepal.Length>=4.3 £ Sepal.Length<input$sepallength, 
select=c(Sepal.Length,Species)) 

sepalw<-subset (iris,Sepal.Width>=2 & Sepal.Width<input$sepalwidth, 
select=c(Sepal.Width, Species)) 

petall<-subset (iris,Petal.Length>=input$petallength{l] & Petal.Length<input$petallength{2], 
select=c(Petal.Length,Species)) 

petalw<-subset (iris,Petal.Width>=0.1 64 Petal.Width<input$petalwidth,select=c(Petal.Width,Species)) 
test<-ggplot (sepall,aes(x=Species, y=Sepal.Length))+geom boxplot ()+theme bw() 
testb<-ggplot (sepalw,aes (x=Species,y=Sepal.Width))+geom boxplot ()+theme bw() 
testc<-ggplot (petall,aes(x=Species,y=Petal.Length))+geom boxplot ()+theme bw() 
testd<-ggplot (petalw,aes(x=Species,y=Petal.Width))+geom boxplot ()+theme bw() 
grid.arrange (test,testb,testc,testd,nrow=l1) 

h)} 

shinyApp(ui=ui,server=server) 


VO HO OO OV HO OV OV 


Listening on http://127.0.0.1:4603 


Ce qui va donner: 
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D Fourth Shiny app 


Fourth Shiny app 


Sepal.Lengt: 


a 


8 2 
z 
Es 
S 
à 


Pate Length 
etai àr 


pes 


Petal.Wicdth: | . 
1 0 5 so) = 


CRE ETES EPST ETAT] FAER RTAIEE A EE A 
Npecies Series, +naries 


W 


R Statistical Software 3086/3133 


Vincent ISOZ, Daname KOLANI Sciences.ch 


Exemple R Shiny 3 (onglets) 


Il s'agit ici de voir comment créer des onglets avec des contenus différents avec Shiny 1.0.5 et 
R 3.4.1: 


UR RGui (64-bit) - [R Console] — 


OR File Edit View Misc Packages Windows Help _F x 


library("shiny") 

ui<-fluidPage ( 

titlePanel(title="Shiny app"), 

sidebarLayout ( 

sidebarPanel ( 

selectInput (inputId="var","l. Select ...", choices=c{ 
"Sepal.Length"=1,"Sepal.Width"=2,"Petal.Length"=3,"Petal.Width" 
=4) ,selected=3,selectize=FALSE), 

sliderInput (inputId="bin","2. Select ...", 
min=5,max=25,value=s), 
radioButtons(inputld="colour",label="3. Select...", 
choices=c{("black","yellow","red"),selected="yellow") 
}, 

mainPanel ( 

tabsetPanel (type="tab", 

tabPanel ("Panel l",textOutput (outputId="textl"), 
plotOutput (outputId="myhist"})), 

tabPanel ("Panel 2",tableOutput (outputld="summary")) 
)))) 

server<-function(input,output) { 
output$textl<-renderText ({ 
colm=as.numeric(input$var) 

paste ("The ...",names(iris{[colm]j))}) 
output$myhist<-renderPlot({ 
colm=as.numeric(input$var) 
hist(iris{,colm],col=input$colour, 
xlim=c(0,max(iris{,colm]l)), 
main="Histogram...",breaks=input$bin, 

xlab=names (iris{colm]))}) 
output$summary<-renderTable ({summary(iris)}) 

} 

shinyApp (ui=ui,server=server) 


VO HO HE OV EE + + + VV 


Listening on http://127.0.0.1:5667 


Ce qui donne: 
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Sciontific Far. 
Pi Shiny app 
Gt He -s« “ « À ® à 


B favoris M Scie ch M Scentific-Cvolutior “ Google Traduction rw Permutation Test r-resampling / sir 


Shiny app 


1. Select … nee 


FE angth 
Pctal.Lengt 


istogr: ÈS 
2. Select … D 


PetalLength 


et: 


Srionmtic Fun 
D Shiny app 
Ce à 7 ] » À ® À 


BE avons > le Traduction [ n Test r-resampling / sim 


Shiny app 
1. Select … Panel 1 Panel 2 


Pelal.Lengtn Var1 Freq 


Lengih Min. :4.300 

2. Select … 

Scpai Length  1stQu.:5.100 
Length  Median 5.800 


Length  Mean:5.043 


3. Select... eval,Lenglh  3rd Qu.:6.400 


biack 


Dion a Length Viex. :7.900 
red width Min. :2.000 
Midth 18t Qu. :2.800 
a,WVidih Median :3.000 
Width Mean :3.057 
Vvidth 3rd Qu.:3.300 
pal Widih Max :4400 


Peial.Lengih Min. :7.000 
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Exemple R Shiny 3 (bouton de fermeture) 


Nous allons voici ici comment traiter une question très fréquente avec Shiny 1.0.5 et R 3.4.1: 
comment ajouter un bouton de fermeture de la fenêtre du navigateur et également qui arrête 
l'application Shiny? 


Pour ceci nous allons reprendre l'exemple précédent et mettre en évidence les parties du code 
qui sont nouvelles: 


QR RGui (64-bit) - [R Console] — (] 


OR File Edit View Misc Packages Windows Help F5 x 


library(shinyjs) 


jscode <- "shinyjs.closeWindow = function() { window.close(); }" 
ui<-fluidPage ( 
titlePanel(title="Shiny app"), 
sidebarLayout ( 
sidebarPanel({( 
selectInput (inputld="var","1l. Select ...", choices=c( 
"Sepal.Length"=]1,"Sepal.Width"=2,"Petal.Length"=3,"Petal.Width" 
=4) ,selected=3,selectize=FALSE), 
sliderInput (inputld="bin","2. Select ...", 
min=5,max=25,value=s), 
radioButtons(inputld="colour",label="3. Select...", 
choices=c{("black","yellow","red") ,selected="yellow"), 
useShinyjs(), 

extendShinyjs(text = jscode, functions = c("closeWindow")), 

actionButton("close", "Close window") 
}, 
mainPanel ( 
tabsetPanel(type="tab", 
tabPanel ("Panel l",textOutput (outputld="textl"), 
plotOutput (outputld="myhist")), 
tabPanel ("Panel 2",tableOutput (outputIld="summary")) 
)))) 
server<-function(input,output,session) { 
observeEvent (input$close, !{ 

js$closeWindow() 


stOopAPP () 


}) 

output$textl<-renderText ({ 
colm=as.numeric(input$var) 

paste("The ...",names(iris[colm]))}) 
output$myhist<-renderPlot({ 
colm=as.numeric(input$var) 
hist(iris{,colm],col=input$colour, 
xlim=c(0,max(iris{,colm])), 
main="Histogram...",breaks=input$bin, 
xlab=names(iris{colm]))}) 
output$summary<-renderTable ({summary(iris)}) 
} 

shinyApp(ui=ui,server=server) 


Vtt ++ ++ + 4 + lt + + V4 + + + + A lt + + + 4 VON VV 


Listening on http://127.0.0.1:4605 


Ce qui va donner: 
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Scientific Evo... 0 


Ci Shiny app x 


co GERS =“ + -+ 0: 


MB Favoris D Sciences.ch M Scientific-Evolution #3 Google Traduction Permutation Test r - resampling / sim Æ9 jQuery Tutorial 


Shiny app 


1. Select … Panel 1 Panel 2 


Petal.Length The … Petal.Length 


Histogram... 
2. Select … 


3. Select. 
black 
e) yellow 


Frequercy 


red 


Close window 


Petal Length 


et qui fonctionne parfaitement. 
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Exemple R Shiny 3 (Flux de mise à jour) 


L'idée ici est d'avoir une application Shiny qui lit automatiquement les nouveaux flux de 
données arrivant dans le "c:/tmp/". 


D'abord nous avons pour le fichier server.r où nous avons mis en rouge les éléments 
particulièrement intéressants: 


library("shiny") 
library('"data.table") 
library("ggplot2") 
library('"gridExtra") 


library('"readr") 

setwd("c:/tmp/") 

IsThereNewFile=function(){ # cheap function whose values over time will 
be tested for equality; 


# inequality indicates that the underlying 
value has changed and needs to be 
# invalidated and re-read using valueFunc 
filenames <- list.files(pattern="*.csv", full.names=TRUE) 
length(filenames) 


} 
ReadAllData=function(){ # À function that calculates the underlying value 
filenames <- list.files(pattern="*.csv", full.names=TRUE) 
read csv(filenames![length(filenames)]) 
} 
function(input, output, session) { 
sampled data <- reactivePol1l(10, session,IsThereNewFile, ReadAllData) 
# 10: number of milliseconds to wait between calls to checkFunc 
output$ploti<-renderPlot({ S 
sampled data= sampled data()Ÿ 
gi= ggplot (sampled data, aes(depth, fill = cut, colour = cut)) + 
geom density(alpha = 0.1) +xlim(ss, 


70)+ggtitle ("Distribution of Depth by Cut")+ 
theme (plot.title = 
element text (color="darkred",size=18,hjust = 0.5), 
axis.text.y — 
element text (color="blue",size=12,hjust=1), 
axis.text.x = 
element text (color="darkred",size=12,hjust=.5,vjust=.s), 
axis.title.x = element text (color="red", size=14), 
axis.title.y = element text(size=14)) 
g2=ggplot (sampled data, aes(carat, ..count.., fill = cut)) + 
geom density(position = "stack'")+ggtitle ("Total Carat by 
Count ")+ 


theme (plot.title = 
element text (color="purple",size=18,hjust = 0.5), 
axis.text.y = 
element text (color="blue",size=12,hjust=1), 
axis.text.x = 
element text (color="darkred",size=12,hjust=.5,vjust=.s), 


axis.title.x = element text (color="red", size=14), 
axis.title.y = element text(size=14)) 
g3=ggplot (sampled data, aes(carat, ..count.., fill = cut)) + 
geom density(position = "fill")+ggtitle ("Conditional 
Density Estimate")+ 
theme (plot.title = element text (color="black",size=18,hjust 
= 0.5), 


axis.text.y — 
element text (color="blue",size=12,hjust=1), 
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axis.text.x = 

element text (color="darkred",size=12,hjust=.5,vjust=.s), 
axis.title.x = element text (color="red", size=14), 
axis.title.y = element text(size=14)) 


g4=ggplot (sampled data,aes(carat,price))+geom boxplot ()+facet grid(.-cut)+ 

ggtitle ("Price by Carat for each cut")+ 

theme (plot.title = 

element text (color="darkblue",size=18,hjust = 0.5), 

axis.text.y = 

element text (color="blue",size=12,hjust=1), 

axis.text.x — 

element text (color="darkred",size=12,hjust=.5,vjust=.s), 
axis.title.x = element text (color="red", size=14), 
axis.title.y = element text(size=14)) 

grid.arrange(g1l,g2,g3,qg4) 


}) 
} 


Ensuite, nous avons le fichier ui.R: 


library(shiny) 
fluidPage ( 
tags$h2 ("Visualizing Streaming Data with Shiny", 
style="color:blue;text-align:center"), 
plotOutput ("plotl'",height = "600px") 


Une fois des deux fichiers enregistrés dans le dossier c:/fmp/my_app, nous ouvrons une 
première console R avec pour lancer l'application Shiny: 
NS 
L 
aù 


Rec 
8e File Edit View 


Misc 
GSCE 


> library("shiny") 
> runApp ("c:/tmp/my_app",launch.browser=TRUE)| 


Packages Windows Help … EX 


Nous ouvrons ensuite une deuxième console R dont le travail sera de mettre à jour le jeu de 
données: 
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R 
R File Edit 


> library(ggplot2) 
| > library(dplyr) 

> data("diamonds") 

> setwd("c:/tmp/") 


> while (TRUE) { 

+ temp=sample frac(diamonds, 0.1) 

+ wWrite.csv(temp, paste0("sampled", gsub("[*0-9]","",Sys.time()),".csv"), 

+ row.names = FALSE) 

+ Sys.sleep(10) # Suspend execution of R expressions. The time interval to suspend execution for, in seconds. 
+ 


Scientific Evo... 


D 127.00.1:5305 


(EMA © 127.0.0.1:5205 6s ‘ Ê ® à 


Favoris 


Visualizing Streaming Data with Shiny 


Distribution of Depth by Cut Total Carat by Count 


cut 
Fair Fair 
Good Good 
Ideal Ideal 
Premium Premium 
L_ Îvey Good Very Good 


60 65 ï Ô Î 2 3 à 5 
depth carat 
Conditional Density Estimate Price by Carat for each cut 
Good Ideal Premium Very Good 


Fair 

Good 
Ideal 
Premium 
Very Good 


1234. 4234 


qui se met à jour régulièrement! 
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Sciences.ch 


Enfin, pour ceux qui aiment R Shiny, voici sa dernière cheatsheet en date: 


Interactive Web Apps 
with shiny Cheat Sheet 
learn mere at shlny sudo com 


# Shiny 202 & 2 web page (VI connc2td to 3 
compter runnirg à live K:= 5107 (Server) 


Users can man puit te LE which will casse the 
server ts updzte the UIz de plays tbe runr img « cod 


App æmplate 
Bug ur ms à 1 app wi L à Lun llus Pruviour 
the po by tinningthe de at the « rarmman- fine 


Larars:2hiny) 
a <- fiad'axe(i 
nctiontinpuz, cutputi!}l 


Dmul, seu — er ver) 


e ui-nesced l funchons tharaszæemble ar HIML :5er 
iterdae er peur ap 


« server -2 fc ncior me retructins 2n how 
Lui ane robe: Liu Robjucks dispisue ir Lau 

e hinyApp - zur Li us U 1 ad sur vur à lus 
Runtaning 232 Wap weh runAppi) if calme Fm 
mec red cr t = rinsite » hintion 


Share your app 


The caseet ny tn share Jeur pp 
ê do luslilun Simapps &, 4 
caud =ased servis tro RStudio 


— Create 2 free o- protessiona: account at 


http:shinyapos.ic 


2. click =re Publish Fon In the RStLdio IDE 
ef 99) nr nn 
rsconnect-deplayappl th dirercep ) 


Build or purchase your ovm Shiny Server 
Ÿ DM EUT 0 com roues / 57 nv-æ rer 


CETET DETENTE ON TA PE 
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siuiR 


tunolage! 
rumericirput(mputle = "an, 
Maple ire, value — 25), 
E'ctoutpu=(outoutId "hist"! 


Librarylsnimr) ai Ru las avurs lice) 


vou woz kd save to ut 


PplotUuzoutiautputid - "hist®) 
' 


servecRu de willeiier 
foin tés: pue wuull se 
10 s2rver 


Lomme À Hour € Boat 
rendsr Pt 


SMART 4 Pr 
Mist raser Anputsn) ) tom ra t, autputi À 
h da CTPREUT PE Et 14: 


l Mzz(rrornismputéni } 
sNinyape int = ui, sarver = server » 


sutqui) € 
oi 


Haneed:n rail 
shinyÿAppi 


+ te déco rame s the ane atthe ap 
fotiunal) -afrs cbiucts avai abus Euils 
ti Rand ner R 
foztional] zscd in showzss= move 
_-testionl) =ats, xnipts cie 
SRE wotluiy {Mike L share ill: webs 
1 ag, CSS, js, ui.) Mual buis] *wruru” 


€ datatableoutpuricutpunid iron} 


ben rar watt, se gti, horu, 


que-Te2ÿTyne. 
pe 


appui 
Olobcl.R 
DESCRIFTRN e— 
README < RÉ 
<other files » e— 


a 


rendertatalahle(expr 


otinne, rail-a-k, eerane 


“que 


renderimage!sxpi cn, quoted, doctsf ei 


porc: utpurlontpurté, 
Cuoted fnc) dUibé, mL en 


ronderPlot{cxp w= 8h, eight, ich 
ay, ie CurayT qu, 


id, niv} 


Sight rex €", 


renderPrint{expr, +, uv 
ar 


ronderTable!xor.. 


verbeumTextOutput{outpurid] 


erv, cuozed, fine] 


table Outpur{sutzutid) 


renderiext(expr,sn, quoder, min) TOXTOUpUToUEpLT A, cn mer irhre) 


renderUl{expr. cv zuoscd, un) uiQutput(outputic, nl mm, contient, } 


htinlOutput{uulpuié, nlnc, nina, .} 


= + PASAAR III COCETTENT ET EST 


and 2 body Lu Le server func: 


inputs - collect values from the user 


Arrere te ciment his ct en mnt chiect ait input 
$“ingutids. Inut val. cs are reactive 


Acbon actionButton!nputiz, Labe, lo. 
actionLinkQnputid, oc! icon ..} 


chcckboCraupinputiinputid, lab£L, 


Chaire, s21Pcte né nel 


checkhosinput{inputie, IArel va €) 


dateRanganput(inputir, labe, 
end, miF, T8k, cena, SLENTV &w, 


flelnput{inputid, label, mu “plz, 
acep:) 


numericinput{inp-tid, labal, value 
mA, MEX, Step) 


passwordinput{inpulid, label, shui) 


re Paie pr 14, label, chuites, 
d,inline} 


selecunpulir pull, | W Ad, Cultes, 
00. MAD €, 5010 
ctect al RaMCU IMpUr 


sliderinput'inpulls, Labet, in 1n4<, 
valu, : fUurIL, lUNIAL, 


textinput{input/d, label, veluz} 


Ede tout 


Lanta ed ah aient plodanted e à 9 € 170 » LU nbaiel O7 
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Ge 


Reactive values work together with reactive functions. Call a reactive value from within the arguments of one of 
these functions to avoid the error Operation not allowed without an active reactive context. 


Trigger 
arbitrary code 
observeEr 

obs 


input$x! 


Create your own 
reactive values 


run(this) 


Prevent reactions 


expression() mb output $y 


ns” 


Delay reactions 
eventReactive() 


Render 
reactive output 


render‘() 


Create your own reactive values Render reactive output 


server <- 
function (1nput output) { 
r <- reactivevalues() 
jr'énumber <= 5 


Library (shiny) 
ut <- flutdpage( 
text Input ("a", 
textoutput ("b") 
) 


server <- 
fun: on (1nput, output) { 
output$b 
render Text ({ 
1solate({inputsa}) 
» 


} 


shinyapp(u1, server) 


Library (zhiny) 


Fac tient inpue, output){ 


eutput$b <- renderText({ 
Ere] 

,? 

Ehinyapptui, 


server) 


RStudio® is a trademark of RStudio, Inc. + CC BY RStudio + info@rstudio.com + 


“*Input() functions 
(see front page) 


reactiveValues(. } 


Each input function 
creates a reactive value 
stored as input$<inputid> 


reactiveValues{) creates a 
list of reactive values 


whose values you can set. 


isolate(expr) 

Runs a code block. 
Returns a non-reactive 
copy ofthe results. 


reactive(x, env, quoted, 
label, domain) 

Creates à reactive expression 

that 

- caches its value to reduce 
computation 

- can be called by other code 

+ notifies its dependencies 
when it ha been Invalidated 


Callthe expression with 
function syntax, eg. re() 


Library(shiny) 


ut <- fluidPage( 
textinput("a","","A"), 
textoutput ("b*) 


server <- 
function (input ,output){ 


ULibrary(shiny) 
ui <— fluidPage( 
textznput (al, ,"A"), 

acttonButton(go*,"Go*) 
) 


server <- 


functon (input output 
Sn nt 


JP TE CAMPUS) 
} 


shinyApp(u1, server) 


Ribrary(shiny) 


ui <- fluidPage( 
Rextinput (ra a" A 
ÉRANN "Go#), 
Féxrôutputt 


shinyApplui, server) 


844-448-1717 »rstudio.com 


render“() functions 
(see front page) 


Builds an object to 
display. Will rerun code in 
body to rebuild the object 
whenever a reactive value 
in the code changes. 


Save the results to 
output$<outputid> 


observeEvent(eventExpr 
, handlerExpr, event.env, 
event quoted, handierenv, 
handler.quotéd, labe, 
suspended, priority, domain, 
autoDestroÿ, IgnoreNULL) 


Runs code in 2nd 

ument when reactive 
values in 1st argument 
change. See observe() for 
alternative. 


Modularize reactions Delay reactions 


eventReactive(eventExpr, 
valueExpr, event.env, 
event quoted, value.env, 
value.quoted, label, 


domain, ignoreNULL) 


Creates reactive 
expression with code in 
2nd argument that only 
invalidates when reactive 
values in 1st argument 
change. 


More chez 


t http://www.rstudio.com/resources/cheatsheets/ 


An app's Ul is an HTML document. Use Shiny's 
functions to assemble this HTML with R. 


Combine multiple elements into a "single element" 
that has its own properties with a panel function, e.g. 


Fluidpage( 
textinput("a","") 

) HTML 

#* <div class="container-fluid' 

# <div class="forn-group sminy-input-container"> 

“ <label for="a"></label> 

mn « a" type="text" 


LU class="form-control" value=""/> 
CORRE 1 
# </div> 


MTML Sn eat 
functions that parallel common HTML 
tags$a(). Unnamed ar Me na Sod 
Into the tag; named arguments will become tag 


utes. 

regie pcs) ls) tapssnav Las) 
tagscaddress 1265548 Hsshender Rite 
resta © taps5del tagsshgroup tapssol tasSsub 
tstatide  “gsSdetals  tapsshr 
sb caes$dl apsslframe lagssp sstbody 
tbase © tagsidt Bgsiimg  tagsiparm  tausité 
tagsSbdi __ tagssinput  tagsspre ne 
tagsSblockquote :xzSeventsource L3gsSkbd 129559 gssth 
tessbody © ESleyn tessnby  Lpsithend 
28 “button Le sue e La land tagssrt Sa ame 

tessfooter pl tags rausétr 
tScption tem  uslnk  tapisemp  tagsitrack 

ei Besimek tasSsenpt  Lpsiu 
a CN Com ee 
tagsScolgroup :2g55h4 mysmeta tapsismall  tapsivideo 
t22s$command 2255h5 rausémeter LaysSsource  LagsSWbr 


The most common tags have wrapper functions. You 
do not need to prefix their names with tags$ 


ut <- flutdpage( 

hi("Header 1"), Header 1 

hr, 

br}, 

P(strong("bold")), boid 

P(em("italic")), 

P(code("code")) ; Pad 

a(href=un, Links), code 

HTML ("<p>Raw html</p>") | | 

au mi 
css ; 

To include a CSS file, use includeCSS(), or 
1. Place the file in the www subdirectory 
2. Link to it with 


tags$head(tags$link(rel = "stylesheet", 


type = "text/css", href = "<file namé>")) 
L Place the file in the www subdirectory 
2. Linktoit with 


tags$head(tags$seript(sre = "<file name>")) 


To include JavaScript, use includeScript() or 


IMAGES To include an image 


L. Place the file in the www subdirectory 
2. Linktoitwith img(src="<file name>") 


weLlpanel( 
dateInput ("a", 
submitautton() 


+ Es 2015-2010 


=, ur<-fluidi 


ui <-fluidPage( 
sidebai 
mainPanel() 


) 
) 


u< fluidPage( 
splitLayout( # object 1, 
#object2 
2 ) 
} 


ui <-fluidPagel 


Layer tabPanels on top of each other, 
and navigate between them, with: 


ur< IEEE mt | =: ‘me 
tabPanel(tab 1’, *contents*), 
tabPanelltab 2°, "contents*), 
tabPanel(*tab 3',"contents*))) 


ul = fluidPage( navlistPanel( 
tabPanel["tab 1', contents‘), 
tabPanel(*tab 2°, "contents-), 
tabPanel(“tab 3", "contents*))} 


< navbarPage(titie = | 
MÉcParat ee 1°, "con “ 
tabPanel(“tab 2°, "contents*), 
tabPanel("tab 3°, "contents*)) 


Learn more at shiny.rstudio.com/tutorial + shiny 0.120 + Updated: 01/16 


Figure 351 Chggheet R Shiny 
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40. Conclusion 


Voilà nous sommes arrivés à la fin de ce livre. Ce dernier n'est bien évidemment pas encore 
terminé et nécessite aussi de nombreuses mises à jour et compléments d'informations mais 
constitue toutefois probablement une bonne référence francophone pour tout praticien des 
statistiques de niveau LMD (Licence, Master, Doctorat) et tout débutant à R qui souhaiterait 
démarrer du bon pied et ce tout en étant informé des bonnes pratiques d'utilisation. 


Nous rappelons, pour ceux qui auraient sauté la lecture de l'introduction, que ce livre est 
surtout un compagnon au livre théorique Opera Magistris et aux formations dispensées par 
les deux auteurs de ce livre électronique. 
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41. Quelques abréviations dans R 
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Commande R Abréviation étendue 

1s [LJifS]t objects 

rm [Rle[Mlove objects 

str [STRJucture of an object 

unz [UNZ]ip 

_— SET [Wlorking 
[Dlirectory 

dir [DIRJectory 

she [String [PRINT] 
[Flormatted 

c [CJombine values 

regexpr [REGlJular [EXPRlJession 

[DIAG]onal values of a 

diag : 
matrix 

col [COL]Jumn 

lapply [LJist [APPLY] 

sapply [Slimplify [APPLY ] 

mapply [Mlultivariate [APPLY] 

tapply [TJable [APPLY] 
[APPLY] function to sets of 

apply values as defined by an 


index 


MARGIN = 1 or rows [1] come before 
2 in apply columns [2] 


[RJandom number generator 


rmvnorm for [Mlulti[ V Jariate 
[NORM al data 
rle [RJun [LJength [E]ncoding 


Commentaires 


common command in Unix-like operating 
systems 


common command in Unix-like operating 
systems 


Why "regular"? See regular sets, regular language 


Apply function to each element and return a list 


Apply function to each element and attempt to 
return a vector (1.e., a vector is "simpler" than a 
list) 


Multivariate version of sapply 


Apply function to sets of values as defined by an 
index 


e.g., a 2 x 3 matrix has 2 rows and 3 columns 
(note: row count is stated first) 
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Commande R 


ftable 


xtabs 


xtable 


formatC 


sweave 


cor 


ancova 


manova 


aov 


TukeyHSD 


hclust 


cmdscale 


factanal 


princomp 


prcomp 


1me 


resid 


ranef 


Abréviation étendue 


[Flormat [TABLE] 


Cross (1.e., [X]) 
[TAB lJulation 


[TABLE] of the object [X] 
[FORMAT] using [C] style 
formats 


[S] [WEAVE] 


[COR relation 


[ANJalysis [O]If 
[COVA Jriance 


[Mlultivariate [AN Jalysis 
[OIf [VAlJriance 


[A Jnalysis [O]Jf [V Jariance 


[Tjukey's [HJonestly 
[Slignificant [DJifference 


[Hlierarchical [CLUST Jer 
analysis 


[C]lassical metric 
[Mlulti[DJimensional 
[SCAL Jing 

[FACTJor [ANAL]ysis 


[PRIN]cipal [COMPJonents 
analysis 


[PRJincipal [COMP Jonents 
analysis 


[LJinear [Mixed [E]ffects 
model 


[RESID Juals 


[RAN]dom [EF]Jfects 


Commentaires 


[X] is the symbol of a cross; [X] is sometimes 
spoken as "by". Cross-tabulating means to cross 
one variable with another 


1.e., [C] the programming language 


The R Programming language is a dialect of. 
Weaving involves combining code and 
documentation 


anova [ANJalysis [OJf [VA]riance 
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Commande R Abréviation étendue Commentaires 
fixef [FIX]ed [EFIffects 


[Vlariance-[COV Jariance 


VCOV 


matrix 
logLik [LOG] [LIK]Jelihood 
ee [B] ayesian [Information 
[Clriteria 
APRES [Markov [Chain] [Monte] 
F [CJarlo [SAMP]ling 
[EVALJuate an R 
eval R 
expression 
cat con[CATJenate standard Unix command 
Search documentation for a 
apropos purpose or on a topic (1.e., Unix command for search documentation; 
[APROPOS]) 
Vanne [READ] a file in [CJomma 1.e., in each row of the data commas separate 
| [Sleperated [V Jalues format | values for each variable 
ie [REA] a file in [FJixed 
[WlJidth [F]Jormat 
seq Generate [SEQ]Juence 
rep [REPl]licate values of x perhaps also [REPJeat 
He DiMirdonotan diet Typically, number of rows and columns in a 
matrix 
gl [Glenerate factor [LJevels 
rbind [Rlows [BIND] 
chind [Clolumns [BIND] 
is.na [HS] [Nlot [AJvailable 
nrow [Number of [ROW]s 
ncol [NJumber of [COL]Jumns 
attr [ATTR]ibute 
rev [REV ]Jerse 
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Commande R Abréviation étendue Commentaires 
diff [DIFFJerence between x 
and a lag of x 
prod [PROD luct 
var [VAR ]iance 
sd [SItandard [DJeviation 
cumsum [CUMulative [SUM] 
cumprod [CUMulative [PROD]uct 
setdiff [SET] [DIFFJerence 
intersect [INTERSECT Jion 
Re [REJal part of a number 
[IMJaginary part of a 
number 
Mod [MODlJulo opertion remainder of division of one number by another 
" [TJranspose of a vector or 
matrix 
substr [SUBSTR ing 
strsplit [STRJing [SPLIT] 
[G]Jlobal / [RJegular Etymology based on text editor instructions in 
grep : ; 
[EJxpression / [Print programs such as ed 
_—. [SUBJstitute identified 
pattern found in string 
[GIlobal [SUB]Jstitute 
gsub identified pattern found in 
string 
[Plartial string 
tch 
Poe [MATCHIing 
Es [Number of [CHAR]acters 
in a string 
ps.options [Plost-[S]cript [OPTIONS] 


[WIN ]dows [METAFILE] 
graphic 


win.metafile 
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Commande R 


dev.off 


dev.cur 


dev.set 


hist 


pie 


coplot 


matplot 


assocplot 


plot.ts 


qgnorm 


persp 


xlim 


ylim 


xlab 


ylab 


main 


sub 


mtext 


abline 


h argument in 
abline 


v argument in 
abline 


par 


Abréviation étendue 

[DEV lice [OFF] 
[CURJrent [DEV lice 

[SET] the current [DEV Jice 
[HISTJogram 

[PIE] Chart 

[COInditioning [PLOT] 


[PLOT] colums of 
[MAT Jrices 


[ASSOCiation [PLOT] 
[PLOT] [TJime [SJeries 
[Qluantile-[QJuantile [P]lot 
based on normal 
distribution 
[PERSPJective [P]lot 
[LIM it of the [X] axis 
[LIM/]it of the [Y] axis 
[LAB Jel for the [X] axis 
[LAB Jel for the [Y] axis 
[MAIN] title for the plot 
[SUB] title for the plot 
[Mlargin [TEXT] 


[LINE] on plot often of the 
form y = [A] +1[B] x 


[HJorizontal line 


[VJertical line 


Graphics [PAR]Jameter 


Commentaires 


ad) as par [ADJ Just text [Justification 
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Commande R 


bg as par 


bty 


cex 


cex 


cex 


par 


cex. 


cex. 


par 


col 


las 


1ty 


lwd 


mar 


mfg 


as par 


as par 


.sub as par 


.axis as 


lab as par 


main as 


as par 


as par 


as par 


as par 


as par 


as par 


mfcol as par 


mfrow as par 


pch 


as par 


ps as par 


pty 


tck 


as par 


as par 


Abréviation étendue 
[Black[Glround colour 
[Blox [TYJpe 


[Clharacter [EX ]tension or 
[EX Jpansion of plotting 
objects 


[Clharacter [EX ]tension or 
[EX Jpansion of [SUBltitle 


[Clharacter [EX ]tension or 
[EX Jpansion of [AXIS] 
annotation 


[Clharacter [EX ]tension or 
[EX Jpansion X and Y 
[LAB Jels 


[Clharacter [EX ]tension or 
[EX Jpansion of [MAIN] 
title 


Default plotting [COL]Jour 
[LJabel of [A]xis [S]tyle 
[LJine [TY ]pe 

[LJine [Wli[D]Jth 
[MAR]gin width in lines 


Next [GJraph for [Matrix 
of [Fligures 


[Matrix of [Fligures 
entered [COL]Jumn-wise 


[Matrix of [Fligures 
entered [ROW]-wise 


[Pllotting [CHJaracter 
[Ploint [Size of text 
[Pllot region [TY Jpe 


[THICK] mark length 


Commentaires 


Point is a printing measurement 


tcl as par [THICIk mark [LJength 
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Commande R Abréviation étendue Commentaires 
Xaxs as par [X] [AX is [S]tyle 

yaxs as par [Y] [AX is [S]tyle 

xaxt as par [X] [AX is [T]ype 

yaxt as par [Y] [AX is [T]ype 

asp às par [ASPlect ratio 

oran as [LOGlarithm 


[Y] axis as [LOGJarithm 


ylog as par 
scale 


[Oluter [MJargin width in 


omi as par 


[Inches 
mai as par [MAïJrgin width in [I]nches 
pin as par [P]lot size in [IN]ches 
xpd as par Perhaps: [X = Cut] [P]lot ? Perhaps D for device 
xyplot [X] [Y] [PLOT] [X] for horizontal axis; [Y] for vertical axis 
bwplot [BJox and [W]hisker plot 
qq [QJuantile-[Quantile] plot' 
splom [Slcatter[PLOI]t [Matrix 
optim [OPTIMisation 
im [LJinear [MJodel 
at UE [L]Jinear 
[NJonlinear [LJeast 
nls [S]quare parameter 
esetimation 
loss [LO]cally [E]stimated 


[Slcatterplot [S ]Imoothing 


[TEST] null hypothesis that 
prop.test [PROPlJortions in several 
gropus are the same 
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Commande R 


rnorm 


dnorm 


pnorm 


qnorm 


rexp 


rgamma 


rpois 


rweibull 


rcauchy 


rbeta 


rt 


rf 


Abréviation étendue 


[RJandom number drawn 
from [NORM{al 
distribution 


[DJensity of a given 
quantile in a [NORM/Jal 
distribution 


[Distribution function for 
[NORM al distribution 
returning cumulaive 
[Probability 


[QJuantile function based 
on [NORMJal distribution 


[RJandom number 
generation from 
[EXPJonential distribution 


[RJandom number 
generation from [GAMMA] 
distribution 


[RJandom number 
generation from [POIS Jon 
distribution 


[RJandom number 
generation from 
[WEIBULL] distribution 


[RJandom number 
generation from 
[CAUCHY] distribution 


[RJandom number 
generation from [BETA] 
distribution 


[RJandom number 
generation from [t] 
distribution 


[RJandom number 
generation from [F] 
distribution 


Commentaires 


F for Ronald [F]Jisher 
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Commande R Abréviation étendue 


[RJandom number 


rchisq generation from [CHI] 
[SQluare distribution 
[RJandom number 

rbinom generation from 
[BINOM al distribution 
[RJandom number 

rgeom generation from 
[EXPJonential distribution 
[RJandom number 
generation from 

rhyper ; 
[HYPER]geometric 
distribution 
[RJandom number 

rlogis generation from [LOGIS]tic 
distribution 
[RJandom number 

rlnorm generation from [L]og 
[NOR ]mal distribution 
[RJandom number 

rnbinom generation from [NJegative 
[BINOM ial distribution 
[RJandom number 

runif generation from [UNIF]orm 
distribution 
[RJandom number 

rwilcox generation from 
[WILCOX Jon distribution 

ggplot in [Grammar of [GJraphics 

ggpliot2 [PLOT] 

aes in ggplot2 | [AFES]thetic mapping 

geom_ in ; : 

AHDLO ES [GEOMJetric object 

stat in no 

Hot [STAT istical summary 


coord_ in 


[COORD Jinate system 


ggplot2 


Commentaires 


See Leland Wilkinson (1999) 
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Commande R Abréviation étendue Commentaires 
gplot in | 
ggplot2 [Qluick [PLOT] 


[X] is common letter for 


x as argument à . 
unknown variable in math 


FUN as 


argument [FUN]ction 

Se [POS ition 
argument 

lib.loc in [LIBJrary folder 
library [LOC]Jation 
[SEPlJerator character 
argument 


comment.char [COMMENT] 
in read.table [CHAR ]Jacter(s) 


[]nhibit [Interpretation or 


à [Insulate 

T value [T]rue 

F value [Flalse 

na.rm as [Nlot [AJvailable 
argument [RJe[MJoved 

fivenum [FIVE] [NUMJber summary 
IOR [Inter [QJuartile [RJange 
coef Model [COEF]ficients 
dist [DISTJance matrix 


df as argument | [DJegrees of [Flreedom 


[MlJedian [A Jbsolute 


mad Li 
[DJeviation 

sink 

eol in [End] [O]Jf [L]ine 

write.table character(s) 


Divert R output to a connection (1.e., like 
connecting a pipe to a [SINK]) 
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Commande R 


R as software 


CRAN as word 


sexpr 


LSxSET 


browseEnv 


envir as 
argument 


q 


cancor 


ave 


max 


nlevels 


det 


crossprod 


gls 


Abréviation étendue 


[RJoss Ihaka and [RJobert 
Gentleman or [R] is letter 
before S 


[CJomprehensive [R] 
[Archive [NJetwork 
[S] [EXPRJession 


Show [STRlJucture of 
[LJifS]ted objects 


[BROWSE] 
[ENV Jironment 


[ENVIR]onment 


[QIuit 

[CANJonical [CORJrelation 
[AVElrage 

[MINJimum 

[MAX]imum 

[SQIuare [R]oo[T] 


[O]uter product 


[NJumber of [LEVELS] in a 
factor 


[DET Jerminant of a matrix 
Matrix [CROSSPRODJuct 


[Gleneralised [LJeast 
[SJquares 


Commentaires 


As I'understand it: Inpsired by CTAN 
(Comprehensive TeX Archive Network); 
pronunciation of CRAN rhymes with CTAN (.e., 
"See" ran as in Iran; "See tan") 


& is ampersand meaning [AND] 


| often used to represent OR in computing 
(http://en.wikipedia.org /wiki 
/Logical_disjunction) 


sequence generator; aslo used in MATLAB 
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Commande R Abréviation étendue 


dwtest in . 
[Dlurbin-[W}Jatson Test 
Imtest 
[S]tructural [E]quation 
[MJodel 


sem in sem 


bet ; 
etareg in [BETA] [REGression 


betareg 

log Natural [LOGlJarithm 
log10 [LOGJarithm base 10 

fft [Flast [Flourier [T]ransform 
exp [EXPJonential function 


[DJegrees of [F]reedom of 


df. idual 
A the [RJesidual 


sin [SINTJe function 

cos [COS line function 

tan [TANI]gent function 
asin [AJrc[SINJe function 
acos [AJrc[COS Jine function 
atan [AJrce[TAN]Jgent function 
deriv [DERIV Jative 

chol [Choleski] decomposition 


[CHOLJeski [2=TO] 


chol2inv 
[IN V'Jerse 
svd [SJingular [Vlalue 
[DJecomposition 
[EIGEN Jvalue or 
eigen 
[EIGEN Jvector 


[LOWER] [TRIJangle of a 


lower.tri : 
matrix 


Commentaires 


Default base is e consistent with most 
mathematics (http://en.wikipedia.org /wiki 
/Logarithm#Implicit_bases) 


1.e., ex 
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Commande R Abréviation étendue Commentaires 


[UPPER] [TRIJangle of a 


upper.tri . 
matrix 


[Auto [CJorrelation or 


acf ; : 
[Clovariance [FJunction 
Ja [Plartial A Juto [CJorrelation 
" or [CJovariance [Function 
de [Clross [Clorrelation or 
[Clovariance [Function 
Rattle as [R] [Analytical [T]Jool [To | : 
ee [LJearn [EJasily Perhaps, easy like a baby's rattle 
StatET as 


Anyone know? Statistics Eclipse? 
software 


der Java [GJUI for [R d "Jaguar" like the cat 
ne [Java [G]JUI for [R] pronounced "Jaguar" like the ca 
ESS as [E]macs [S]peaks 

software [Statistics 


Remdr package [R] [ClJof[m]man{d]Jef[r] GÜI 


prettyNum [PRETTY] [NUMJber 

Inf value [Inflinite 

NaN value [Nlot [A] [NJumber 

is.nan [IS] [Nlot [A] [NJumber 

S3 R is a dialect of [S]; 3 is the version number 
S4 Ris a dialect of [S]; 4 is the version number 
Rterm as : 

ot ait [R] [TERM/inal 

Fiat, I think: [R] [CJo[m]man[D] prompt 
program 

. [REPOS Jitory locations 

ee [BINJaries Common Unix folder for "essential 


command binaries" 
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Commande R Abréviation étendue Commentaires 


Common Unix folder for "host-specific system- 


etc folder et cetera ; , : 
l wide configuration files 


src folder [SJou[RC Je [C]Jode Common Unix folder 


doc folder [DOCJumentation 


[R] [GJrapical [U]ser 


RGUI program 
Pas [Interface 


.site fil 
ie [SITE] specific file e.g., RProfile.site 


extension 


Frank [HARRELL J's 
Hmisc package package of [MISCJelaneous 


functions 
n in debug [Next step 
c in debug [Clontinue 
Q in debug [Qluit 
ee date Se ae su on book of same name by Venables and 


Double play on words: (1) package manipulates 
plyr package PL[Y=ie][R] data like pliers manipulate materials; (2) last 
letter is R as in the program 


input [A Jrray output [Array 


1 

Lu using [PLY Jr package 
input [DJata frame output 

daply [AJrray using [PLY ]r 
package 

je input [L]ist output [Al]rray 

Fe using [PLY Jr package 

input [A Jrray output [DJata 

adply frame using [PLY Jr 
package 

De input [Array output [L]ist 


using [PLY Jr package 


input [A Jrray output 
a ply Discarded (1.e., _ is blank) 
using [PLY Jr package 
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Sciences.ch 


Commande R 


RODBC package 


psych package 


zelig package 


strucchange 
package 


relaimpo 
package 


car package 


OpenMx packge 


df in 
write.foreign 


GNU S word 


R FAQ word 


DVI format 


devel word 


GPL word 


utils package 


mle 


rpart package 


sna package 


ergm package 


Abréviation étendue 


[R] [Object [DJata[B Jase 
[CJonnectivity 


[PSYCH]Jology related 
functions 


[STRUC]tural [CHANGE] 


[RELA]tive [IMPOrtance 


[CJompanion to [A]pplied 
[RJegression 


[OPEN] Source [Mlatri[ X] 
algebra interpreter 


[DJata [F]rame 


[GNU] is [Not [Unix [S] 


R [Frequently [A]sked 
[Qluestions 


[DlJe[VJice [Independent 
file format 


[DEVEL]Jopment 
[Gleneral [Plublic [LJicense 
[UTIL]itie[S] 


[MJaximum [L]Jikelihood 
[E]stimation 


[Rlecursive [PART litioning 


[Slocial [Nletwork 
[A Jnalysis 


[EJxponential [RJandom 
[GJraph [Mlodels 


Commentaires 


"Zelig is named after a Woody Allen movie about 
a man Who had the strange ability to become the 
physical and psychological reflection of anyone 
he met and thus to fit perfectly in any situation." - 
http://gking. harvard.edu/ zelig/ 


Named after book by John Fox 


Need confirmation that [Mx] means matrix 


as in code under development 
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Commande R Abréviation étendue Commentaires 
[R] interface to program 


rbugs package [BJayesian inference 
[Using] [GlJibbs [SJampling 


<Ÿ 
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Exemple 466.: Identifier le type de données 
R 3.0.2 


Lorsqu'on décortique un script R dont on n'est pas l'auteur, souvent il nécessaire d'identifier le 
type d'objet que l'on manipule et parfois de la convertir en un autre type d'object. Nous en 
verrons quelques cas d'application concrets par la suite mais sinon voici au besoin la liste des 
commandes utiles pour authentifier le typage et faire une conversion: 


Authentification (renvoie un booléen) Conversion 
is.numeriC( ) as.numeriC( ) 
is.nulI( ) as.null( ) 
is.logical( ) as.logical( ) 
is.character( ) as.character( ) 
is.vector( ) as.vectoi( ) 
1s.factor( ) as.factor( ) 
1s.matrix( ) as.matrix( ) 
1s.list( ) as.list( ) 
is.data.frame( ) as.data.frame( ) 
is.na( } class( ) 


Tableau 4 Commandes d'identification de type d'objet 


X 
Ÿ 
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42. Index des Tableaux 


Tableau 1 Syntaxe des différentes distributions de probabilités 1181 
Tabléau:2’SYntaxe pour les ANOVA 282 anne annee ant nn ne dec eh Pan hd a Ma let ra an Er e 1339 
Tableau 3 Syntaxe des différentes régressions usines 1513 
Tableau 4 Commandes d'identification de type d'objet... ss 3114 
W 
Ÿ 
<Ÿ 
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43. Index des Figures 


Figure: 1 Chéatsheét R'StuÜdio: incite Mr ans nt ta nn en en en in rentre ane nt ltd ne ét ant 
Figure 2 Graph de Cullen et Frey... 

Figure 3 Graph de corrélation avec orientations... 

Figure 4 Graph matrice de corrélation sous forme de carte à chaleur... 4 
Figuré: 5 Chéatsheet-Stringris: sis nn en TR RE de ce TS Manet de sat ee Se ME 
Figure 6 Graph de comptage de variables ordinales à tiges... 
Figure 7 Graph de comptage de variables ordinales de type dotplot horizontal 266 
Figure 8 Graph de comptage de variables ordinales sous forme de diagamme à barres... 267 
Figure 9 Vecteurs vs Matrice vs Array vs Dataframe vs Liste sise 296 
Figure 10:Graph:dé-fonction:f(x)::%: rétro Me Mn mr nt rt nee De on as no needs en entr EU 309 
Figure:11 Graph:avecéquation dans leititre….iftins nn tentent nl ee rene inde Rent dhestte duree 313 
Figure 12 Graph avec équation dans la zone de traçage... seen 314 
Figure 13 Graph animé au format GIF de fonctions f(x}... ss 316 
Figure 14 Graph animé au format AVI de fonctions f(x)... sise 317 
Figure 15 Grap avec fonction f(x) et ses racines... ss 319 
Figure 16 Graph d'une fonction f(x) et sa dérivée... sise 321 
Figure 17 Graph d'une fonction f(x) avec ses point estimés... 324 
Figure:18:Graphde type Histogramme: ent nm items RE it née ri mener t te lune 333 
Figure 19 Graph 3D de fonction f({x,y) filaire .…. 336 
Figure 20 Graph de contour (isoclines) 2D de fonction 3D f{x,y).....…… .… 338 
Figure 21 Graph de surface de fonction 3Df(x,y) avec couleurs... .…. 341 
Figure 22 Graph de projection d'amplitude de fonction 3D f(x,y)...............…. .…. 342 
Figure 23 Graph de représentation de convergence d'algorithme génétique .…. 346 
Figure 24 Graph de la convergence de le méthode de Gauss-Newton d'une fonction f{x,y) .353 
Figure 25 Graph d'un tableau statistique .…. 379 
Figure 26 Graph d'une série temporelle avec données longitudinales 427 
Figure 27 Graphe d'échantillonnage aléatoire ss 533 
Figure 28 Graph Box-Whisker (boîtes à moustaches) ss 562 
Figure 29 Graph combiné d'analyse de valeurs manquantes... RCE 597 
Figure 30 Graphe d'histogramme de valeurs manquantes …. ER A D MR ANT NE 599 
Figure 31 Graphe Box-Whiser (boîtes à moustaches) de valeurs manquantes... 600 
Figure 32-Gfaph:d'un dâtaiframe: rennes tannins na dianrnn dede tin rade dre dard an il rats 609 
Figüre:33 Chéatsheet dplVr:asrnrénthn RAR int R er ARR rt le Al ir tnt rue RAR serre etes 661 
Figüre:34 Cheatshéét:egplot2 24m ae M DU End Ses ee anne Monet SE AS DE 698 
Figure 35 Graphique d'arborescence textuelle sise 701 
Figure 36 Graph avec option d'affichage de la grille... ses 711 
Figure 37 Graph de type phylogramme..…................ sise 720 
Figure 38: Graph:de typecladogramme::.s ss ki nine nf lt Ein sat eh frs h sa irc hrr té relate M drrtr hate 721 
Figure:39 Graph:cladogramme:cireulairé:::24rannaennnnatenhnnanannnmateninn nee naine 722 
Figure 40 Graph dendrogramme circulaire . 724 
Figure 41 Graph avec vecteurs (et textes)... . 726 
Figure 42 Graph avec fonction f(x) et ligne et flèches... . 728 
Figure 43 Graph avec textes circulaires... …. 730 
Figure 44 Graph avec texte et variables et symboles mathématiques. …. 731 
Figure 45 Graph avec image de fond... … 733 
Figure 46Graph avec rectangles dessinés .…. 735 
Figure 47 Graph avec cercles et disques dessinés... ss 736 
Figure 48 Graph de type diagramme de Venn ii iiiseeeserneeneeeneneeeeeeneeenees 740 
Figure 49 Grap avec ellipses dessinées ii iidiniinrienenrnrrrneenneneessnessnneeneenness 746 
Figure 50-Graph'avéc polygones dessinés: turn ninrnnae nuit ein idee ee dénrr ete aber adur 748 
Figure 51 Graph de type aire (basé sur l'usage de polygones) 750 
Figure 52 Graph d'intervalle (basé sur l'usage de polygones)....….................................. ss 751 
Figure 53 Graph de matrice (amplitudes de composantes)... sise 755 
Figure:54 Graph-de type: stém-andleafs.:2:5iv8s units rt me nt il han re nn née Re MR re snhen 762 
Figure: 55:Graph:de type stripchart zut inner raniimne mere ee nee terne dede r eee nee nes ete need er Ué nage 763 
Figure 56:GraphiX=Y:a points. 54e nant Made ad a te 2 use es dan MT DR ele Pasta Rae PE 765 
Figuré:57 Graph:de type stem:(a "tiges" sas sn anerrn tan a unitin en rene he dément en dr 768 
Figure 58 Graph de type stem (avec disques aux sommets)... 769 
Figure 59:Graph:X:Y'a:points-et'lignes:..:22.%3ifi hante nee ANR RAA AR rt AS RAA SR as 771 
Figure 60 Graph X-Y à points avec simple fit... sise 773 
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Figure 61 Graph de type lattices avec sous-graphs X-Y....................,..,,. ii isereeeeneeeeeeennees 
Figure 62 Graph à lattrices avec histogrammes, corrélation et régressions 
Figure 63 Graph X-Y à points coloriés par catégorie …. 
Figure. 64:Graphiailighes-cColoriées::.152 50m ht RE a ra en tn ta 
Figure 65 Graph lattice du quartet d'Anscombe ss 
Figure 66 Graph X-Y avec marques mineures aux aXeS ner errernenrrensrensensnenseessneneneneeeennnnn 
Figure 67: Graph'alignés-avec'triple.axes 25244802 nan nid ns sua dal Para tas PT Dee es dattes a Pen ae 
Figure 68 Graphy X-Y avec légendes sur chaque point... ss 
Figure 69 Graph X-Y avec zoom sur zone Graph X-Y sans ggplot2 
Figure 70 Graph X-Y avec zoom sur zone avec ggplot2 ir irrreneeeeeeneeeeennnss 
Figure 71 Graph X-Y avec courbes de densité (isoclines) ss 
Figure 72 Graph X-Y avec courbes de densité (isoclines) et gradients de couleurs (ggplot 
Figure 73 Graph X-Y avec courbes de densité (isoclines) en couleurs... 
Figure 74 Graphe X-Y avec rivière et légende de couleurs d'amplitudes 
Figure 75 Graph X-Y avec stem (tiges) et courbes de densité en marge 
Figure 76:Graph:X°Y.aVec mañfges d'errebrs::itésssnsimiteninmn mule rente eee Pierrette ae oftesPR Rd lee les 
Figure 77 Graph à pentes et interactions temporelles et catégorielles (ggplot) 
Figure 78 Graph X-Y avec table en coin... 

Figure 79 Graph de Cleveland (comptage horizontal variables catégorielles) 
Figure 80 Graph dot-plot..…...........…. 
Figure 81 Graph de Cleveland vertical. 
Figure 82 Graph X-Y Tournesols … LL LÉ ss £a 
Figüre:83-Graph:X=V:jittér sg tmicten ur hr M ne de en me Re Ad Pre a Un Ve Er nl tee 
Figure 84:Graph X-Y'avec-carte de deñsité::sssinrrilrieiiintnemindrrnirrentenndnesédrie entree etes treen que élues 
Figure 85 Graph X-Y avec carte de densité 3D filaire sise 
Figure:86:Graph:de type co:diagramme;:2ésre hannaenn nada ne dnnnnnaerene rene n nn rdes 
Figure 87 Types de symboles de points disponibles dans R ss 
Figüre:88:Graph:d'associations: ins ne nn MR RSR ME PS D Anna ne Mbrete ere Eu at a Pl tnt 
Figure 89:Graphiaimosaiques.iitsreitrmnirentnh ee mA nr mener einen tr nn tenn es a ide rade nr Teen ane en es etats 
Figure 90:Graph:de:type TrééMap :::2282 08 enter dsirenee lee sr an ind ane eds ne tre nm ane tete ele of side bre SP this 
Figure 91:Graphà barres:et couleurs. interne dre ten tri lne reduit 
Figure 92 Graph à barres avec remplissages NOR EEE 
Figure 93 Graph à barres avec marges d'erreurs a. nr re ne mr LA rm Re ee 
Figure 94 Graph à barres avec groupement par catégories sise 
Figure 95:Graph'a:barres.groupé:(cumulé).5.:522. 2.858 are PR a A RP ne Mn ee 
Figure 96 Graph à barres groupé et normalisé... seen 
Figure 97 Graph à barres groupé et normalisé (ggplot) …. 
Figure 98 Graph à barres groupé cumulé (ggplot) 
Figure 99 Graph à barres groupé cumulé avec sous-groupes 
Figure 100 Graph de type histogramme avec couleurs différentes pour intervalles 
Figure 101 Graph Waterfall.……… 

Figure 102 Graph à barres 3D 
Figure 103 Graph Bullet (munition) 
Figure 104 Graph à densité pour table de contingences (ggplot) 
Figure 105:Graphià barrésavec datés: trim hinmiinnennnstiiminmnmnnitnaniiirmlirutintenerdents 
Figure 106 Graph histogrammes superposés (avec transparence)... 
Figure 107 Graph X-Y avec histogrammes en marges seen 
Figure 108 Graph X-Y avec Box-Whisker (boîtes à moustaches) en marges 
Figure 109 Graph X-Y avec jitter en marges ue siesiernrrnenenereennenneneensneneeeeeeenenss 
Figure 110 Graph'äsires (g8plot) 2.222480 nn nt es nd es ts dre she dead BR ee Pasta da Peas 
Figure 111 Graph à aires normalisé (ggplot) ses 
Figure: 112 Graphide:tÿpeé HOTrIZON 12548 uit tre En le sd PRE re nn end Ps PRÉ T SEE 
Figure 113 Graph de type Horizon normalisé... ss 
Figure 114 Graph générés dans Microsoft PowerPoint... seen 
Figure 115 Graph générés dans Microsoft Word sise 
Figure 116 Graph Hexabin....….........................…. 2 
Figure 117 Graph Hexabin avec gradient de couleurs de densité 
Figure 118 Graph avec courbe et indice de Gini......................................... 
Figure 119 Combinaison de graphiques (points, répartition, histogramme, box-whisker) 
Figure 120 Graph Joy plot 

Figure 121 Graph Sparkline 
Figure 122 Graph de répartition empirique 
Figure 123 Graph avec fonction de répartition empirique avec box-plot en marge... 
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Figure 124 Graph avec fonction de répartition empirique (ggplot) 920 
Figüre:125:Graphidetypécaméembért:.:isxrssihninnnniiehirnnitihtinnnmtidhhinnntiAtinanmtihlhimuntinthinrtes 923 
Figure 126 Graph de type camembert (ggplot) sise 924 
Figure 127 Graph de type camembert en 3D ie iernrreneeeeneenneneneeeensnenseeeeeeeneees 925 
Figure:128 Graphen anneaux... hi in nn bte ie ren rl re tte t eine ete este SA de cet 927 
Figure 129 Graph de type Sunburst (rayon de soleil)... ss 932 
Figure’130 Graph'détype:fadar::..245208 at te nu ant ns Min dt 2e desde Panda PT DR Pa er Pasta eds a 934 
Figure:131:Graph de type IShikaWa::2ssnerasnine anne nn arrnnan adm een nee ere eat ne rss 937 
Figure:132:Graphde typé: Rose:des Vents rit amande muniiethnmsenntenrradrimenenndrmhes re dati ten er lets 938 
Figure 133 Graph de Pareto avec analyse ABC... in rrreeeneneeneeeeneneeeeeneeeeeeeeennnneee 942 
Figure 134 Graph de type Analyse ABC... een sneenenennessnen eme eneeeeneseneeenneeenne 943 
Figure 135 Graph de type Box-Whisker (boîte à moustaches) simple 945 
Figure 136 Graph Box-Whisker de type violon... 954 
Figure 137 -Graphdé type Pirate:::.:.4:4404 mt sn ent nt 2 Rene dd da Pa BR PT Panne Set 957 
Figure 138 Graph de type pyramide des âges... 959 
Figure 139 Graph de type Gantt (ggplot) . 962 
Figure 140 Graph de type Organigramme... .964 
Figure 141 Graph de type Gaufres .965 
Figure 142 Graph 3D de type surface... …. 971 
Figure 143 Graph 3D de type surface avec gradient de couleurs... .…. 974 
Figure 144 Graph 3D de type surface avec gradient de couleurs et interactif. .975 
Figure 145 Graph de projection avec isoclines de fonction f{x,y).................…. …. 976 
Figure 146 Graph de projection de densité de fonction f{x,y).................................. ss 976 
Figure 147 Graph de projection de densité et isoclines de fonction f{x,y)......................................... 978 
Figure 148 Graph'de surface 3D'ahimée:.i:2:44shtu runs ne nr ent rod se th hdd Miracle ste M rte 
Figure 149 Graph de surface 3D avec points... sisi 
Figure 150 Graph harmoniques sphériques ss ssssereiseeensreneeeeeeeeeeeneeenens 
Figure 151 Graph de type 4D avec slices (coupes) iii 
Figure:152:Graph'à points 3 Dhs Rii tn nn er Mens t diner rater N er tnt nee end fee intl nr anne dde d es rates 
Figure 153 Graph à points 3D avec légendes sise 
Figure 154 Graph 3D à points avec splines de trajectoires ss 
Figure 155 Graph 3D avec vecteurs... Rennes 
Figure 156 Graph à bulles 2D a. A nn RU dirt 
Figure:157 Graph'a bulles 2D'(88plôt):::252.5880rnn ta Ai Re ARR RE ARR Late ne rene Rd at den ae ta 
Figure:158:Graph'3D:à bullési<iitis esse et ts ne SR Se ann tn d een ee SR n ie ds Rate 
Figure 159 Graph à bulles de Rosling (animé)... sssssseeenseeenseenneeneeeneenerne 
Figure 160 Graph d'intervalle de fonction de distribution ss 
Figure 161 Graph polygone avec densité d'erreurs... sise 
Figure 162 Graph de fonction de densité par la méthode des noyaux … 

Figure 163 Graph à lattes (avec histogrammes)..............................….. 

Figure 164 Graph à lattes avec fonctions de densité 

Figure 165 Graph à lattes avec Box-Whisker..…................................…. 

Figure 166 Graph de Sankey vertical... 
Figure 167 Graph de Sankay horizontal de type alluvial sise 
Figure:168-Graph.dé matrice d'adjicencé:i.:siinaiuinnmnuinianmumanbinnminninmmanainnmanninaninnahnnant 
Figure 169:Graph de migrations ie idea nnente end naine lue di dr tas aide dead rie na Rte 
Figuré:170:Graph de'Réséau (relations) ::455%55558% tr RAR nt EN A Rte de benne de nette ramener orage natale ra 1e 
Figure 171 Graph de réseau avec clustering ui siiesieneeneneeeeeeeeeeeneeeeeenee 
Figure 172 Graph dendrogramme avec carte de chaleur... sise 
Figure 173 Graph de type dendrogramme (simple)... ss 
Figure 174 Graph ternaire (plans de mélanges)... ses 
Figüre:175;Graph'fractalé::25rs sie aie ne net ane Ten PRE dre 8 Ur 200 re TR rs ES 
Figure 176 Graph de topographie avec gradient d'altitude ss 
Figure 177 Graph topographique avec projection isoclines 
Figure 178 Graph topographique avec projection isoclines et gradients de couleurs 1068 
Figure 179 Graph de topographie hyperréel.…........................... sise 1071 
Figure 180 Graph Map-Monde Mercator avec zones géographiques coloriées 1079 
Figure 181 Graph de Map-Monde de Mercator avec bulles localisées... 1083 
Figure 182 Graph Map-Monde de Mercator avec zones géographiques (ggplot).…....…................................................ 1085 
Figure 183 Graph Map-Monde de Gilbert avec zones géographiques (ggplot)....… 

Figure 184 Graph Map-Monde de Mercator hyperréaliste hypsométrique …. 

Figure 185 Graph bassin hypsométrique....….............................................. ; 
Figure 186 Graph bassin hypsométrique avec isoclines es 
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Figure 187 Graph globle Mondial avec iso-courbes et densités de couleurs 
Figure 188 Graphe carte pays avec points 

Figure 189 Graphe carte pays avec zones géographiques 
Figure 190 Graphe carte avec zone latitude-longitude définies avec points et amplitudes 
Figure 191-Graph'a:carté NCDF£. 24e tes re haine n de Pr te re dre ere nl dre tt nee hier 2040 
Figure 192 Graph Google Maps avec points... seine 
Figure 193 Graph Google Maps avec polygone... 
Figure 194 Graph Google Maps avec courbes de densité ss 
Figure 195 Graph Google Maps avec cartes de densité ses 
Figure 196 Graph Google Maps avec diagrammes à barres... ses 
Figure 197 Graph Google Maps avec disques ie irrnereerereeeeeneeeeneenee 
Figure 198 Graph Map (Suisse) avec zones et disques (ggplot) 
Figure 199 Graph Google Maps avec trajectoire GPS... irrereereeneeneneeeneenee 
Figure 200 Graph Google Maps avec icônes et légendes... 
Figure 201 Graph de topographie marine... ss 
Figure 202 Graph:.dé.tÿpe:cartogramime::2.resunsmtneate shine te Pit inde den n lentes e eleve es start era nl a tele rendus sta 
Figure:203-Graph dé:flux (trajectoires) 5:28 Re nn nn A an ER ns Rene ei As ee Rs 
Figure 204 Graph de trajet optimal... _ 
Figure 205 Graph de calendrier ave densité de couleurs d'événements. 
Figure 206 Graph de diagnostique de fonction de probabilité. 


Figure 207 Graph de marche aléatoire à temp discret... 

Figure 208 Graph de fonctions de densités multiples... 

Figure 209 Graph histogramme avec courbe de densité et double axe... ss 
Figure 210 Graph de fonction de densité avec histogramme et fonction de répartition... 
Figure 211 Graph'de loi Normale:bivariéé:.:24%2shusan essentiel a nn ten te es rt dettes 
Figure 212 Graph de Youden (fonction de densité bivariée avec histogramme et fonction de densité en marge)... 1205 
Figure 213 Graph d'ellipses de confiance pour fonctions bivariées 
Figure 214 Graph de fonction de densité trivariée sise 
Figure 215 Graph d'une galerie de fonctions de répartition et densité 
Figure 216 Graph quantile-quantile avec histogramme et fonction de densité... 
Figure 217 Graph:q-q plot simple: inerte une tt anne rene tnt une lens 
Figure 218 Graph q-q plot avec intervalles de confiance Genres 
Figure 219 Graph q-q plot avec Box-Whisker.…....................... a An A An RE RO 
Figure 220'Chéatsheét Base R...:.508 4700 ihat ete nn ne En er APR TR sata ne ren 2 dre Sat ed eu SI 20e 
Figuré:221 Graph:avec:erreur de type:l'et ILssisassneesinaneneneet rate in entame nt aan tanins 
Figure 222 Graph q-q plot de données transformées (avant/après)..….................................. ss 
Figure 223 Graph de puissance d'un test... 


Figure 224 Graph d'histogrammes avec p-value par simulation Monte Carlo 
Figure 225 Graph ANOVA diagnostique des effets moyens 
Figure 226 Graph ANOVA graphique des interactions 
Figure 227 Graph ANOVA effets moyens avec intervalles de confiance 
Figure 228 Graph ANOVA effets moyennes à lattices avec intervalles 
Figure 229 Graph de diagnostique du test de Dunett seen 
Figure 230 Graph d'effets moyens Box-plot d'un ANOVA carré latin... 
Figure 231 Graph "scree plot" des valeurs propres de l'ACP...................,...,. einen 
Figuüre:232 Graph bi-plot:de:l'ACP:::434854ime en Gite ann A AT nn A A ne Pas en Rs 
Figure 233 Graph de carte de l'analyse factorielle des correspondances 4%. 
Figure 234 Graph de diagnostique d'ajustements multiples de fonctions de distributions... 
Figure 235 Graph'four-fold:;.1;Hinrrrtrnin en rune era ME ere cr ane en ereten enr ere ane rues qu Ent e 
Figure 236 Graph:d'agrément:. is snhan ion cts en fe RE ent en Re ee M el ed PR 
Figure 237 Graph régression avec erreurs verticales uses 
Figure 238 Graph de régression avec intervalle de confiance (ggplot) 
Figure 239 Graph régression avec intervalle de confiance et de prédiction (ggplot)..…............................................. 
Figure 240 Graph de diagnostique de la régression... sise 
Figure 241 Graph de régression avec intervalle de confiance et prédiction et poids des points 
Figure 242 Graph de diagnostique de effets de levier des résidus... 
Figure 243 Graph d'une régression quantile 
Figure 244 Graph d'une régression médiane 
Figure 245 Graph de régression avec représentation de la Gaussienne sur un point. 
Figure 246 Graph de régression avec représentation 3D de multiples Gaussiennes Fe 5 na 
Figure 247 Graph de lattice pour régression LOESS sise 
Figure 248 Graphique de diagnostique d'analyse de la sensibilité... 
Figure 249 Graph régression polynomiale avec intervalle de confiance (ggplot)............................................ 
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Figure 250 Graph interpolation de Lagrange (ggplot) see 
Figure 251 Graphique plan de régression linéaires 3D avec erreurs verticales et points. 
Figure 252 Graph de plan de régression 3D avec ellipse de confiance …. "A 
Figure 253 Graph d'une courbe ROC (Receiver operating characteristic) 

Figure 254 Graph d'une courbe ROC (Receiver operating characteristic) avec intervalle de confiance 1683 
Figure 255 Graph avec interpolation par splines..….................................... seen 

Figure 256 Graph interpolations n-splines, b-splines, rc-splines..............................,...................... 

Figure 257 Graph interpolation LOESS with confidence interval (ggplot) 

Figure 258 Graph de sondage Liekert à barre verticales groupées 

Figure 259 Graph de sondage Liekert à barre verticales groupées normalisées 

Figure 260 Graph de sondage Liekert avec fonction de densité ss 

Figure 261 Graph de survie de Kaplan-Meier.…............................ seems 

Figure 262 Graph de Weibull d'analyse de survie pour données censurées 

Figuré-263-Graphique:de:survié:de:Cok::.22 280 nr AT satin nt nn er ble nr sm dt ttes te de atteste 

Figure 264 Graph de réponse de surface pour plan d'expérience (DOE)..................................... 

Figure 265 Graph de désirabilité pour plans d'expérience (DOE) ss 

Figure 266 Graph de surface de réponse ternaire pour plans d'expérience (DOE) 

Figure 267 Graph de surface de réponse 3D ternaire pour plans d'expérience (DoE)… 
Figure 268 Graph fonction de perte de Taguchi 
Figure 269 Graph carte de contrôle xbar..…. 
Figure 270 Graph d'analyse de capabilité … 
Figure 271 Graph d'analyse Six Pack ne LE ss £a ja 
Figure 272 Graph:d'Analyse dé:capabilité:.2.:..27812 2 ren ne hit M PR ad nine br sus eta teen fstab dust e 
Figure 273 Graphique Carté.de contrôlé P:::5urtrnnerniitnemiunrdnnnennn tiennent nd rnne nn elite ner iureredennure 
Figure:274:Graph:Carte dé contrôle NP 2.428280 as nt st A Al ra Perd dt de ae den dE dede 
Figure:275'GraphCarte:de contrôle C:;:3:2522a8enne ren naine een harpe naine 
Figüre:276 Graph Carte de-contrôlé 22.24 2n Rhin hthirrmnnannntainn titi retenir tirant tt 
Figure:277 Carte-de contrôle Xbar2S:: 2 nt MR ne Re DU nn ne M tente na ste 
Figure 278 Graph de courbe de caractéristique opérationnelle (OC) 
Figure 279 Carte:dé:Contrôle:SbarsS 54e utile ee Mon ddne nt de rate nl rente se etre nd id ede tra émane ntse bre des 0 
Figure 280 Carte de contrôle Rbar-R (simple)... seen 
Figure 281 Carte de contrôle EWMAd......................................... Genres 
Figure 282 Graph Carte de contrôle CUSUM........................... 
Figure 283/Graph'Carte déicontrôle G:.21:14.n4 08e Rae AR nn mure th Rad sente genie Reda a init teneurs it t ee 
Figure 284 Graph Carte de contrôle T2 Hotelling.................................... seen 
Figure 285 Graph étude Gage R&R (Six Sigma) esse 
Figure 286 Graph d'analyse CCI (coefficient corrélation intra-classe).. 
Figure 287 Graph étude de l'instrumentation de type |... 
Figure 288 Graph d'analyse d'intervalle de tolérance 
Figure 289 Graph de fonction de répartition avec ligne verticale et horizontale.…. 
Figure 290 Graph évolution processus... 
Figure 291 Graph de résumé de flux de processus 
Figure-292/Cheatsheet'bUpaR 5452524 528ra nee ét af ne th tn la 8 Re UT dde ed TES S 
Figure 293:Graph'd'analyse: ABC:522 2e nnnneinnnrenlan inertie na nine ee na inner 
Figüre:294 Graph.d'analyse XYZ: his mnntlannmiannminsnmnntiniantiinninmmanaainnmaininanmminnehinantt 
Figüre:295:Graph:Analyse ABCEXZY:. 5 DR ARR nr SP Na ee Re Re nee Pa en Rte 
Fieuré 296: Graph:CCDF (geplot).:5:322 5% 48h ir ART nt EN AT 2 Rite ne re 2er rendre enr a unter fete 
Figure 297 Graph de classification par induction C5... isiseneeeeernereneeeeeeeenennee 
Figure 298 Graph 3D de classification hiérarchique ascendante (CAH) sur une carte factorielle 
Figure 299 Graph de polygones de classification hiérarchique ascendante (CAH) 
Figure 300 Graph de classification K-means....................................... ss 
Figure 301:Graph:dé silhotiétte sir eme esse nn ee te de di Ten ur ns net ere SUR res es UE 
Figure 302 Graph ellipses de clustering par K-Means siennes 
Figure 303 Graph de classification K-medoides usines 
Figure 304:Graph:classification SVM 2555220588 fireninmenetinrandanitmniniined rider ie retiennent ere 
Figure 305 Graph réseau de neurones … 4 
Figure 306 Fashion-MNIST samples (by Zalando, MIT License). 
Figure 307 Graph de séries temporelle de variables multiples 
Figure 308 Graph de décomposition RSTO d'une série temporelle 
Figure 309 Graph de projection d'une série ETS eu 5 De si D 
Figure 310 Graph de compilation de modèles ETS... einen 
Figure 311 Graph ACF et PACF de séries temporelles... sise 
Figure 312 Graph des résidus standardisé, ACF des résidus et p-valeurs de la statistique de Ljung-Box 
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Figure:313;Graph'Transformée:de:Fourier:. 24h nana aire ira nde tte trans tarder rende ht el dre SERA à 
Figure 314 Graph périodogramme transformée de Fourier. 

Figure 315 Graph de données de panel 

Figure 316 Graph Mouvement Brownien 

Figure 317 Cheatsheet XTS:5.5400 ne nm nn ne A ME ne hi er rare Rene haie diner site 
Figure 318 Graph d'une série financier avec intervalle de fluctuation (ggplot) 2483 
Figure 319 Graph de matrice des rendements sous forme de carte de chaleur... 2514 
Figure 320 Graph à chandelles et volumétrie (finance) sise 2516 
Figure 321 Graph de série temporelle avec bandes de Bollinger, volumétrie et moyenne mobile (finance)... 2522 
Figure 322 Graph à chandelles avec bandes de Bollinger, volumétrie et moyenne mobile (finance)... 2523 
Figuré:323;Graph'afbrebinomiall::2.2::.3%526hs ntm nn 0 been rte ne re med tn era ie end nn rate anne nee nt ere et 2540 
Figure 324 Graph des retours, retours cumulés et Drawdown ss 2561 
Figure 325 Graph répartition des poids d'un portefeuille avec exposition... 2566 
Figure 326 Graph Tornado des performances (ROIC) d'un placement d'un portefeuille... 2568 
Figure 327 Graph répartition des positions short et long d'un portefeuille avec exposition... 2572 
Figure 328 Graph Tornado des performances portefeuille vs benchmark.................................................. 2578 
Figure 329 Graph frontière d'efficience de Markowitz ie iissereeeeneeeeeeeeeeeeeenee 2606 
Figure 330 Graph frontière d'efficience de Markowitz avec courbe de Sharpe, portefeuilles simulés et autres. … 2610 
Figure 331 Graph frontière d'efficience de Markowitz avec CML ss … 2612 
Figure 332 Graphique des poids de portefeuille avec rendement et risque d'un portefeuille .2614 
Figure 333 Graph des comparaisons de performances d'indices de marché... F2 … 2633 
Figure 334 Graph de la VaR avec Q-Q plot, histogramme, densité et jitter ds ta … 2641 
Figure 335 Graph de l'intervalle de confiance de la VaR Gaussienne et Historique... 2654 
Figure 336 Graph VaR Historique, Gaussienne et Conditionnelle 2659 
Figure 337 Graph de classification ascendante hiérarchique de séries temporelles... 2678 
Figure 338 Graph de distribution statistique spatiale angulaire 2745 
Figure 339 Graph plus proches voisins... 2747 
Figure:340:Graph:-deréseau:dé mots: ne M A a DE M te Ste den flan RN ts 2766 
Figuré:341.Graph'dé nuage :démots:::25hiainbnh nn Med ris n bi bamntn rites auernt tee sta S dar en nrnn aid tete nés te nettes 2772 
Figure 342 Graph à barres d'analyse de sentiments uses 2791 
Figure 343 Graph ORTEP (Oak Ridge Thermal Ellipsoid Plot Program) squelette 2865 
Figure 344 Graph ORTEP (Oak Ridge Thermal Ellipsoid Plot Program) avec orbitales choisies... 2866 
Figure 345 Graph de Ramachandran..….................................. N 

Figure 346 Graph convolution de signaux... seen 
Figure 347 Graph spectrogramme de signal 1/3... een 
Figure 348 Graph spectrogramme de signal 2/3... ii enenneennnns 
Figure 349 Graph spectrogramme de signal 3/3 (ggplot).. 

Figure 350 Graph spectrogramme de Fourier... 


Figure 351 Cheatsheet R Shiny 
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Voici une bibliographie plus complète et exhaustive que celle présentée au début de ce livre 


utilisée pour le rédiger. Nous devons de nombreux emprunts à leurs différents auteurs et les 
remercions pour leurs contributions à l'ingénierie et à la SCIENCE. 
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45, Index 


JibPaths(), 115 
.Rprofile, 84 


aareg( ), 1829 

abc }, 944, 2006 

ABCplot( ), 943 

abcxyz(), 2009 

abline( ), 772, 775 

abs(), 164, 194 

acast(}), 578, 1932 
accuracy( }), 2412 

acf( }, 2389, 2390 
ad.test(}), 1255 
add_shadow{ ), 1072 
add_water( ), 1072 
add1(), 1607 

addBBandi }), 2521 
addCCI(}, 2523 
addmargins( ), 566 
addmf{ ), 3020 

addvar( ), 3020 

addVol }), 2523 

adf.test(), 2348 

aggr( ), 597 

aggregate( ), 569 
agreementplot( ), 1469 
ahp( ), 2035 

aide générale, 97 

aide pour un package, 97 
aide sur une commande, 97 
aide sur une expression, 98 
Akaike Information Criterion, 1603, 1611 
alarm( ), 2308, 2313 
aliasprint( ), 1843, 1852 
aliasTable( ), 1845 

all( ), 531 

all.equal( ), 172 

alluvial( ), 1022 

am.graph( }), 1029 

amatch( ), 242 
AmericanOption( ), 2527 
AmericanOptiontmpliedVolatility( ), 2533 
ancova( }), 1394 

annotate( ), 1127 
annotation_custom( ), 813 
annuity.fv(), 2692 
annuity.periods( ), 2692 
annuity.pv{ ), 2692 
annuity.rate( ), 2692 
Anova( }), 1363 

any(), 531 

aout.conttab( ), 1278 

aov{ }), 1341, 1350, 1358, 1377, 1395 
aovp( ), 1400 


LC 
à 


Ÿ 


aovperm{ ), 1400 
apply(), 277, 278, 2935 
apropos( ), 99 

arctext( ), 730 

args( ), 99 

arima.sim( ), 2414 
arrows( ), 726 
arrows2D( ), 728 
arrows3D( ), 998 
as,data.frame( ), 558 
as.character( ), 586, 3114 
as.data.frame( ), 3114 
as.data.frame.matrix( ), 854 
as.Date( ), 246 
as.factor( ), 3114 
as.formula( ), 2213 
as.list(), 2959, 3114 
as.logical( ), 3114 
as.matrix( ), 3114 
as.Node( }), 701 

as.null( ), 3114 
as.numeric( ), 219, 247, 3114 
as.POSIXct( }, 257, 263 
as.POSXIIE( }, 263 
as.randtest( ), 1294 
as.vector(}), 558, 3114 
as.xts(}), 2487 
AsianOption( ), 2557 
assign( ), 2899 

Assocs( ), 1486, 1490 
assoctats( ), 1480 
atan(), 168 

atan2(), 168 

attach(}), 552 
auto.arima( ), 2411 
autoplot(), 1826 
autplot( ), 2357 

ave( ), 524 

axn( }), 2691 


B_erlang( ), 2703 

bag_o_words(), 2794 

bagplot( ), 1274 

barChart( }), 2515 

barmekkol ), 866 

barMiss( ), 598 

barp( ), 855 

barpbl ), 844 

barplot( ), 835, 836, 843, 847, 849, 1695 
bartlett.test(), 1380 

Bayesian Information Criterion, 1611 
bayesTest(}), 2738 

beheadi }, 584 

beta.select(}), 2725 

BetaCoVariance( }), 2643 
bibliographique, 46 

bind }, 268 


R Statistical Software 


3123/3133 


Vincent ISOZ, Daname KOLANI 


Sciences.ch 


bind_cols(), 656 
bind_rows( ), 655 
binom.test( ), 1318 
BinomialTreeOption( ), 2539 
biplot( ), 1409 

bkde2D( }, 1202 
bland.altman.plot( ), 1928 
BM( }, 2477 

body( ), 2959 

bondpv{ }), 2466 

boot( ), 1969 

boot.ci( ), 1969 
bootdist(), 1974 

boxplot( ), 945 

brant( ), 1718 

brinson( }), 2576 

brkdn( ), 203 

browse), 2957, 2958 

bs( ), 1793 

build( }, 2969 


c(}, 219 

C_erlangi ), 2704 

C5.0( }, 2109 

ca( ), 1425 
caFactorialDesign( ), 1840 
calc.relimp( ), 1592 
callHestoncf( ), 2555 
can.plot( ), 1104 
candelChart( }), 2518 
CAPM.alpha( }, 2646 
CAPM.beta( ), 2643 
CAPM.CML( ), 2644 
CAPM.epsilon( ), 2646 
CAPM.jensenAlpha( ), 2645 
CAPM.RiskPremiumi }), 2644 
capture.output( ), 163, 3035 
cartogram( ), 1156 
case_when( }), 640 

cat(}, 163, 233, 234 

cc{ ), 1665 

ceiling( ), 176 

cf(), 2696 

cel ), 1936 
chart.Correlation( ), 2616 
chart.CumReturns( ), 2627 
chart.ECDF(), 2639 
chart.Histogram( ), 2640 
chart. QOPlot(), 2639 
chart.RollingCorrelation( ), 2634 
chart.RollingMean( ), 2635 
chart.VaRSensitivity( ), 2653 
charts.PerformanceSummary( ), 2617 
check_model( ), 1529, 1583 
chi.squared( ), 2318 
chisq.test(}), 1458, 1460, 1471 
chol( }), 278 

choose ), 164 
chordDiagram( ), 1034 
choroLayer( ), 1099 

chron ), 252 


ci.se( ), 1682 

cindex( ), 1816 

circos.par( ), 1034 
circos.trackPlotRegion( ), 1034 
circular( ), 2745 

citation( }, 89, 120 
cl_predict(), 2131, 2134 
class( ), 307, 3114 
classify_emotion(), 2788 
classintervals( ), 921 

cim( ), 1709 

clusplot( ), 2130 
cmdscale( ), 2204 
coerced, 223 
colorRampPalette( ), 755 
combinations(), 188 
combni ), 187 
commentaires, 95 
Companylinfol( ), 2464 
compare_performancel{ ), 1544 
confint( ), 2412 
confounds( ), 1845 
contour! }), 822, 976, 2867 
contourPlot( ), 1860 
contourPlot3( ), 1880 
contours( ), 799 

contrats( ), 1395 
contribution( ), 2567 
conv{}), 2874, 2875 
convolution( ), 281 
convpow!{ ), 2875 

coords( ), 1683 

coplot( ), 824 

cor! }, 213, 1475, 1578 
cor.test(}), 1574 

cor2cov( }, 274 

Corpus), 2756 

cos( ), 167 

cov{ }, 213 

covdEstimator( ), 2579 
coxph( ), 1823 

C, de Mallows, 1609, 1611 
cppFunction( ), 2944 
cran_top_downloads( ), 127 
create( ), 2964 
create_matrix( ), 2780 
createDataPartition( ), 2284 
cronbach.alphal( ), 1482 
cross( ), 221 

crossprod(), 221 
CrossTable( ), 570, 1463 
crost(}), 2381 
CRRBinomialTreeOption( ), 2539 
cumsuml }), 219 

curve( }), 309, 1190 
cusuml{ }), 1919 

cutoff.k( ), 2318 

cvar( ), 197 

cvum.test( ), 1256 


d(), 2875 
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daa( ), 2037 

dabest( }, 1312 
dailyReturn( ), 2491 
daisy( ), 2129 
data.framel ), 193, 303, 515 
data.table( ), 663 

DB( }, 2693 
dbConnect{}), 451 
dbDisconnect( ), 452 
dbDriver( ), 451 
dbetal( }), 1235 
dbExistsTable( ), 452 
dbGetQuery( ), 452 
dbinomt ), 1215 
dbn.dnn.train(), 2296 
dcast( }), 581, 681 
dchisq( ), 1228 

ddply( ), 887 

deal), 2046 

debug), 2954 
decomposel{ }), 2354 
decorated3d{ }), 986 
define_transition( ), 831 
degree( ), 1041 
delta.t.test( ), 1301 
Deming( ), 1722 


density( ), 1010, 1193, 1213, 1217, 1219, 1221, 1223 


Desc( }, 1484, 1488 
descdist( ), 1972 
descidist( ), 211 
describe( ), 202 
describeBy{ ), 206 
design.graecol( ), 1389 
designAppl ), 3077 
desirability( ), 1874 
detach( }, 113 
detect_dm_csv(), 2308 
detect_water( ), 1072 
dev.off( ), 1174 
deviancel ), 1516 
dexpl{ ), 1226 

df( }, 1231 

dgamma ), 1234 
dgeomi }), 1212 

dget( ), 368 

dhyper( ), 1223 

diag{ ), 272 

diagwl(), 795 
diamondplot( ), 933 
diff( ), 219 

diffdf( ), 684 
diffdf_issuerows( ), 686 
difftime( ), 247 

dim), 192, 269, 516 
dis.plot( ), 1105 
DiscreteDistribution( ), 1184 
display( ), 3007 
dist(}, 2113 
distinct(}), 647 
dixon.test( ), 1277 
dinormi( }), 1232 
dmultinom( }), 1225 
dnbinomt ), 1219 


Ÿ 


dnormi ), 1190, 1204 

do.call( }, 2313 
DocumentTermMatrix( ), 2769 
docx_extract_tbl(), 473 
doProcessing| ), 499 

dossier de travail par défaut, 81 
Dossier de travail par défaut (changement définitif), 84 
dotchart( }), 815, 832 
dotplot(}), 817, 1935 
dotplot.mtb(), 816 
download.file( ), 432 

dpois( ), 1221 

dput(}, 367, 370 

draw.circle( ), 736 
draw.ellipse( ), 746 

drop1{ ), 1606 

dt(), 1230 

dummify( ), 2071 
dummy_cols( ), 2073 

dunif( ), 1210 

duplicated( ), 549 

dweibull( }, 1233 


E(), 1039 

earth( }), 1801 

ecdf{ ), 917 

eclat( ), 2097 

edit(), 304, 2895 
efficientPortfolio( ), 2584 
ellipseplot( ), 746 
emmeans{), 1370 

EOQ }, 2022 

epi.2by2(), 1695 
equalWeightsPoints( ), 2607 
ES(), 2655 

esquisse( ), 692 

Étoiles p-value (désactivation), 93 
ets(}), 2367 
EuropeanOption( ), 2527 
EuropeanOptiontmpliedVolatility( ), 2533 
ewma( ), 1917 

example( }, 102 

Exn( ), 2691 

exp( }), 164 

expand.grid(), 1368, 1836 
expression( ), 312 
extract_eq{ ), 1747 


fa(), 1419 
fac.design( ), 1839 
facDesign( ), 1860 
factor( ), 239, 265, 558 
fastiCA( }, 1416 
favorites( ), 480 
FDA, 55 

fdo.frac( ), 1844 
fft(), 2440 
file.choosel ), 366 
file.create( ), 2895 
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file.edit(}, 2895 
file.exists( ), 2895 
file.info( ), 82 
file.list(), 374 
file.size( ), 363 

fill( ), 657 

fill.na( ), 593 
filled.contour( ), 976 
filter(}, 584, 2359 
Filter( ), 542 

find.plan( ), 1939 
findCorrelation( ), 2315 
findGivenNames( }), 2777 
fisher.test( ), 1322, 1462 
fit_dist_addin(), 1451 
fitCopula( ), 1438 
fitdist(), 1456, 1974 
fitdistr(), 1455 
fivenumi ), 198 

fix(}, 305 

flexsurvregi ), 1830 
flextable( ), 893 

floor( }), 176 

Food and Drug administration, 55 
for( ), 2908 
forecast(}), 2375 
format| ), 94, 247, 258 
formatCl{ ), 177 
fortify( ), 1139 
forums, 43 

forward( ), 2454 
fourfoldplot( ), 1468 
fracChoosel ), 1848 
fread( }), 662, 2313 
FrF2(), 1843 
friedman.test( ), 1503 
fromJSON( }, 412 
frontierPlot( ), 2606 
ftable( ), 573 
FTGramimage( ), 2883 
full_join( ), 653 
function( ), 309 
fviz_cluster(), 2121 
fviz_eig(), 2116 
fviz_pca_ind(}), 2117 


G.test( ), 1509 

ga( ), 342 

gamma( ), 164 
GanttChart( ), 961 
garch( ), 2416 
garchFit(), 2419 

GBM( }, 2477 

gc( ), 138 

generate( ), 776 

geom_ area), 886 
geom_bar( ), 856 
geom_density2d{ ), 797 
geom_function( ), 314 
geom_parliament_seats( ), 967 
geom_path( ), 1127 


eŸ 


geom_point( ), 1125, 1129 
geom _ribbon( ), 2481 
geom_subplot( }), 1132 
geoMean( }, 2455 
geometric.mean( ), 2914 
geoSD( }), 2455 

GET(), 503 

get.hist.quote( ), 2487, 2627 
get_comment_threads( ), 492 
get_googlmap( }, 1143 
get_mapt }, 1121 
get_stats(}), 492 
GetBalanceSheet( ), 2464 
GetCashFlow{ }), 2465 
getDividends( ), 2493 
getMetals(), 2501 
getOptionChain( ), 2488 
getQuote( }), 2487 
getReviews( ), 494 
getSymbols( ), 2515 
getSymbols.yahoo( ), 2486 
getwd }, 81, 115 
ggbarplot(}), 841 

ggbiplot( ), 1410 

ggcoef( }), 1585 
gedendrogram( ), 1050 
gglocator( ), 1126 
ggmapt}), 1121, 1143 
ggpairs( ), 759, 1018 
ggplot(), 797, 854, 1137 
ggsave( ), 2912 


S gespectro( ), 2881 


ggsurvplot( ), 1811 

ggvenn( ), 742 

ggviolin( ), 1342 

Gini( }, 901 

givenNames ), 2777 

glht(), 1377 

glimpse( ), 665 

glm( }, 1676, 1725 

glm.nb( ), 1728 

Gmeanl ), 1295 

GNU, 23 

goodfit(), 1269, 1270 

GoodmanKruskalTaul ), 1483 

grad( }), 323, 352 

grad.desc( ), 353 

graph.data.frame( ), 1038 

graph_from_adjacency_matrix( ), 1031 

Graphique de Gardner-Altman, 1312 

grep ), 241, 530 

grepl(), 542, 2753 

grid{ }, 309, 710 

grid3d( ), 986 

group_by{ ), 879 

grubbs.test( ), 1275 

gsub( ), 233, 236, 2757, 2786 

GTest(), 1473 

gtrends( ), 496 

GUI 
Défaut GNOME Linux, 67 
Défaut Microsoft Windows, 67 
R Studio Microsoft Windows, 68 
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Visual Studio.Net Microsoft Windows, 70 


H 


h2o.automl(}), 2299 
h20.deeplearning( ), 2304 
h20.importFile( ), 2298 
h20.predict( ), 2303 
havalues( ), 1536 
hclust(), 1050, 2114 
HCPC( ), 2118 

head ), 360 

heatmapt( ), 1046, 1048 
help( ), 97 

help.start( ), 97 

here }), 357 

hessian( }), 352 

hexbin( ), 898 

highs(), 1866 

hist( ), 861, 862, 882, 2477 
hist3d( ), 875 

histSpike( ), 803 
HodgesLehmann( ), 1446 
holiday*(), 254 

holt( }, 2369, 2378 
HoltWinters( ), 2361, 2365, 2367, 2370 
horizonplot( ), 888 
hoslem.test( ), 1401, 1687 
hour }), 259 

html_nodes| ), 129 
htmlParse( ), 428 
HuberM{ }), 225 

hubers( }), 231 

hwl ), 2378 


iconv( ), 241 

if_else( ), 639 

ifelse( ), 2902 

image( }), 820, 977 

image.plot( ), 978 

image2D( ), 979, 1068, 1087 
index ), 2486 

influencePlot( ), 1535 
inner_join( }), 653 

install( ), 2970 

install.packages( ), 107, 122, 389 
install.views(), 111 
install_tensorflow( ), 2269 
install_version( ), 113 
Installation R Mac OS, 59 
Installation R sous Scientific Linux, 60 
Installation R sous Windows, 57 
installed.packages( ), 118 
integrate( ), 326 
interaction.plot( ), 1352, 1360 
intersect( ), 186 

intToUtf8( ), 242 

invisible( ), 2961 

IPMT{ ), 2695 

igr( ), 196 

irr( }, 2698, 2699 


Ÿ 


is.character( }), 180, 3114 
is.complex( ), 180 
is.data.frame( ), 3114 
is.factor( ), 3114 
is.integer( ), 180 

is.list( }, 3114 

is.logical( ), 180, 3114 
is.matrix( ), 3114 
is.na(), 588, 590, 3114 
is.null( ), 3114 
is.numeric( ), 180, 3114 
is.vector( }), 3114 

isin( ), 187 

ISOdate( ), 247 
isoweek( ), 248 


itemFrequencyPlot(), 2099 


jackknife( ), 1979 
jarque.bera.test( ), 2477 
JGR(), 694 

jitter( ), 819, 885 


kappa2( ), 1478 


kde2d( ), 799, 820, 984, 2867 


Kendall( ), 1476 


KernelSmoothing.cdf( ), 1014 


kmeans(}), 2126 
kronecker( ), 293 
kruskal.test( ), 1504 
ks.test( ), 1450 
ksmooth( }), 1552 
kurtosis( ), 208 


laf_open( ), 2308 
laf_to_ffdf{ ), 2308 
lag( ), 2467 

langue interface, 80 


lapply(), 90, 615, 618, 2786 


laterAFCM( ), 583 
law.plot2d( ), 776 
law.plot3d( ), 777 
layout.mds( ), 2205 
layout.show( ), 902 
lbetal ), 1236 

Le( }, 901 

Ida( ), 2209 

leaps( ), 1609 
left_join( ), 652 
legend), 309 
legendre( ), 988 
length( ), 199, 219 
levelplot( ), 755 
levene.test( ), 1334, 1335 
library( ), 319 
licence( ), 88 

liens internet, 43 
likert( ), 1804 
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lillie.test( ), 1451 monteCarloPoints(}), 2610 
lines( ), 771, 1213, 1217, 1219, 1221, 1223 monthlyReturn( ), 2491 
list( ), 296 monthplot( ), 804 
list.files( ), 82, 2313 months( ), 247 
lister fichiers d'un dossier, 82 mood.medtest( ), 1496 
Im(), 1395, 1514, 1527, 1579, 1599, 1618, 1630, 1795 mosaicplot( ), 832 
Imer(), 1746 movie3di( ), 497 
ImList(}), 1745 mPlot(}), 691 
load), 160 ms), 2151 
loadhistory( ), 157 msmedse({ ), 232 
locator( }), 765, 766 multinomt( ), 2221 
locpoly( ), 1553 mun.plot( ), 1105 
log( ), 164 
LogLoss( ), 1685 N 
lows( ), 1866 
Is( ), 139 na.omit( ), 589 
Is.str(), 140 naive( ), 2403 
LSD.test( ), 1373, 1391 naive_bayes( ), 2160 
Isf.str(), 101 naiveBayes( ), 2158 
Ismeans( ), 1366 NaiveBayes( ), 2284 
LSmeans( ), 1366 names }), 1866 
Isqlincon( ), 1617 nc_open(}), 1117 
lu.decomposition( ), 283 nchar( ), 233 
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